12 个月内模型吞噬 Agent Harness?Google AI Studio 负责人深度解读 Agentic AI 演进与创业路径

【摘要】2026 年 Google I/O 之后,Agentic AI 从大模型应用的一个技术方向,升级为头部科技公司的产品主线。围绕 Google DeepMind 高级产品负责人 Logan Kilpatrick 与红杉资本合伙人 Sonya Huang 的深度访谈,可以看到一条清晰路径:Google 正用 Antigravity Agent Harness 重构产品底座,编码 Agent 正逼近窄域超级智能门槛,通用 Agent 脚手架可能被模型原生系统吸收,Omni 类统一多模态模型正在模糊世界模型与视频模型的边界。对开发者、技术负责人和 AI 创业者而言,真正的问题不再是“要不要做 Agent”,而是如何在模型快速内化能力的周期里,找到仍然有壁垒的工程位置和商业位置。

引言

2026 年上半年,AI 产业出现了一次明显的主线切换。过去的核心问题是“大模型能不能回答得更好”,现在的核心问题变成了“模型能不能稳定替用户完成任务”。这意味着 AI 应用从 Chatbot、Copilot 进入 Agentic AI 阶段,产品设计、工程架构和商业模式都要重新调整。

这场变化在 Google I/O 之后被放大。根据 Google AI Studio 与 Gemini API 产品负责人 Logan Kilpatrick 在访谈中的表述,Google 正在将 Antigravity Agent Harness 作为横跨多产品线的 Agent 底座推进,搜索、Gemini App、Cloud、AI Studio 等产品都在向 Agent 原生架构演进。红杉资本合伙人 Sonya Huang 则从投资和产业视角追问了几个更尖锐的问题:Agent 是否会蚕食现有产品入口,编码 Agent 是否已经达到窄域超级智能,创业公司做 Agent Harness 是否还有长期壁垒,世界模型会不会重塑游戏和内容创作。

以下内容基于这场深度对话展开,同时结合当前 Agentic AI 的工程实践进行分析。适合 AI 开发者、架构师、产品负责人、技术管理者和早期创业团队阅读,重点覆盖概念定义、Google 战略、编码 Agent、Harness 演进、世界模型、商业指标、DeepMind 组织飞轮和创业路径。

一、🧭 对话背景:为什么这场访谈值得重视

1.1 Google I/O 后的 Agentic AI 转向

在大模型应用早期,行业更关注模型本身。谁的参数更多,谁的上下文更长,谁在 benchmark 上分数更高,往往决定了市场叙事。但进入 Agentic AI 阶段后,单纯模型能力已经不能解释产品差异。一个能回答问题的模型,和一个能替用户完成任务的 Agent,中间隔着工具调用、权限控制、任务状态、执行环境、错误恢复和验证机制。

Logan Kilpatrick 在访谈中提到,Google 过去一段时间的主线可以概括为“Gemini 连接一切”,也就是把统一模型能力接入 Google 的各类产品。现在新的主线正在形成,即“Antigravity Agent Harness 驱动一切”。这个变化意味着 Google 不再只是把 AI 放进产品,而是在把产品改造成 Agent 原生形态。

Agentic AI 的本质不是让模型多说几句话,而是让模型在可控环境中采取行动。对企业和开发者来说,这比接入一个聊天 API 复杂得多,也更接近真实生产力系统。

1.2 Logan Kilpatrick 的背景:开发者生态与模型产品的一线视角

Logan Kilpatrick 现任 Google DeepMind 高级产品负责人,主导 Google AI Studio 与 Gemini API 的产品和开发者生态建设。Google AI Studio 与 Gemini API 是 Google 面向开发者的重要入口,连接了模型能力、工具链、Agent 运行时和开发者反馈。

根据公开资料和访谈信息,Logan 曾在 OpenAI 早期开发者生态建设中承担重要角色,经历过 ChatGPT 爆发期开发者生态快速扩张的过程;此前也曾参与 Apple 机器学习相关工作,并有 NASA 开源政策顾问相关经历。这种背景使他的判断带有三个交叉视角:模型厂商如何构建开发者平台,开发者真正需要什么工具,AI 能力如何从演示进入工程系统。

这也是这场访谈的价值所在。Logan 讨论 Antigravity、Gemini API、AI Studio、Vibe Coding 和 Harness 时,不是站在单一模型发布的角度,而是站在“模型如何被开发者大规模使用”的角度。

1.3 Sonya Huang 的背景:AI 基础设施与创业路径视角

Sonya Huang 是红杉资本合伙人,长期关注 AI 基础设施、Agent 架构、开发者工具和企业 AI 应用。她在访谈中的提问并不局限于技术展示,而是持续追问产业结构变化,包括 Agent 是否会改变广告和搜索,Agent Harness 是否会成为平台锁定点,模型厂商持续上移后创业公司如何生存。

这种提问方式很关键。Agentic AI 不是单纯的算法问题,而是模型能力、产品入口、成本结构、用户信任、工具生态和商业分发共同变化的结果。Logan 提供了 Google 内部产品和技术路线的视角,Sonya 提供了产业投资和创业机会的视角,两者结合,构成了观察未来 1 到 2 年 AI 行业演进的一个重要窗口。

1.4 这场对话的核心判断

这场访谈可以提炼出六个核心判断。

核心判断

对应主题

对技术团队的意义

Google 正从模型主线转向 Agent 运行时主线

Antigravity Agent Harness

Agent 架构会成为平台级能力

编码 Agent 是当前最成熟的通用 Agent 形态

窄域超级智能

软件开发范式正在被重置

通用 Agent Harness 可能被模型原生系统吸收

模型吃掉脚手架

自建中间层需要重新评估长期价值

Omni 类统一多模态模型正在重塑世界模型定义

世界模型

多模态理解与生成边界正在融合

Agent 产品不应只追求眼球时长

成果导向指标

产品北极星指标要从停留转向完成率

创业机会从通用中间件转向垂直场景

创业路径

行业知识和工作流理解变得更重要

这些判断之间不是孤立的。它们共同指向一个趋势:AI 应用的核心竞争正在从“谁调用了更强模型”,转向“谁能把模型、工具、权限、上下文和验证机制组合成可靠的事务完成系统”。

二、🤖 Agent Harness 是什么:从编排框架到智能体运行时

2.1 Agentic AI 的清晰定义

Agentic AI 可以理解为具备目标理解、任务拆解、工具调用、状态跟踪、结果验证和错误恢复能力的 AI 系统。它不是一个单独的大模型,也不是一个聊天窗口,而是一种围绕模型构建的执行系统。

传统 Chatbot 的核心能力是回答问题。Copilot 的核心能力是在用户操作旁边给建议。Agentic AI 的核心能力则是代表用户完成任务。例如,用户不只是问“如何修复这个 Bug”,而是让 Agent 读取项目、定位问题、修改代码、运行测试、解释变更,并把结果提交给人类审核。

一个生产级 Agentic AI 系统通常包含以下组件。

组件

职责

工程实现示例

基础模型

理解意图、推理、规划和生成

Gemini、GPT、Claude 等

工具系统

连接外部能力

搜索、数据库、浏览器、代码执行、邮件

上下文系统

提供任务相关信息

RAG、代码索引、用户画像、历史会话

状态管理

保存任务进度和中间结果

任务状态机、持久化记忆、事件日志

运行环境

承载动作执行

IDE、容器、沙箱、浏览器环境

权限系统

限制 Agent 可执行范围

OAuth、审批流、权限网关

验证机制

判断任务是否完成

测试、规则校验、人类确认、评分器

观测系统

记录与排查 Agent 行为

工具调用日志、轨迹回放、成本监控

Agentic AI 与传统自动化的核心区别在于,传统自动化依赖预设流程,Agentic AI 依赖目标驱动和动态决策。传统 RPA 更像按剧本执行,Agentic AI 更像在约束条件下自行选择路径。

2.2 Agent Harness 与编排框架的区别

Agent Harness 可以翻译为智能体运行框架或智能体运行时。它负责让 Agent 在真实环境中可靠执行任务。很多人会把 Agent Harness 和 Agent 编排框架混为一谈,但两者并不完全相同。

早期编排框架更像开发者工具库,帮助开发者串联 Prompt、模型调用、工具调用和链式执行逻辑。Agent Harness 则更接近完整运行时系统,除了编排外,还要管理执行环境、状态持久化、权限边界、长任务调度、人机交互节点和失败恢复。

可以用一个简单比喻理解:编排框架是组装智能体的零件,Agent Harness 是智能体运行的操作系统。这个类比并不意味着 Harness 等同于传统操作系统,而是强调它承担了 Agent 运行时管理职责。

对比维度

Agent 编排框架

Agent Harness

核心定位

开发库或流程拼接工具

智能体运行时系统

主要对象

Prompt、模型调用、工具链

任务、状态、环境、权限、验证

运行方式

多由开发者自行部署和维护

可托管、可长期运行、可审计

适用阶段

原型和轻量应用

复杂任务和生产级 Agent

风险控制

依赖开发者自行实现

通常内置权限、日志和隔离机制

2.3 Antigravity 的定位:不只是 AI 编码 IDE

Sonya 在访谈中问到 Antigravity 是否就是一个 IDE。Logan 的回答明确指出,Antigravity 包含核心 IDE、面向 Agent 的 Web 体验、CLI、SDK,也可以通过 Gemini API 使用托管式 Agent 能力。更关键的是,同一套 Harness 正在驱动 Google 其他产品中的 Agent 能力。

这说明 Antigravity 的战略定位不是“对标某个编码工具”,而是 Google 的统一 Agent Harness 生态。编码只是最先成熟的场景之一,底层 Harness 还会支撑搜索、Gemini App、Cloud、AI Studio 等不同产品中的 Agent 功能。

在 Logan 的表述中,不同产品使用的 Harness 底层有大量共性,然后针对具体场景做特化。AI Studio 会更偏 Vibe Coding,Gemini App 会更偏个人全天候 Agent,编码 IDE 则更偏项目文件、终端和测试循环。

2.4 常见问题:所有产品都应该变成 Agent 入口吗

不适合。Agent 适合跨系统、目标导向、路径不确定的任务,但很多高频操作仍然适合确定性界面。用户打开日历,希望看到日历;打开邮箱,希望看到邮件列表;打开表格,希望直接编辑数据。把所有功能都塞进一个聊天框,可能增加认知负担。

更合理的产品形态是两类入口并存。确定性界面处理结构化、高频、可预期操作;Agent 入口处理复杂、多步骤、跨工具任务。优秀的 Agent 产品不是取消界面,而是在合适的位置接管复杂度。

三、💻 编码 Agent:为什么它最先逼近窄域超级智能

3.1 “窄域超级智能”应如何理解

Logan 在访谈中提到,编码模型已经好到让人产生“窄域超级智能”的实感。这里需要加一个边界。窄域超级智能不是指模型在所有软件工程任务上稳定超过顶级工程师,也不是指 AGI 已经实现。它更准确地表示:在大量可拆解、可验证、反馈充分的编码任务中,AI Agent 已经呈现出超过单个开发者产能的执行能力。

编码领域率先突破,有几个原因。

第一,编码任务天然可验证。代码能否编译,测试是否通过,运行日志是否报错,都能给模型提供清晰反馈。

第二,编码任务可拆解。一个复杂项目可以拆成模块、文件、函数、测试、依赖和部署步骤。

第三,知识结构密度高。开源代码、技术文档、Issue、问答社区和提交记录为模型提供了丰富材料。

第四,开发者工作流适合人机协作。程序员本来就习惯看 diff、跑测试、查日志、回滚提交,这些动作都能自然嵌入 Agent 循环。

编码 Agent 的真正影响,不是让开发者失去价值,而是重置开发者的抱负水平。过去开发者常用 MVP 降低工程成本,现在 AI 把实现成本压低后,产品起点可以更高,功能完整度、交互体验和边界处理都会被重新定义。

3.2 编码 Agent 从辅助走向自主

编码 AI 的演进可以分为三个阶段。

阶段

核心能力

用户角色

典型产品形态

代码补全

补全单行或片段

人类主导编码

IDE 插件

代码生成

根据需求生成函数、文件或模块

人类审查和整合

Chat + IDE

自主开发

拆解任务、修改项目、运行测试、修复错误

人类定义目标和审核结果

编码 Agent / Agent IDE

当前行业正在从第二阶段进入第三阶段。瓶颈已经不只是模型会不会写代码,而是长周期任务能否持续保持上下文,能否处理依赖和环境,能否根据测试失败自我修复,能否在不破坏项目结构的前提下完成变更。

企业引入编码 Agent 时,需要重点建设六类工程能力。

能力

目的

风险控制方式

代码索引

让 Agent 理解大型项目结构

调用图、依赖图、语义索引

沙箱执行

隔离命令和不可信代码

容器、只读目录、网络限制

测试闭环

提供可靠反馈

单测、集成测试、回归测试

权限分级

限制可执行范围

只读、可写、可运行、可部署分层

审查流程

保留人类责任边界

Pull Request、Code Review、CI Gate

轨迹日志

支持排障和审计

工具调用日志、文件 diff、命令记录

3.3 Google 内部反馈飞轮的价值

Logan 提到,Google 和 DeepMind 拥有大量工程师,他们在真实工作中使用模型并反馈问题。这对编码 Agent 尤其重要。公开 benchmark 可以测一部分能力,但真实软件工程中的难点往往来自长上下文、遗留代码、内部依赖、复杂测试环境和团队规范。

编码模型的质量不仅靠训练出来,也靠真实工程场景“用出来”。一个能在内部大型代码库中持续接受反馈的 Agent,更容易暴露长任务失败、依赖冲突、上下文遗忘和错误修复路径等问题。

当然,内部反馈飞轮必须建立在数据治理之上。代码、日志和用户数据不能无边界进入训练流程。权限隔离、脱敏、用途限制和合规审查,是大规模反馈系统的前提。

3.4 常见问题:编码 Agent 会让初级开发者失去价值吗

不会简单消失,但价值结构会变化。只会机械实现、缺乏问题理解和架构判断的工作会被压缩;能够理解业务、拆解需求、设计测试、审查结果的人会变得更重要。

初级开发者仍然需要学习编程。不同的是,学习重点会从记忆 API 和手写样板代码,转向理解系统设计、数据结构、错误定位、测试方法和安全边界。懂编程的人使用 Agent,会比完全不懂代码的人更容易得到可靠结果。

四、🧱 12 个月内模型吞噬 Harness:该如何理解这个判断

4.1 “模型吃掉 Harness”的真实含义

Logan 在访谈中提出,今天被许多人视为核心壁垒的 Agent Harness,未来 12 个月内可能会被模型内化掉相当一部分。这个判断很有冲击力,但需要准确理解。

这里的“模型”已经不再只是权重文件。两年前,人们说大模型,通常指输入 Token、输出 Token 的网络权重。现在模型产品已经包含工具调用、搜索、代码执行、托管工具、运行容器、任务状态和 Agent 相关能力。模型厂商正在把常见外部脚手架吸收到原生系统里。

模型吃掉 Harness 的本质,是通用工程模式的平台化。当一种外部能力被大量应用反复使用,并且模式逐渐稳定,模型厂商就有动力把它变成默认能力。

这并不意味着所有 Harness 都会消失。被内化的主要是高频、通用、标准化能力。垂直行业的复杂流程、企业内部权限、合规审计、私有系统集成和特殊运行环境,仍然需要应用层或企业层解决。

4.2 为什么是 12 个月这个时间窗口

12 个月不是确定时间表,而是 Logan 对行业节奏的判断。从过去几轮大模型应用演进看,很多外部脚手架都会经历类似周期:先由创业公司或开发者框架快速探索,再被模型厂商吸收为原生能力,最后应用层价值向更垂直、更业务化的位置迁移。

RAG、工具调用、代码执行都经历过类似过程。最早开发者需要自己拼接检索、Prompt 和外部工具;随后模型厂商逐步提供原生工具调用、搜索增强、代码解释器和托管执行环境。Agent Harness 处在同样的轨道上,只是这一次影响更大,因为它涉及智能体运行的核心闭环。

更稳妥的表述是:未来 12 个月,通用 Agent Harness 的壁垒会显著下降,模型原生系统会吸收其中相当一部分能力。对技术团队而言,这足以影响今天的架构决策。

4.3 自建 Harness 还是使用底座能力

企业和创业团队需要根据场景选择,而不是简单跟风自建。

方案

优势

风险

适用场景

使用模型厂商托管 Harness

上手快、能力迭代快、维护成本低

可控性有限,存在迁移成本

原型验证、低风险任务、快速上线

基于开源框架二次开发

成本适中,有一定定制空间

通用能力可能被底座覆盖

中型团队、需要部分定制的业务

自建轻量 Harness

权限和审计可控,适配内部系统

需要持续维护

企业内部 Agent、垂直业务流程

自建完整 Agent 平台

高度可控,适合多业务复用

成本高,容易过度设计

高合规、多业务线、大型组织

工程上的核心原则是:如果 Harness 只是实现业务价值的工具,应优先复用成熟底座;如果你的差异化来自行业流程、权限治理和私有系统集成,则应保留关键控制层。

不建议为了“避免锁定”而盲目自建通用 Harness。很多团队低估了状态管理、错误恢复、长任务调度、工具安全和评估体系的维护成本。等模型厂商把通用能力原生化后,自建通用层可能成为技术债。

4.4 降低厂商锁定的工程方法

使用厂商 Harness 并不等于放弃控制权,关键在于边界设计。

层面

建议做法

模型调用

通过适配器封装不同模型 API

工具协议

用内部标准接口包装外部工具

权限系统

高风险动作统一经过企业权限网关

日志格式

保存统一执行轨迹,支持回放

评估体系

建立固定任务集,对模型和 Harness 变更做回归测试

数据治理

控制敏感数据进入外部模型的范围

人工节点

对不可逆操作设置确认或审批

常见误区是认为接入多个模型就等于没有锁定。实际锁定可能发生在 Prompt 结构、工具描述、上下文格式、记忆系统、执行日志和评估标准上。真正的可迁移性来自接口抽象、任务回放和指标评估。

4.5 常见问题:Agent 中间件创业还有机会吗

有机会,但通用型 Agent Harness 的窗口正在变窄。做“所有人都能用的通用 Harness”会直接面对模型厂商上移。更有价值的位置包括垂直行业 Agent、Agent 安全审计、质量评估、合规治理、私有工具集成和行业技能市场。

创业公司应避免把壁垒建立在“模型厂商下一步很可能内置”的能力上。更稳的壁垒来自行业数据、客户工作流、合规经验、集成深度和结果评估体系。

五、🌍 Omni 与世界模型:从视频生成到统一世界理解

5.1 世界模型的传统含义

世界模型在传统 AI 语境中,通常指系统对环境状态、动作结果和未来变化的内部建模能力。在强化学习、机器人和游戏环境中,世界模型常用于预测“如果采取某个动作,环境接下来会发生什么”。

传统世界模型更强调动作条件和环境预测。典型任务包括从当前画面和动作指令预测下一帧,模拟物体移动、碰撞、视角变化和物理关系。这类模型与视频生成有关,但它的目标不是单纯生成好看的视频,而是建模环境变化规律。

5.2 Omni 的关键变化:单一模型架构

Logan 在访谈中强调,Omni 不是把文本模型、图像模型、视频模型、音频模型路由到一起的拼接系统,而是一个可以接受任何输入、生成任何输出的单一模型架构。Demis Hassabis 将其称为世界模型,原因在于它对世界具有深层理解,而不仅是能生成某种模态内容。

这使世界模型的定义开始变化。它不再只指动作条件视频模型,也可以指一种统一多模态理解与生成系统。这样的模型能理解文本、图像、音频、视频中的对象关系、场景逻辑、人物动作和物理一致性,并生成相应输出。

概念

核心能力

与世界模型的关系

多模态模型

处理文本、图像、音频、视频

可能具备世界理解能力

视频生成模型

根据文本或图像生成视频

不一定具备交互式环境理解

传统世界模型

根据状态和动作预测环境变化

强调动作条件和未来预测

Omni 类统一模型

接受任意输入、生成任意输出

强调统一世界理解与跨模态生成

5.3 世界模型与视频模型的边界正在消融

访谈中提到的舞台“加一条狗”的案例很有代表性。模型不仅把狗生成到画面中,还让周围嘉宾低头看狗并露出笑意,保持人物动作、光影和场景关系的连贯。这个能力不是简单贴图,而是对场景关系进行了较深层理解。

这种能力介于视频生成、图像编辑和世界模型之间。它既能生成视觉内容,又要理解人物反应、空间关系和事件逻辑。随着统一多模态模型发展,传统世界模型和视频生成模型的边界会越来越模糊。

对内容创作来说,这意味着创作范式可能从“从零生成”转向“保留主体、编辑环境”。例如,真人播客可以保留说话者的真实声音、表情和内容,只改变背景、灯光、道具和场景氛围。这样既提升制作效率,也能保留一定真实性。

5.4 常见问题:Omni 能替代游戏引擎吗

短期内不能。Omni 类模型适合内容生成、场景编辑和多模态理解,但游戏引擎提供的是确定性状态管理、输入响应、物理系统、碰撞检测、资源管线和性能优化。游戏需要低延迟、可重复、可控的交互体验,而生成式世界模型在一致性、成本和实时性上仍有挑战。

更现实的路径是融合。短期内,编码 Agent + 传统游戏引擎会更快落地;世界模型用于资产生成、场景草图、剧情分支和动态内容辅助。长期看,世界模型可能催生实时生成游戏或开放世界模拟,但它需要解决延迟、规则约束、状态一致性和成本问题。

六、📈 Agent 经济:从眼球时长到事务完成率

6.1 Agent 不是简单的流量蚕食

很多人担心 Agent 会削弱现有产品。如果 AI 直接回答问题,用户是否还会搜索;如果 AI 处理邮件,用户是否还会打开邮箱;如果 Agent 帮用户购物,平台是否还拥有流量入口。

Logan 在访谈中的判断是,AI 对搜索并不必然是负和博弈。生成式回答可能让用户提出更多问题,Agent 自身也会产生搜索请求,整体任务量可能扩大。这个判断不能机械套用到所有行业,但它提醒我们:Agent 改变的不只是流量分配,也可能扩大可完成事务的总量。

Agent 产品的北极星指标不应是最大化用户停留时长,而应是最大化用户完成事务的成果。这与传统互联网产品追求点击、停留、访问频次的逻辑不同。

6.2 Agent-Led Growth 与 GEO

Sonya 提到 Agent-Led Growth,这是一个很重要的商业变化。过去用户主动搜索、比较、点击和购买。未来用户可能把目标交给 Agent,由 Agent 选择数据库、云服务、商品、航班、SaaS 工具或金融产品。

这会改变分发逻辑。

传统模式

Agent-Led 模式

影响

用户搜索关键词

用户描述目标

入口从关键词变成任务

用户点击多个页面

Agent 汇总和比较

页面流量价值变化

广告影响人类注意力

可信数据影响 Agent 决策

结构化信息更重要

SEO 面向搜索引擎

GEO 面向生成式引擎

内容表达方式变化

产品争夺停留时长

产品争夺任务完成率

指标体系变化

GEO 即面向生成式引擎的内容优化。它不是简单堆关键词,而是让产品信息、价格、限制、接口、案例、文档和风险边界更准确、更结构化、更可信。未来 Agent 在选择服务时,会更依赖机器可读、可验证、上下文完整的信息。

6.3 企业 Agent 的指标体系

企业不能只用 DAU、点击率和停留时长衡量 Agent。更合理的指标包括任务完成率、平均任务时长、人工接管率、错误恢复率、单位任务成本、高风险动作拦截率和用户确认次数。

指标

含义

工程价值

任务完成率

Agent 是否完成用户目标

衡量实际价值

平均任务时长

从开始到完成的耗时

衡量效率

人工接管率

需要人类介入的比例

判断自动化边界

错误恢复率

出错后能否修正

衡量鲁棒性

单位任务成本

Token、工具调用和基础设施成本

判断商业可持续性

高风险动作拦截率

权限系统阻止风险操作的比例

衡量治理能力

任务回放通过率

固定任务集上的稳定表现

支持版本升级评估

常见问题是把 Agent 做成“更会聊天的助手”,却没有接入真实业务动作。这样的产品初次体验可能不错,但长期价值有限。真正的 Agent 产品要能改变业务状态,例如修复代码、创建工单、生成报表、更新 CRM、安排会议或完成审批。

七、🧪 DeepMind 的竞争壁垒:人才、产品与反馈飞轮

7.1 人才密度与研究文化

Logan 在访谈中提到 Google DeepMind 当前的人才密度,并用“AI 复仇者联盟”形容 Demis Hassabis、Sergey Brin、Noam Shazeer 等关键人物的影响。这个说法带有口语化色彩,但背后指向一个现实:模型竞争不仅是参数竞争,也是组织能力竞争。

Demis Hassabis 的背景横跨游戏、认知科学、神经科学和人工智能。DeepMind 从游戏环境、强化学习和通用智能问题出发,后来通过 AlphaGo、AlphaFold 等成果进入更广泛的科学计算领域。这种历史让 DeepMind 的文化更偏长期研究和复杂问题求解。

Noam Shazeer 是 Transformer 论文《Attention Is All You Need》的核心作者之一,也曾长期参与 Google 大规模机器学习系统相关工作。他的回归被视为 Google 在大模型工程与架构能力上的重要增强。

Sergey Brin 的参与则体现了 Google 对 AI 主线的组织级投入。对 Google 这样的公司来说,AI 不是一个单独产品线,而是会影响搜索、Android、Workspace、Cloud、YouTube、Gmail 等产品入口和基础设施的公司级工程。

7.2 十万工程师反馈飞轮

Logan 强调,Google 和 DeepMind 拥有大量工程师,他们使用模型并提供反馈。这种内部反馈飞轮对编码 Agent 和长任务 Agent 很关键。

真实工程任务会暴露 benchmark 难以覆盖的问题,包括上下文漂移、工具调用失败、依赖冲突、权限限制、测试不稳定和任务中途恢复。大规模内部使用可以持续产生高质量失败样本,而失败样本往往比成功演示更有价值。

7.3 十亿级产品落地能力

Google 的特殊性在于,它既有研究组织,也有大规模产品场景。模型能力从实验室进入搜索、Workspace、Android、Cloud 等产品时,要面对成本、延迟、稳定性、安全、合规和用户信任问题。这些问题不会出现在简单 Demo 中,但会决定 AI 能否服务十亿级用户。

模型竞赛的长期壁垒,不只在训练阶段,也在真实产品中的规模淬炼。研究能力、工程能力、产品入口和反馈闭环共同构成了 DeepMind 与 Google 的复合优势。

八、🛠️ Vibe Coding 与全民开发:从应用生成到个人软件

8.1 AI Studio 35 万 Android 应用的意义

访谈中 Logan 提到,AI Studio 推出 Android 应用生成能力后,一周内生成了约 35 万个 Android 应用。这个数字的意义不只是“生成了很多应用”,而是说明一批原本不会开发 Android 应用的人开始用自然语言构建个人软件。

这些应用很多不是面向大众市场的商业产品,而是解决个人问题的小工具。过去这类需求因为开发成本过高而不会被满足,现在 Vibe Coding 降低了门槛,使“为自己写软件”变成更普遍的行为。

Vibe Coding 的适用场景可以分层理解。

场景

适合程度

主要风险

个人效率工具

数据备份、隐私保护

小型游戏和互动 Demo

资产质量、可玩性

小团队内部工具

权限、协作、稳定性

对外商业应用

安全、性能、用户体验

核心生产系统

合规、审计、容灾

8.2 游戏开发的两条路径

Logan 对用自然语言生成可玩游戏持乐观态度,但边界很清楚。短期目标不是 3A 大作,而是可玩的休闲游戏、互动 Demo 或小型创意游戏。瓶颈不只是代码,还包括素材、音效、关卡、手感、物理和重玩价值。

技术路线

核心逻辑

优势

限制

落地周期

编码 Agent + 游戏引擎

Agent 调用引擎能力生成逻辑和资源

成熟、可控、性能稳定

仍依赖传统引擎和工具链

短期更现实

世界模型驱动

模型实时模拟和生成游戏世界

自由度高,形态新

延迟、成本、一致性不足

中长期探索

混合路线

引擎负责规则,模型负责内容生成

平衡可控性和生成能力

系统集成复杂

最可能先落地

短期最可行的是混合路线。编码 Agent 负责生成游戏逻辑、脚本和工具,传统引擎负责运行时和规则,生成式模型负责素材、场景和剧情辅助。

8.3 常见问题:普通人还需要学编程吗

需要,但学习目标会变化。过去学习编程的重点是语法、API 和手写实现;未来更重要的是逻辑思维、问题拆解、系统设计、测试意识和结果判断。AI 可以帮你写代码,但你仍要判断代码是否满足需求,是否安全,是否可维护,是否能扩展。

懂编程的人使用 Vibe Coding,会比完全不懂代码的人更容易控制结果。编程能力不会消失,它会从“实现能力”更多转向“驾驭 Agent 的能力”。

九、🚀 创业路径:避开通用脚手架,深入垂直工作流

9.1 模型上移后,创业机会在哪里

模型厂商持续上移,会压缩一部分通用中间件空间,但不会消灭创业机会。原因在于通用模型和真实行业场景之间永远存在落差。医疗、法律、制造、金融、能源、物流、政企等行业都有专属规则、数据结构、系统接口、合规要求和工作习惯。

模型公司解决的是通用能力,创业公司的机会在具体问题、具体用户和具体工作流。

创业方向

机会来源

核心壁垒

垂直行业 Agent

通用模型不懂行业流程

行业知识、客户数据、合规经验

Agent 安全治理

Agent 行动带来权限风险

审计、权限、策略引擎

Agent 评估平台

企业需要衡量 Agent 质量

任务集、回放、评分体系

私有工具集成

企业系统复杂且分散

集成能力、交付经验

开发者工作流工具

编码 Agent 生态快速变化

工程深度、插件生态

多模态内容工具

Omni 类模型改变创作流程

版权、工作流、创意工具链

9.2 专注是创业公司的超能力

大公司有模型、算力和产品入口,但也有资源分配和风险控制约束。它们不可能在每一个细分行业都做到最深。创业公司可以把全部资源投入一个具体场景,用更快速度理解客户、打磨工作流、接入系统并形成数据闭环。

AI 时代的创业优势不一定来自“从零训练模型”,更多来自“把强模型变成某类用户离不开的工作系统”。编码 Agent 还会降低创业团队的软件开发成本,使小团队能完成过去更大团队才能完成的产品迭代。

9.3 风险偏好分层带来的机会

大厂产品面向大众市场,必须谨慎处理 Agent 的自主能力。创业公司可以先服务风险承受能力更高的用户,例如开发者、运营团队、研究人员、专业服务机构或某些高效率导向企业。这些用户愿意为了效率接受一定试错,也更能理解 Agent 的边界。

这给创业公司提供了切入口。先服务前沿用户,积累真实任务数据和产品口碑,再随着模型稳定性提升进入更大众市场,是更现实的路径。

9.4 常见误区:不要把通用 Harness 当长期壁垒

通用 Harness、通用编排、通用工具调用包装,都会面临模型厂商原生化压力。创业团队如果只做一层薄封装,很容易被底座升级吞噬。

更好的方向是做完整垂直解决方案,把模型能力、Agent 运行时、行业知识、权限系统、数据集成、评估指标和交付服务结合起来。真正难被模型吃掉的,不是脚手架本身,而是客户现场的复杂性。

十、✅ 企业落地 Agentic AI 的工程检查清单

10.1 从低风险、高验证场景开始

企业落地 Agentic AI,最适合从低风险、高频、可验证的任务切入。例如测试生成、代码迁移、文档整理、工单分类、报表解释、知识库问答、会议纪要和内部流程辅助。

阶段

目标

关键产物

场景盘点

找到适合 Agent 的流程

场景清单、风险分级

原型验证

判断模型是否可用

Demo、失败样本、成本估算

工具接入

连接内部系统

API 网关、权限策略

评估闭环

建立可量化指标

回放集、测试集、评分规则

灰度上线

控制风险扩散

审批流、审计日志、回滚机制

Agent 项目的成败不取决于第一次演示是否惊艳,而取决于失败时能否被发现、解释、回滚和修复。

10.2 生产级 Agent 的最低治理要求

只要 Agent 能调用工具,就必须有治理。建议至少具备以下能力。

治理项

要求

最小权限

默认只读,按任务授予写入或执行权限

沙箱环境

不可信代码和命令必须隔离执行

高风险确认

转账、删除、发送、部署等动作需确认

审计日志

保存 Prompt、工具调用、文件变更和结果

任务回放

支持复现失败任务和评估模型升级

成本监控

按任务统计 Token、工具调用和基础设施成本

回滚机制

对关键变更提供撤销或恢复路径

很多 Agent 项目失败,不是因为模型不会推理,而是因为系统没有处理好权限、异常、成本和错误恢复。生产级 Agent 是系统工程,不是 Prompt 工程。

结论

Logan Kilpatrick 与 Sonya Huang 的这场访谈,给出了 Agentic AI 下一阶段的几条清晰线索。

第一,Google 正从模型主线转向 Agent 运行时主线。Gemini 让 Google 产品拥有统一模型能力,Antigravity Agent Harness 则试图让 Google 产品拥有统一的智能体执行能力。

第二,编码 Agent 是当前最成熟的 Agent 形态。代码任务具备可拆解、可执行、可验证的闭环条件,因此最先逼近窄域超级智能。它不会简单替代开发者,但会重置开发者的工作重心和抱负水平。

第三,通用 Agent Harness 的长期壁垒正在下降。未来 12 个月,模型厂商可能将大量通用 Harness 能力内化为原生系统。企业不应盲目自建通用脚手架,而应保留权限、审计、工具封装和评估体系等关键控制层。

第四,Omni 类统一多模态模型正在改变世界模型的定义。世界模型不再只指动作条件视频预测,也可以指对多模态世界的统一理解与生成能力。内容创作、游戏、机器人和仿真都会受到影响,但短期仍需尊重延迟、成本和可控性边界。

第五,Agent 时代的商业指标会从眼球时长转向事务完成率。Agent-Led Growth 会改变软件、搜索、广告和服务分发方式,GEO 会成为企业内容和产品信息的新要求。

第六,创业公司的机会不在通用壳层,而在垂直场景。行业知识、客户流程、合规治理、系统集成和结果评估,是模型短期难以直接吞噬的壁垒。AI 创业不应只追逐模型能力的外溢,而要把能力落到真实工作流里。

📢💻 【省心锐评】

Agent 的竞争不在会不会聊天,而在能否可验证、可治理、可回滚地完成真实事务。

SEO关键词:智能体、Agent、编码AI、世界模型、Gemini、AI创业