site logo

Marico's space

Google I/O 2026 最亮眼的开发者发布不是模型,而是运行时:Gemini API 托管代理

编程技术 2026-06-03 17:34:53 4

每年 Google I/O 都会有一堆重磅发布:大模型、新能力、让开发者又兴奋又焦虑的新功能。Google I/O 2026 当然也不例外。Gemini 3.5 Flash 在基准测试里杀疯了,WebMCP 让开源社区有了新的辩论话题,AI Studio、Chrome、Search、Gemini 全都在往智能代理(Agent)方向狂奔。

但我真正觉得值得所有开发者关注的发布,不是声量最大的那个。

Gemini API 里的托管代理(Managed Agents)。

Gemini Agents

听起来没有新模型那么耀眼,但这恰恰是它重要的原因。模型是发动机,托管代理却是底盘、变速箱、仪表盘、维修团队和紧急制动的集合。它把"模型能思考、能调用工具"变成了"我的应用可以让一个代理完成任务、观察执行过程、保存状态、收集产物,然后继续干"。

这是完全不同的产品。对开发者来说,可能也是更重要的那个。

真正的瓶颈从来不是智力

过去几年,代理(Agent)演示的剧本都差不多:

  1. 模型收到任务
  2. 调用需要的工具
  3. 规划、写代码
  4. 运行代码、检查结果
  5. 修正自己的错误

看的人都点头。但等开发者真正想在生产环境复现这个的时候,问题就来了。

难点不只是让模型思考。难点是给它一个工作空间。一个正经的代理需要运行时、沙盒、文件管理、工具边界、内存或状态管理。它需要可观测的中间步骤,需要控制网络访问、凭证、费用、清理,还需要良好的开发体验——而不是让每个团队都从头造一套 orchestration(工作流编排)层。

这才是托管代理要填补的坑。

Google 的发布不只是在说"Gemini 可以用工具"。更有意思的是:Google 把整个代理循环本身打包成了一个托管的开发原语(Managed Developer Primitive)

借助托管代理,Antigravity 托管代理可以运行在 Google 托管的 Linux 环境里,执行代码、管理文件、使用网络访问、保持环境状态,并通过 Interactions API(交互式 API)返回可观测的执行轨迹。这把开发者的工作从"构建整个运行时"变成了"从托管的代理环境出发,把精力集中在产品边界上"。

而那个边界,才是真正考验工程能力的地方。

Managed Agents flow

Google 实际交付了什么

I/O 2026 上,Google 发布了 Gemini API 里的托管代理,Antigravity 代理作为公开预览可用。这个代理由 Gemini 3.5 Flash 驱动,通过 Interactions API 和 Google AI Studio 对外暴露。

整个产品有几个关键组件:

组件 功能
Gemini API Google 模型和代理的开发者 API 入口
Interactions API 专为有状态、多轮代理工作流设计的 API 层
Antigravity 托管代理 Google 托管的通用代理运行环境
远程 Linux 环境 代理执行代码、管理文件的沙盒
Environment ID(环境 ID) 后续调用可以在同一工作空间继续的句柄
Interaction ID(交互 ID) 继续对话状态的句柄
AI Studio Agents Playground 可视化调试代理行为的工具
自定义代理 可复用的代理配置,含指令、数据源、环境设置

重要的是,这不是一个单次无状态的请求响应 API。无状态调用适合生成、分类、提取、摘要、单次推理。但托管代理更适合需要状态、工具、文件和迭代的工作。

想想数据分析、代码仓库审计、研究综合、报告生成、基准测试运行、文档更新、内部工作流自动化——所以托管代理不只是又一个 AI 功能,更像是一个执行底座。

架构:提示词进去,工作出来

简化版的托管代理流程是这样的:

Flowchart for Managed Agents

开发者通过 Interactions API 发送任务,托管代理接收任务、理解任务、使用可用工具、在远程环境里读写文件,最后返回最终输出和结构化的执行信息。

关键在于状态管理。

Google 给开发者两个主要的句柄:

句柄 用途
previous_interaction_id 继续对话
environment_id 在同一沙盒继续工作

第二个句柄尤其重要。没有环境持久化,每个代理任务都变成一次性的。有了环境持久化,代理可以在之前的文件和结果上继续构建。

第一轮可以创建分析,第二轮改进图表,第三轮打包输出,第四轮审计最终文件。

这不像在和一个聊天机器人对话,更像在监督一个带 shell 权限的远程员工。

一个最小化的 API 模式

Antigravity

最清晰的心智模型是:

概念 心智模型
Interaction(交互) 对话和推理状态
Environment(环境) 工作目录和执行状态
Agent(代理) 策略和工具调用 worker
Artifact(产物) 工作产生的文件
Step trace(步骤轨迹) 可观测的执行记录

一个基础的 Python 工作流大概长这样:

from google import genai client = genai.Client() first_run = client.interactions.create( agent="antigravity-preview-05-2026", input=( "Read revenue.csv, identify the top three trends, " "and save a short report as report.md." ), environment="remote",
) print(first_run.output_text)
print(first_run.environment_id) second_run = client.interactions.create( agent="antigravity-preview-05-2026", previous_interaction_id=first_run.id, environment=first_run.environment_id, input=( "Now create a chart for the strongest trend " "and save it as chart.png." ),
) print(second_run.output_text)

开发者不需要手动创建容器、在步骤之间传递文件、写工具路由、管理执行循环或构建步骤日志。托管运行时把这些脚手架都吸收掉了。

这就是产品洞察。Google 不只是在提供模型智能,而是在提供智能外围的操作系统上下文。

为什么 Interactions API 值得重视

Interactions API 是这次发布里最重要的部分之一,因为它预示了 Google 期望开发者未来如何基于 Gemini 构建。

老的模型 API 都围绕单个调用设计:发内容,收内容。这对很多场景够用了。但代理工作流需要更多结构:服务端状态、工具轨迹、中间事件、可恢复性、文件连续性。

比如一个数据工作流:用户上传三个 CSV 文件,要求简短分析 → 代理写脚本、运行、生成图表、写出 markdown 摘要 → 用户说"按区域拆分,加个表格"。

在无状态设置下,你得把之前的东西全部重新发到上下文里,或者手动存储和重新加载输出。

有了托管代理,你从上一个交互继续,复用同一个环境。文件已经在那里了,代理可以再次检查它们。整个工作流更像是在进行一个远程分析会话,而不是调教提示词。

自定义代理:从提示词到可复用 worker

托管代理作为一次性调用已经很有用了,但更接近生产场景的模式是创建可复用的代理——带稳定指令、数据源和环境控制。比如代码仓库审计代理,不应该每次都塞一个巨大的提示词进去。它应该有明确的角色定义、工作空间定义和输出期望。

一个简化的配置大概是这样:

from google import genai client = genai.Client() agent = client.agents.create( id="repo-auditor", base_agent="antigravity-preview-05-2026", system_instruction=( "Audit the repository for test failures, dependency issues, " "and risky code patterns. Write findings to " "/workspace/output/report.md." ), base_environment={ "type": "remote", "sources": [ { "type": "repository", "source": "https://github.com/your-org/your-repo", "target": "/workspace/repo", } ], "network": { "allowlist": [ {"domain": "api.github.com"}, {"domain": "pypi.org"}, ] }, },
)

到这里,托管代理开始看起来不像"带工具的聊天",更像基础设施。

可以想象团队定义各种内部代理:

代理 用途
data-report-agent 把 CSV 转成图表和摘要
repo-auditor 审计代码仓库并写出结论
release-note-agent 对比提交并起草发版说明
benchmark-agent 运行评测脚本并汇总指标变化
doc-update-agent 根据源码变更提出文档修改建议

重要的工程转变是可重复性。

一个真正可用的代理不应该依赖某个疲惫开发者在凌晨一点写的完美提示词。它应该有持久化的指令、受限的访问、稳定输出路径,以及可审查的行为。

这就是 demo 和产品的区别。

文件系统原生的配置:听起来不起眼但意义重大

我很喜欢的一个细节是对指令文件(如 AGENTS.md)和技能文件(如 SKILL.md)的支持。

为什么这是个大事?

开发者本来就懂文件。代码仓库本来就有约定。团队本来就会在 Pull Request 里审查文档、配置和脚本。把代理行为放到文件里,让这些行为更容易检查、diff、审查和版本化。

一个仓库可能长这样:

repo/ AGENTS.md .agents/ skills/ audit-tests/ SKILL.md summarize-changes/ SKILL.md src/ tests/ package.json

这是个聪明的方向,因为它把代理行为变成了软件项目的一部分,而不是藏在产品仪表盘里的隐形提示词。

团队可以审查这些问题:

问题 为什么重要
代理允许做什么? 定义操作边界
可以检查哪些文件? 控制作用范围
应该产生什么输出? 提高可重复性
可以访问哪些外部域名? 降低数据泄露风险
使用哪些技能? 让行为更容易审计

这类技术细节决定了代理是变成生产工具还是继续当大会表演魔术。

可观测性:"相信我"不是日志格式

Observability meme

一个能运行代码、读文件、搜索网络、生成产物的代理不能是个黑盒。开发者需要知道发生了什么。不是那种模糊的"代理分析了你的数据",而是需要步骤轨迹,需要检查工具调用,需要看到哪些文件被访问了、哪些命令被执行了、哪些数据源被查询了、哪里失败了。

代理可观测性有三大职责:

职责 为什么重要
调试 需要知道流程哪里出了问题
信任 用户能检查执行路径时更容易接受输出
治理 团队需要安全、合规、审查的记录

这也是 Interactions API 重要的另一个原因。代理应用不只是关于最终文本,而是关于文本背后的工作。一个好平台需要暴露那些工作。

定价和控制

托管代理很好用,但代理工作流可能会快速消耗 token。普通聊天调用通常受输入输出限制。代理运行可能包含规划、工具调用、文件检查、代码执行、错误恢复、生成的产物,以及多轮迭代。

这意味着成本控制是产品需求,不是事后算账。

正经的集成应该包括:

控制手段 作用
收窄任务范围 防止行为发散
预算限制 阻止费用失控
流式可见性 让用户尽早取消不良运行
明确的停止条件 减少不必要的迭代
人工审批门控 保护敏感操作
环境清理 避免陈旧或危险的产物

安全:强大的能力也需要护栏

托管代理让人兴奋,因为它给模型提供了一个行动的地方。这也是它需要谨慎的原因。一个能读私有文件、处理不可信内容、浏览网络、调用工具的代理有真实的攻击面。最危险的组合是:

  1. 访问私有数据
  2. 暴露于不可信指令或内容
  3. 能对外通信或执行操作

这种组合可能引发提示词注入、数据泄露、工具滥用风险。更安全的架构应该在托管代理外层包裹策略检查、文件范围限制、网络白名单、人工审查和审计日志。

Flowchart

一个实用的原则:把代理当做一个有 shell 权限的初级工程师。

有用?当然。无人监督地在生产环境跑?请不要让你的故障报告自己写自己。

需要改进的地方

托管代理目前还是预览产品,局限性是真实存在的。

当前约束包括 预览 API 稳定性、某些领域工具支持有限、Antigravity 代理没有结构化输出、暂不支持 MCP、Antigravity 不支持后台执行、多模态输入覆盖不足

对很多开发者来说最大的缺口是 结构化输出。如果代理的产物是给人看的,markdown 就够了。如果要喂给另一个系统,开发者通常需要严格的 schema。

更成熟的生产版本应该改进:

功能 为什么重要
结构化输出 让系统间集成更安全
任务控制 更好的取消、重试、后台运行
策略控制 更严格的文件、工具、网络权限
MCP 支持 更好的工具生态互操作性
评估钩子 部署前更简单的测试

做到这些,托管代理就能从有潜力的预览变成正经的默认运行时。

最终结论

Gemini 3.5 Flash 给 Google 提供了更强的发动机,WebMCP 暗示着更代理友好的网络。但托管代理给开发者提供了他们真正需要的那一层——把模型智能转化为产品行为的运行时。

这个运行时可以执行代码、处理文件、保持状态、暴露步骤、生成产物。它也迫使我们认真思考安全、成本、可观测性和控制的问题。这恰恰是它有意思的地方。 智能软件战争的未来不会只靠最聪明的模型赢得,而是会靠那个让聪明模型变得有用、可检查、可约束、经济上合理的平台赢得。

所以没错,欣赏那些闪亮的演示。看模型基准测试。争论 web 是否需要 WebMCP。但如果你是个开发者,在 I/O 之后决定要做什么,请密切关注那个没那么耀眼的运行时发布。

未来往往藏在看起来不那么性感的地方。

参考链接

Google I/O 2026 发布总览:Google I/O 2026 所有发布公告

Gemini API 托管代理:Gemini API 托管代理

Antigravity 托管代理文档:Antigravity 托管代理文档

托管代理快速入门:托管代理快速入门

Interactions API 文档:Interactions API 文档

AI Studio Agents 文档:AI Studio Agents 文档

Gemini API 定价:Gemini API 定价

WebMCP 早期预览:WebMCP 早期预览

DEV Google I/O 写作挑战:DEV Google I/O 写作挑战

AI Meme