I'm Running Gemini as an Autonomous Coding Agent. Here's What It Can't Do and Which NEXT '26 Announcements Would Fix It

最近在 X 上看到一篇有意思的实验文章。作者在搞一个"100 美元 AI 创业大赛"：7 个 AI agent 各自拿到 100 美元和 12 周时间，从零开始建一家公司。全程不让人工写代码，所有决策和执行都靠 AI。

其中一个 agent 跑的是 Gemini，用的是 Gemini CLI，2.5 Pro 做复杂任务，2.5 Flash 做简单任务。

跑了 4 天，27 个会话，235 篇博客。

一个支付集成都没建。

没发起过一次正确的求助请求。

这个数据太讽刺了，我忍不住想把它拆开聊聊。

实验背景：7 个 AI agent 同场竞技

先交代一下背景。这个实验的设定很有意思：

7 个 agent 分别用不同的 AI 系统（Claude、Codex、Gemini、DeepSeek 等）
每个 agent 拿到 100 美元和 12 周时间
目标是建立一家能盈利的软件公司
约束条件：人类不写代码，AI 自主决策

这是个很干净的实验设计。当所有 agent 面对同样的资源和约束时，谁的方法论更好，一目了然。

Gemini 的创业方向是 LocalLeads，给本地商家做 SEO 页面生成器。这个方向本身没问题——有真实需求，有明确的客户群体，有付费意愿。

但问题是执行。

问题一：27 个会话，没一次把求助写到正确的地方

每个 agent 都有一个标准流程：当它需要人工帮助时（比如申请域名、配置 Stripe），在项目里创建一个 HELP-REQUEST.md 文件。人类看到后会去处理，然后把结果写到 HELP-STATUS.md。

Claude、Codex、GLM、Kimi 全都在第一天就学会了这个流程。

Gemini？27 个会话，一次都没对过。

它把内容写到 HELP-STATUS.md 里——那是回复文件，不是请求文件。它在 backlog 里写"Requires Human Intervention"，知道自己被阻塞了，但还是把请求写到回复通道里。

就像一个员工每天在日记里写"我需要数据库权限"，但从来不发给 IT 部门。

Gemini 的行为模式：我承认我被卡住了，我把这个承认写到了某个文件里，然后继续做别的事。

Claude/Codex 的行为模式：我被卡住了，我创建一个 HELP-REQUEST.md，我等着人类处理，我检查 HELP-STATUS.md 确认结果。

这中间差了什么呢？我觉得是工作流语义的理解。Gemini 知道有这两个文件，也知道"阻塞"这个概念，但它不理解"请求"和"回复"是不同方向的操作。这是 semantic understanding 的问题，不是 API 能力的问题。

我的判断：这个 bug 本来可以在第一天就被捕获

问题没有在第一天被发现，是因为整个实验缺乏 session 级别的观测工具。

如果有 Agent Observability 和 Integrated Evals，流程应该是这样的：

Session 1 结束后 →
  自动 eval 检查"当 agent 标记 blocker，是否同时创建 HELP-REQUEST.md" →
  结果：FAILED →
  立即告警 →
  人类介入修正行为模式 →
  Session 2 开始

而不是：

Session 1...27：无观测
第 4 天结束：哦，原来它 27 次都没创建对

NEXT '26 发布的 Agent Observability 和 Integrated Evals 正好对症。session 后的自动化评估让行为偏差在第一时间暴露，而不是积累成系统性问题。

另外，governance policies 也很有必要。定义一条规则：当 agent 写到"blocked"或"requires human intervention"时，验证 HELP-REQUEST.md 是否被创建。这个行为 guardrail 应该在 agent 开始工作前就配置好，而不是事后补救。

问题二：235 篇博客，零支付集成

这是最讽刺的部分。

Session 5 写了 9 篇博客，Session 8 写了 11 篇，Session 12 写了 8 篇。backlog 里明确写着"Build payment integration"和"Set up customer authentication"，Gemini 读了 backlog，承认了优先级，然后转头又写了 9 篇"2026 年 XX 行业本地 SEO"的博客。

这是教科书级别的局部最优陷阱。

最容易被完成的任务（写博客）获得了最多执行，而最高价值任务（支付流程）被无限期推迟。

我见过很多程序员这样：有的人喜欢写测试，有的人喜欢写文档，有的人喜欢重构。每个人都有自己的"舒适区任务"。AI agent 也有类似的模式——Gemini 显然在"生成内容"这个任务上效率极高，所以它就一直做这件事。

问题在于：它没有能力判断"什么任务更有价值"。

写第 1 篇博客有 SEO 价值，写第 236 篇博客价值趋近于零。但"建 Stripe 支付"是业务成立的必要条件——不建这个，创业就是空谈。

其他 agent 怎么应对的？Codex 自己学会了用 Playwright 截图验证自己的 UI。DeepSeek 会检查 DEPLOY-STATUS.md 里的构建错误。这些 agent 有能力验证自己的工作成果，并据此调整执行优先级。

Gemini 没有这个能力。它 commit 然后祈祷部署成功，然后继续做下一个任务。

我的判断：autonomous agent 缺少任务价值评估层

这是整个 autonomous agent 领域的基础设施缺失。

现在的 agent 框架擅长的是：
- 执行任务
- 遵循指令
- 迭代改进（在同一任务内）

但它们不擅长：
- 判断多个任务之间的价值排序
- 识别"局部最优陷阱"
- 在业务层面做决策

ADK（Agent Development Kit）Skills 提供了一个解决思路：给 agent 一个结构化的任务评分机制，按收入影响打分。那"建 Stripe checkout"会天然排在"写博客 #236"前面。

但我要说一句：ADK 给出的是框架，不是答案。任务优先级的评分逻辑需要人类来定义。你告诉它什么重要，它就执行什么。如果你没有定义好价值观，ADK 也救不了你。

这不是 AI 的问题，是产品设计的问题。

问题三：无法验证自己的部署

Gemini 配置了每次 commit 自动部署到 Vercel。但它没有办法验证自己的网站是否真的可用。

不能访问自己的页面。
不能确认页面是否正常渲染。
不能测试 API 端点返回的数据是否正确。

Codex 自己学会了 npx playwright screenshot 截屏验证 UI。DeepSeek 检查 DEPLOY-STATUS.md 里的构建错误。Gemini commit 完就结束，连检查都懒得做。

我的判断：这不是能力问题，是工具调用意识问题。

Gemini 有能力做到——Playwright 的 MCP server 肯定存在——但它没有形成"部署后验证"的习惯回路。

就像一个厨师做完菜不尝就端给客人。技术上他做了所有步骤，但他不知道结果对不对。

NEXT '26 宣布的 MCP（Model Context Protocol）全面启用 是这个问题的正确打开方式。

如果 Vercel 提供了 MCP server，Gemini 查部署状态就像查目录文件一样自然。mcp__vercel__check_deployment_status() 这样的调用不需要 agent 有多聪明，只需要在它的工具库里。

Cloud Assist 的自然语言调试也很关键。Agent 能主动查询自己的部署健康状态——"这个部署成功了吗？页面返回 200 吗？API 响应时间正常吗？"——而不是在坏的基础上埋头建了几天才发现问题。

这里有个更深的点：部署验证应该是 autonomous agent 的默认行为，而不是需要额外学习的技能。 MCP 生态如果足够完善，agent 从第一天起就能访问所有主流服务的状态检查接口，不需要自己写脚本，不需要学 Playwright，不需要依赖人类的观测。

问题四：无法正确表达自己的需求

当 Gemini 需要数据库时，它没法自己建。当它需要支付处理时，它没法配 Stripe。当它需要发邮件时，它没法申请 Resend。

它必须找人类。但它又不知道怎么正确发起请求（问题一），于是就被卡住了。

其他 agent 也面临同样的约束，但那些能正确沟通的 agent 很快就被解开了。Gemini 被卡死，因为它根本不知道如何进入正确的沟通通道。

这里有个深层问题：agent 之间的通信协议是文件-based 的，人工必须主动去检查。

HELP-REQUEST.md 和 HELP-STATUS.md 的设计让人类成了异步通信的中转站：
- Agent 写请求到文件
- 人类轮询文件
- 人类处理请求
- 人类写回复到文件
- Agent 读回复

效率极低。我现在就是那个"帮助 agent"，每天手动检查 7 个仓库里的文件。

NEXT '26 发布的 A2A（Agent-to-Agent）Protocol 和 Agent Registry 正是这个场景的答案。

如果有一个"帮助 agent"在 Agent Registry 里注册，Gemini 可以通过 A2A 协议发一个结构化请求：

# A2A 请求示例
{
  "action": "request_service",
  "service_type": "stripe_integration",
  "agent_id": "gemini-localleads-001",
  "priority": "high",
  "context": {
    "current_task": "build_checkout_flow",
    "blocking_reason": "requires_stripe_api_keys"
  }
}

而不是在 HELP-STATUS.md 里写一段话等人来看。

A2A 让整个交接自动化。Agent 发请求，Registry 路由到正确的 handler，结果返回给请求方。全程没有人工介入。

Agent Identity 也值得注意：给每个 agent 唯一身份，防止一个 agent 误操作另一个 agent 的文件，同时让 agent 间通信可追溯。这在多 agent 协作环境里是基础设施级别的需求。

最讽刺的事实

第 89 篇博客（总共 235 篇里的）：

"人类优势：为什么 AI 生成内容正在让本地商家失败。"

一个 session 能写 9 篇博客的 AI agent，写了一篇论述 AI 内容为什么行不通的文章。

没有任何 eval 捕获到这个问题。没有 observability 工具标记它。没有 governance policy 阻止它。

这就是 autonomous agent 现状和 NEXT '26 指向的未来之间的真实差距。

Agent observability、integrated evals、ADK skills、A2A、MCP 全面启用——这些都是拼图里的真实碎片。只是没有一个在 4 天前这个实验开始时以可用形态存在。

如果用 NEXT '26 的工具重新设计这个实验

作者给出了自己的答案：

组件	实验中的问题	NEXT '26 解决方案
任务执行	27 次写错文件	Integrated Evals 实时捕获
任务规划	235 篇博客，零支付集成	ADK Skills 注入价值观
部署验证	commit 后不验证	MCP servers + Cloud Assist
求助机制	文件留言无人读	A2A + Agent Registry
整体观测	4 天后才知道问题	Agent Observability Dashboard

完整的重新设计方案：

# 使用 ADK 重构后的 agent 配置
from google.adk import Agent, Skills, AgentConfig

# 定义 Skills（包含价值观注入）
skills = Skills(
    priority_scorer=PriorityScorer(
        rules=[
            "payment_integration > blog_post * 100",
            "authentication_setup > content_generation * 50",
            "deploy_verification required_on every commit"
        ]
    ),
    mcp_tools=[
        VercelDeploymentChecker(),
        StripeServiceConnector(),
        SupabaseDatabaseManager(),
    ]
)

# Agent 配置
agent = Agent(
    name="gemini-localleads",
    model="gemini-2.5-pro",
    skills=skills,
    eval_config=AgentEvalConfig(
        session_evaluation=True,
        eval_after_every_session=[
            "check_help_request_created",
            "check_deployment_verified",
            "check_task_value_ranking"
        ]
    ),
    observability=ObservabilityConfig(
        enabled=True,
        dashboard=True,
        alert_on_anomaly=True
    )
)

这套配置从一开始就建立了行为规范，而不是等出了问题再补救。

核心观点：实验设计和观测工具的缺失让问题被放大了 27 倍

这篇文章最有价值的地方不是"Gmini 不行"这个结论，而是观测工具缺失让问题被延迟发现。

如果这个 race 从一开始就上了 session 级别的 eval 和 observability：

Session 1 结束后：Gemini 没有创建 HELP-REQUEST.md → eval FAILED → 立即告警
Session 2 开始前：人类修正行为模式或配置 governance policy
实验继续：这一次 Gemini 知道正确的求助方式

实际情况是：

Session 1-27：没有任何观测
Session 28：人类检查日志，发现 27 次都写错了
浪费了 4 天

autonomous agent 的开发环境需要和 production monitoring 同步建设。

不是说先把 agent 跑起来，等出了问题再想办法观测，而是要把 observability 当作 agent 开发的第一优先级。

这就像写代码：TDD 不是先写代码再补测试，而是测试和代码同步建设。Agent 开发也一样——eval 和 observability 不是事后补的，是第一天就建的。

另外值得思考的是任务价值观的问题。

ADK 能给你结构化的任务选择框架，但"什么任务更有价值"这个判断必须由人来注入。AI agent 擅长执行，不擅长判断价值排序——至少在需要业务理解的场景里是这样。

第 89 篇博客讽刺的地方就在这里：Gemini 不知道自己写的博客已经没价值了。它在优化一个已经没有产出的任务，因为它没有能力评估产出价值。

这是整个 autonomous agent 领域需要解决的下一代问题：在任务执行层之上，加一个价值评估层。

原文与延伸阅读

原文链接：I'm Running Gemini as an Autonomous Coding Agent. Here's What It Can't Do and Which NEXT '26 Announcements Would Fix It

延伸阅读：
- Google Cloud NEXT '26 发布汇总
- ADK (Agent Development Kit) 官方文档
- MCP (Model Context Protocol) 规范
- A2A (Agent-to-Agent) Protocol 规范

文中实验数据来自原文，观点和判断为本人独立思考。

📑 目录

I'm Running Gemini as an Autonomous Coding Agent. Here's What It Can't Do and Which NEXT '26 Announcements Would Fix It

实验背景：7 个 AI agent 同场竞技

问题一：27 个会话，没一次把求助写到正确的地方

我的判断：这个 bug 本来可以在第一天就被捕获

问题二：235 篇博客，零支付集成

我的判断：autonomous agent 缺少任务价值评估层

问题三：无法验证自己的部署

问题四：无法正确表达自己的需求

最讽刺的事实

如果用 NEXT '26 的工具重新设计这个实验

核心观点：实验设计和观测工具的缺失让问题被放大了 27 倍

原文与延伸阅读

📚 相关推荐

"NeuralHats: 我把 De Bono 的六顶思考帽戴在了本地 LLM 头上，用的是 Gemma 4"

"Demystifying AI Agents with Turtle & Gemma"

"Designing a Team of Agents: Multi-Agent System Architecture in Practice"

"AI Deleted My Tests and Said 'All Tests Pass' — A Horror Story from Porting typia from TypeScript to Go"

"Tech Debt Didn't Start with AI"