Marico's space

为何大多数 AI agents 在生产环境中失败

AI技术与应用 2026-05-09 18:06:36 2

演示环境里跑得顺，上线就崩——这大概是 AI agents 最常见的故事了。

MIT 2025 年发布的《AI 在企业中的现状》（State of AI in Business）报告（Fortune 报道摘要）发现，95% 的企业 AI 试点项目没有产生可衡量的业务回报。更能说明问题的是这组数据：用供应商工具搭建的试点，成功率大约 67%；内部团队自己搭的，成功率只有前者的三分之一，大约两成出头。

这个差距我每周都能看到。一支团队用五个案例跑通了一个 demo，上线第一周、真实数据一进来，就散架了。

这些失败不是随机的。我见过的情况横跨招聘、医疗后台、法律审核、财务对账、供应链等等领域，能解释绝大多数失败的，只有两个模式。

可靠性和治理

大多数原型是为了演示而建的。演示问的是：这件事 agent 能不能跑通一次？

生产环境问的是完全不同的东西：它能不能在略微不同的输入下连续跑一千次，而且没人盯着？出问题的时候，能不能还原 agent 看到了什么、做了什么决策？如果有不可逆的操作，能不能在执行前让人审批，而不是事后才发现？审计问起上季度跑了什么，有没有完整的操作记录？

大多数原型一个都回答不了。它们本来就不是为这些问题设计的。

AI agents 做的是非确定性决策。没有逐行的操作日志，出了 bad run 根本没法排查。没有对不可逆操作设置明确的审批门控，agent 第一次碰到真实数据时，你才会发现"读文件"和"转钱"之间有天壤之别。没有访问控制、密钥管理、数据保留策略，根本过不了任何正经企业的门槛。

当必须在速度和质量之间做取舍时，质量必须赢。没人会主动选"又快又坏"，但每个原型里都藏着隐含的速度默认值：超时设短、不做重试、跳过验证环节。这些默认值如果不专门重设计，往往会跟着一起进生产环境。一次跑三十秒但结果正确，永远比一次跑五秒但有 10% 概率出错更有价值。

那些真正做出来的团队，把可靠性和治理当成架构本身，而不是最后补上去的功能。他们不是在搭"一个 agent"，而是在搭一套小型运营系统，恰好用了一个模型。模型反而是最简单的部分。

标准化，而不是定制化

现在发布一个原型比历史上任何时候都容易。一个创始人、一个分析师、一个 HR，花一个周末用 Claude 或者 ChatGPT vibe coding 一套流程出来，这在原型阶段确实是实打实的效率提升。

但一旦这个流程变成了公司的标准操作方式，定制化就成了问题。

团队里五个人要做同一件事，结果每个人都搞出了一套略有不同的流程。一个人的版本跳过了一步，另一个擅自接了一个没审批过的供应商，第三个偷偷用了旧版 API。他们在各自的本地环境里都能跑通。但没有一个人做的是真正的那套流程。

没有唯一的真相来源。流程活在某人的聊天记录里、一份文档里、或者 GitHub gist 上的一段脚本里。经理问"我们怎么做这件事"，能得到五个答案，每个都稍微有点过时。

上游 API 改了，或者政策改了，这套改动需要在五个地方同步。通常只改了两个，剩下三个逐渐漂移。一个月后，半个团队用的是旧版本，没人知道这件事。

你没法部署一百个略有不同的流程副本，然后说这是生产环境。生产环境意味着唯一canonical版本。有版本控制、可共享、可观测、在一个地方更新。vibe coding 出来的流程散落在一百个聊天窗口里，恰恰是这一切的反面。

怎么办

把可靠性当成 v1 的必选项，而不是 v2 清理清单上的东西。从第一天就输出操作日志。在搭建具体操作之前，先把审批门控搭好。在 agent 拿到执行凭证之前，先定义好破坏性操作的护栏。这些工作在前期做的成本是几小时；出了 bad run 之后返工的成本是几个月，还有信任。

选速度还是选可靠性，要为正确的工作选，不要稀里糊涂地默认。有些流程确实适合快速尽力而为的 agent，但大多数企业级流程不是。如果工作涉及财务数据、客户记录，或者监管关心的东西，默认选可靠性，承受延迟成本。

把流程定义收归一处。把每个自动化当成代码来对待。一套 canonical 版本，放在所有人能看到的系统里，有版本历史。vibe coding 适合原型第一个版本的快速验证。作为长期运营版本是灾难。从第一个版本过渡到运营版本，这个过程本身就是工作。

让治理有人负责，而不是没人管。一个人负责你部署的所有 agents 的访问控制、操作日志和异常处理。这个活不性感，但是必须的。

对生产环境的门槛诚实一点。"demo 里跑通了"是关于 demo 的事实，不是关于 agent 的事实。用真实流量、真实数据跑一遍，观察失败模式有哪些，然后修掉它们。这个阶段往往比搭 agent 本身花的时间还长。这是正常的。

这背后的真正含义

瓶颈不在模型。当前的模型能力绰绰有余。瓶颈在于操作日志、护栏、单一真相来源、治理、运营纪律。

这是好消息。这意味着这些都是可以解决的问题。在这些层面投入的团队，比追下一个 benchmark 的团队能积累出更大的优势。

如果你在搭一个无人值守跑真实工作的 AI 流程，先认真对待可靠性，再考虑速度。先把流程标准化，再扩大规模。

做到这些的团队，就是我见过真正能跑出来的那些。

原文链接：https://dev.to/docker/why-most-ai-agents-fail-in-production-27n4