
演示环境里跑得顺,上线就崩——这大概是 AI agents 最常见的故事了。
MIT 2025 年发布的《AI 在企业中的现状》(State of AI in Business)报告(Fortune 报道摘要)发现,95% 的企业 AI 试点项目没有产生可衡量的业务回报。更能说明问题的是这组数据:用供应商工具搭建的试点,成功率大约 67%;内部团队自己搭的,成功率只有前者的三分之一,大约两成出头。
这个差距我每周都能看到。一支团队用五个案例跑通了一个 demo,上线第一周、真实数据一进来,就散架了。
这些失败不是随机的。我见过的情况横跨招聘、医疗后台、法律审核、财务对账、供应链等等领域,能解释绝大多数失败的,只有两个模式。
大多数原型是为了演示而建的。演示问的是:这件事 agent 能不能跑通一次?
生产环境问的是完全不同的东西:它能不能在略微不同的输入下连续跑一千次,而且没人盯着?出问题的时候,能不能还原 agent 看到了什么、做了什么决策?如果有不可逆的操作,能不能在执行前让人审批,而不是事后才发现?审计问起上季度跑了什么,有没有完整的操作记录?
大多数原型一个都回答不了。它们本来就不是为这些问题设计的。
AI agents 做的是非确定性决策。没有逐行的操作日志,出了 bad run 根本没法排查。没有对不可逆操作设置明确的审批门控,agent 第一次碰到真实数据时,你才会发现"读文件"和"转钱"之间有天壤之别。没有访问控制、密钥管理、数据保留策略,根本过不了任何正经企业的门槛。
当必须在速度和质量之间做取舍时,质量必须赢。没人会主动选"又快又坏",但每个原型里都藏着隐含的速度默认值:超时设短、不做重试、跳过验证环节。这些默认值如果不专门重设计,往往会跟着一起进生产环境。一次跑三十秒但结果正确,永远比一次跑五秒但有 10% 概率出错更有价值。
那些真正做出来的团队,把可靠性和治理当成架构本身,而不是最后补上去的功能。他们不是在搭"一个 agent",而是在搭一套小型运营系统,恰好用了一个模型。模型反而是最简单的部分。
现在发布一个原型比历史上任何时候都容易。一个创始人、一个分析师、一个 HR,花一个周末用 Claude 或者 ChatGPT vibe coding 一套流程出来,这在原型阶段确实是实打实的效率提升。
但一旦这个流程变成了公司的标准操作方式,定制化就成了问题。
团队里五个人要做同一件事,结果每个人都搞出了一套略有不同的流程。一个人的版本跳过了一步,另一个擅自接了一个没审批过的供应商,第三个偷偷用了旧版 API。他们在各自的本地环境里都能跑通。但没有一个人做的是真正的那套流程。
没有唯一的真相来源。流程活在某人的聊天记录里、一份文档里、或者 GitHub gist 上的一段脚本里。经理问"我们怎么做这件事",能得到五个答案,每个都稍微有点过时。
上游 API 改了,或者政策改了,这套改动需要在五个地方同步。通常只改了两个,剩下三个逐渐漂移。一个月后,半个团队用的是旧版本,没人知道这件事。
你没法部署一百个略有不同的流程副本,然后说这是生产环境。生产环境意味着唯一canonical版本。有版本控制、可共享、可观测、在一个地方更新。vibe coding 出来的流程散落在一百个聊天窗口里,恰恰是这一切的反面。
把可靠性当成 v1 的必选项,而不是 v2 清理清单上的东西。从第一天就输出操作日志。在搭建具体操作之前,先把审批门控搭好。在 agent 拿到执行凭证之前,先定义好破坏性操作的护栏。这些工作在前期做的成本是几小时;出了 bad run 之后返工的成本是几个月,还有信任。
选速度还是选可靠性,要为正确的工作选,不要稀里糊涂地默认。有些流程确实适合快速尽力而为的 agent,但大多数企业级流程不是。如果工作涉及财务数据、客户记录,或者监管关心的东西,默认选可靠性,承受延迟成本。
把流程定义收归一处。把每个自动化当成代码来对待。一套 canonical 版本,放在所有人能看到的系统里,有版本历史。vibe coding 适合原型第一个版本的快速验证。作为长期运营版本是灾难。从第一个版本过渡到运营版本,这个过程本身就是工作。
让治理有人负责,而不是没人管。一个人负责你部署的所有 agents 的访问控制、操作日志和异常处理。这个活不性感,但是必须的。
对生产环境的门槛诚实一点。"demo 里跑通了"是关于 demo 的事实,不是关于 agent 的事实。用真实流量、真实数据跑一遍,观察失败模式有哪些,然后修掉它们。这个阶段往往比搭 agent 本身花的时间还长。这是正常的。
瓶颈不在模型。当前的模型能力绰绰有余。瓶颈在于操作日志、护栏、单一真相来源、治理、运营纪律。
这是好消息。这意味着这些都是可以解决的问题。在这些层面投入的团队,比追下一个 benchmark 的团队能积累出更大的优势。
如果你在搭一个无人值守跑真实工作的 AI 流程,先认真对待可靠性,再考虑速度。先把流程标准化,再扩大规模。
做到这些的团队,就是我见过真正能跑出来的那些。
原文链接:https://dev.to/docker/why-most-ai-agents-fail-in-production-27n4