GPT-5.5 已发布 — 数字背后的真实含义
AI技术与应用 2026-04-24 15:09:16 11 # GPT-5.5 已发布 — 这些数字到底意味着什么
昨天(2026年4月23日),OpenAI 发布了 GPT-5.5。代号为"Spud"。
令人意外的并不是模型本身。GPT-5.4 是六周前发布的。
在简报会上,OpenAI 首席科学家 Jakub Pachocki 表示,过去两年实际上进展缓慢。这句话才是这次发布的真正背景。
## 六周和"Spud"
GPT-5.4 是六周前发布的。再往前一次是 12 月,再往前是 11 月。
模型发布季度性事件的时代已经结束。现在变成了每周或每月一次。
这种速度之所以可能,原因很简单:AI 正在加速 AI 的发展。根据 OpenAI 的数据,Codex 每周有 400 万活跃用户,ChatGPT 有 900 万付费企业用户。如此大规模的真实使用反馈直接进入下一轮训练周期。
再看一遍 Pachocki 的发言。
> "过去两年出乎意料地缓慢。"
他并不是说现在很慢。而是在宣告未来会更快。GPT-5.5 在六周内就发布了,甚至他也在说这已经很慢了。
Greg Brockman 在同一场简报会上将其描述为"一种新的智能类型"和"通向代理式和直觉计算的一大步"。去掉营销术语后,唯一不变的是:模型更新周期现在比大多数产品规划周期还要短。
## 发布的基准数据
以下是具体数据。
**Terminal-Bench 2.0** —— 复杂的命令行工作流,需要计划、工具使用和迭代:
```
GPT-5.5 82.7%
GPT-5.4 75.1%
Claude Opus 4.7 69.4%
Gemini 3.1 Pro 68.5%
```
**OSWorld-Verified** —— 模型自主操作计算机的能力:
```
GPT-5.5 78.7%
Claude Opus 4.7 78.0%
GPT-5.4 75.0%
```
**SWE-Bench Pro** —— 单次通过解决真实的 GitHub 问题:
```
GPT-5.5 58.6%
```
在 Terminal-Bench 上,GPT-5.5 比 Opus 4.7 领先 13.3 个百分点。这是一个巨大的飞跃。但在 OSWorld 上,差距只有 0.7 个百分点。在一个维度上占优,另一个维度上仅略微领先。
不是"碾压",只是领先。而且,按单一基准排名模型的时代已经过去了。Anthropic 在计算机使用方面投入了很多,更诚实的解读是 OpenAI 只是刚刚追上,而不是远远超越。
另外:基准测试是营销材料。OpenAI 选择了对自己有利的数据。真实世界的感受需要每个团队在自己的工作负载中验证。
## 1M 上下文与奇怪的 Token 经济
定价很有意思。
```
GPT-5.5 $5 / $30 每 1M tokens(输入 / 输出)
GPT-5.5 Pro $30 / $180 每 1M tokens(输入 / 输出)
上下文窗口 1M
批量 / 弹性 标准价格的一半
优先级 标准价格的 2.5 倍
```
它比 GPT-5.4 更贵。但 OpenAI 声称它用更少的 token 完成相同的工作。他们自己的帖子提到,GPT-5.5 在生产服务中的每 token 延迟与 GPT-5.4 相当。
翻译一下:单位价格上升了,但 token 消耗减少到足以让最终账单相似或更低。实际钱包支出取决于你的工作负载。长时间运行的代理任务和大量推理可能会受益。而有很多短调用的应用可能会变得更贵。
还有 1M 上下文。OpenAI 赶上了 Anthropic 之前进入的领域。长文档分析、完整仓库理解、长时间运行的代理会话——这些真实的工作负载中,1M 上下文是有意义的。
值得注意的是 GPT-5.5 Pro 的定价。输入 30 美元,输出 180 美元。这不是为业余开发者定价的。而是明确面向企业级工作负载——全天候运行的代理、复杂的科研流程,其他场景在这样的价格下都不合理。
## 神话、红色代码与竞争格局
Axios 报道中最引人注目的句子是:
在 OpenAI 内部,Anthropic 的崛起被报告为一个"红色代码"时刻,并且这一时刻推动了向企业客户的转型。
在 GPT-5.5 简报会上,OpenAI 明确提到了 Anthropic 的 Mythos。Mythos 是 Anthropic 最新的前沿模型,本月早些时候宣布,但由于网络安全能力有限,只进行了有限的推出。OpenAI 提及它的原因很明显:他们想传达的信息是"我们也有 Mythos 级别的网络安全能力。"
目前的前沿模型竞赛不再是技术对技术。而是企业预算对企业的预算。《财富》杂志引用了摩根大通的 CIO,他们在 220 多个 AI 使用案例中同时运行 Anthropic 和 OpenAI。像这样的客户才是真正推动市场的力量。
模型每隔六周发布的原因就在这里。这不是技术必要性。而是因为你的竞争对手可以每隔六周发布一次。一旦你放慢节奏,企业合同就会开始流失。
有趣的是,这种竞争动态对用户来说是个好消息。每隔六周就有更好的模型,同时价格压力也随之而来。只要有多家前沿实验室活跃,整个领域都会更加健康。
## 数字背后还有什么
那么,你实际能做什么呢?
围绕单一模型构建你的系统是一个越来越糟糕的选择。很可能在六周内会有更好的模型出现。可能是 OpenAI,也可能是 Anthropic,也可能是 Google。你无法预测是哪一个。
投资要向上一层。包括设计、多代理协调、工具链、评估管道、上下文工程。这些层可以承受模型更换。更棒的是,随着模型变好,它们也会变得更好。
像 GPT-5.5 这样的发布不再成为新闻——它们已经成为环境。一个按照时间表更新的基础设施。基于这个假设构建你的工作流,是 2026 年的现实选择。
那些不会因一两个点的基准波动而情绪起伏的人,才能走得更远。如果 Terminal-Bench 的 82.7% 在几个月后变成 85%,你的工作流设计仍然基本适用。
> "模型会被替换。工作流会积累。"