GPT-5.5 已发布 — 数字背后的真实含义

AI技术与应用 2026-04-24 15:09:16 105

# GPT-5.5 已发布 — 这些数字到底意味着什么昨天（2026年4月23日），OpenAI 发布了 GPT-5.5。代号为"Spud"。令人意外的并不是模型本身。GPT-5.4 是六周前发布的。在简报会上，OpenAI 首席科学家 Jakub Pachocki 表示，过去两年实际上进展缓慢。这句话才是这次发布的真正背景。 ## 六周和"Spud" GPT-5.4 是六周前发布的。再往前一次是 12 月，再往前是 11 月。模型发布季度性事件的时代已经结束。现在变成了每周或每月一次。这种速度之所以可能，原因很简单：AI 正在加速 AI 的发展。根据 OpenAI 的数据，Codex 每周有 400 万活跃用户，ChatGPT 有 900 万付费企业用户。如此大规模的真实使用反馈直接进入下一轮训练周期。再看一遍 Pachocki 的发言。 > "过去两年出乎意料地缓慢。" 他并不是说现在很慢。而是在宣告未来会更快。GPT-5.5 在六周内就发布了，甚至他也在说这已经很慢了。 Greg Brockman 在同一场简报会上将其描述为"一种新的智能类型"和"通向代理式和直觉计算的一大步"。去掉营销术语后，唯一不变的是：模型更新周期现在比大多数产品规划周期还要短。 ## 发布的基准数据以下是具体数据。 **Terminal-Bench 2.0** —— 复杂的命令行工作流，需要计划、工具使用和迭代： ``` GPT-5.5 82.7% GPT-5.4 75.1% Claude Opus 4.7 69.4% Gemini 3.1 Pro 68.5% ``` **OSWorld-Verified** —— 模型自主操作计算机的能力： ``` GPT-5.5 78.7% Claude Opus 4.7 78.0% GPT-5.4 75.0% ``` **SWE-Bench Pro** —— 单次通过解决真实的 GitHub 问题： ``` GPT-5.5 58.6% ``` 在 Terminal-Bench 上，GPT-5.5 比 Opus 4.7 领先 13.3 个百分点。这是一个巨大的飞跃。但在 OSWorld 上，差距只有 0.7 个百分点。在一个维度上占优，另一个维度上仅略微领先。不是"碾压"，只是领先。而且，按单一基准排名模型的时代已经过去了。Anthropic 在计算机使用方面投入了很多，更诚实的解读是 OpenAI 只是刚刚追上，而不是远远超越。另外：基准测试是营销材料。OpenAI 选择了对自己有利的数据。真实世界的感受需要每个团队在自己的工作负载中验证。 ## 1M 上下文与奇怪的 Token 经济定价很有意思。 ``` GPT-5.5 $5 / $30 每 1M tokens（输入 / 输出） GPT-5.5 Pro $30 / $180 每 1M tokens（输入 / 输出）上下文窗口 1M 批量 / 弹性标准价格的一半优先级标准价格的 2.5 倍 ``` 它比 GPT-5.4 更贵。但 OpenAI 声称它用更少的 token 完成相同的工作。他们自己的帖子提到，GPT-5.5 在生产服务中的每 token 延迟与 GPT-5.4 相当。翻译一下：单位价格上升了，但 token 消耗减少到足以让最终账单相似或更低。实际钱包支出取决于你的工作负载。长时间运行的代理任务和大量推理可能会受益。而有很多短调用的应用可能会变得更贵。还有 1M 上下文。OpenAI 赶上了 Anthropic 之前进入的领域。长文档分析、完整仓库理解、长时间运行的代理会话——这些真实的工作负载中，1M 上下文是有意义的。值得注意的是 GPT-5.5 Pro 的定价。输入 30 美元，输出 180 美元。这不是为业余开发者定价的。而是明确面向企业级工作负载——全天候运行的代理、复杂的科研流程，其他场景在这样的价格下都不合理。 ## 神话、红色代码与竞争格局 Axios 报道中最引人注目的句子是：在 OpenAI 内部，Anthropic 的崛起被报告为一个"红色代码"时刻，并且这一时刻推动了向企业客户的转型。在 GPT-5.5 简报会上，OpenAI 明确提到了 Anthropic 的 Mythos。Mythos 是 Anthropic 最新的前沿模型，本月早些时候宣布，但由于网络安全能力有限，只进行了有限的推出。OpenAI 提及它的原因很明显：他们想传达的信息是"我们也有 Mythos 级别的网络安全能力。" 目前的前沿模型竞赛不再是技术对技术。而是企业预算对企业的预算。《财富》杂志引用了摩根大通的 CIO，他们在 220 多个 AI 使用案例中同时运行 Anthropic 和 OpenAI。像这样的客户才是真正推动市场的力量。模型每隔六周发布的原因就在这里。这不是技术必要性。而是因为你的竞争对手可以每隔六周发布一次。一旦你放慢节奏，企业合同就会开始流失。有趣的是，这种竞争动态对用户来说是个好消息。每隔六周就有更好的模型，同时价格压力也随之而来。只要有多家前沿实验室活跃，整个领域都会更加健康。 ## 数字背后还有什么那么，你实际能做什么呢？围绕单一模型构建你的系统是一个越来越糟糕的选择。很可能在六周内会有更好的模型出现。可能是 OpenAI，也可能是 Anthropic，也可能是 Google。你无法预测是哪一个。投资要向上一层。包括设计、多代理协调、工具链、评估管道、上下文工程。这些层可以承受模型更换。更棒的是，随着模型变好，它们也会变得更好。像 GPT-5.5 这样的发布不再成为新闻——它们已经成为环境。一个按照时间表更新的基础设施。基于这个假设构建你的工作流，是 2026 年的现实选择。那些不会因一两个点的基准波动而情绪起伏的人，才能走得更远。如果 Terminal-Bench 的 82.7% 在几个月后变成 85%，你的工作流设计仍然基本适用。 > "模型会被替换。工作流会积累。"