阅读 Anthropic 的 Glasswing 初始更新

AI技术与应用 2026-05-28 17:33:26 69

最近看了 Anthropic 的 Glasswing 更新，在技术圈引起了不少讨论。这篇说说我的理解，不捧杀也不唱衰，就事论事聊聊这份"初始更新"到底讲了什么、没讲什么。

Anthropic 的 "Project Glasswing: An Initial Update" 在技术社区拿到了 281 分和 186 条评论。核心数据确实亮眼——约 50 个合作伙伴、Mythos Preview 在一个月内发现了超过 10,000 个高危或严重漏洞、外部审查样本 90.8% 的真实阳性率（true-positive rate）。数据一出，评论区瞬间变成了一场公投：AI 驱动的漏洞发现是不是已经是个"已解决"的问题了？

但仔细看，这篇帖子的标签是"An Initial Update"——初始更新。这个标签不是随便写的，它有明确的含义。

初始更新承诺了什么

初始更新承诺了三件事：第一，研究方向——一个带有自定义脚手架（scaffolding）的前沿模型，目标是发现关键软件中的漏洞；第二，合作伙伴结构——约 50 个合作伙伴，用同一个模型扫描自己的代码库；第三，早期结果数据——23,019 个候选发现，其中 1,900 个经过外部审查，1,726 个确认为真阳性，还有合作方自己的报告，比如 Cloudflare 报告的 2,000 个 bug，其中 400 个属于高危或严重级别。

初始更新没有承诺什么

但它没有承诺一篇完整的论文。没有承诺第三方可以复现的方法论。更重要的是，它没有承诺假阴性率（false-negative rate）。帖子报告的是"候选集中通过内部过滤后的样本"的真实阳性率，而不是"代码库中 реальных реальных реальных bugs missed by the system"——系统漏掉了多少真实 bug。

它也没有承诺下游结果。发现 bug 和在生产环境中打补丁是两码事，更不用说修复时间、回归率、披露后的攻击面净变化了。还有外部复现——90.8% 的真实阳性率是个真实数字，但它具体是什么意思，取决于这 1,900 个样本是从 23,019 个候选中由谁、怎么选出来的。

这不是批评这份工作。Glasswing 的帖子做得没问题——标签贴得准确，没有夸大。问题出在阅读方式上。

两种常见的阅读错误

这类帖子下面总会出现两种阅读错误。

第一种是"标题数字错误"——把"发现 10,000 个漏洞"抽离上下文，当作一个基准（benchmark）。把某个组织的内部计数当作基准，正是这几年大模型能力宣传中的老毛病，2024 和 2025 年围绕代码生成的宣传已经翻过一次车了，这反射还没更新。

第二种是"复现假设错误"——因为合作伙伴名单里有认识的公司，就认为方法论经过了独立审计。实际上并没有。合作方用同一个模型跑自己的代码库然后汇报结果，这叫合作，不叫复现。复现是另一个实验室、用不同的样本、应用一套有文档的方法。

什么才算是证据

正确的怀疑方式不是否定这份帖子，而是精确指出"状态更新告诉你什么"和"论文告诉你什么"之间的差距，然后明确指出哪些信号能弥合这个差距。

三个信号能把 Glasswing 从"初始更新"升级为证据。

第一，后续帖子要有消融实验和方法论说明——候选集之前跑了哪些过滤、提示词和脚手架栈长什么样、在一个留出的已知漏洞语料库上的假阴性率是多少。

第二，外部复现——不是 Glasswing 合作方的安全研究团队，跑到不同的代码库上运行一个可比较的系统，然后发表对比结果。

第三， outcome 数据，不只是发现数据——这 10,000 个漏洞有多少实际被打补丁了、用了多久、有多少在部署阶段才发现是假阳性、有多少修复引入了新的回归问题。

标签是诚实的，热闹不代表定论

这份帖子的标签是诚实的。但评论区的热度不是。281 分和 186 条评论说明大量从业者注意到了这个项目。但热闹不等于问题已解决。能定论的工作，是那些还没有发表的工作。