site logo

Marico's space

阅读 Anthropic 的 Glasswing 初始更新

AI技术与应用 2026-05-28 17:33:26 6

最近看了 Anthropic 的 Glasswing 更新,在技术圈引起了不少讨论。这篇说说我的理解,不捧杀也不唱衰,就事论事聊聊这份"初始更新"到底讲了什么、没讲什么。

Anthropic 的 "Project Glasswing: An Initial Update" 在技术社区拿到了 281 分和 186 条评论。核心数据确实亮眼——约 50 个合作伙伴、Mythos Preview 在一个月内发现了超过 10,000 个高危或严重漏洞、外部审查样本 90.8% 的真实阳性率(true-positive rate)。数据一出,评论区瞬间变成了一场公投:AI 驱动的漏洞发现是不是已经是个"已解决"的问题了?

但仔细看,这篇帖子的标签是"An Initial Update"——初始更新。这个标签不是随便写的,它有明确的含义。

初始更新承诺了什么

初始更新承诺了三件事:第一,研究方向——一个带有自定义脚手架(scaffolding)的前沿模型,目标是发现关键软件中的漏洞;第二,合作伙伴结构——约 50 个合作伙伴,用同一个模型扫描自己的代码库;第三,早期结果数据——23,019 个候选发现,其中 1,900 个经过外部审查,1,726 个确认为真阳性,还有合作方自己的报告,比如 Cloudflare 报告的 2,000 个 bug,其中 400 个属于高危或严重级别。

初始更新没有承诺什么

但它没有承诺一篇完整的论文。没有承诺第三方可以复现的方法论。更重要的是,它没有承诺假阴性率(false-negative rate)。帖子报告的是"候选集中通过内部过滤后的样本"的真实阳性率,而不是"代码库中 реальных реальных реальных bugs missed by the system"——系统漏掉了多少真实 bug。

它也没有承诺下游结果。发现 bug 和在生产环境中打补丁是两码事,更不用说修复时间、回归率、披露后的攻击面净变化了。还有外部复现——90.8% 的真实阳性率是个真实数字,但它具体是什么意思,取决于这 1,900 个样本是从 23,019 个候选中由谁、怎么选出来的。

这不是批评这份工作。Glasswing 的帖子做得没问题——标签贴得准确,没有夸大。问题出在阅读方式上。

两种常见的阅读错误

这类帖子下面总会出现两种阅读错误。

第一种是"标题数字错误"——把"发现 10,000 个漏洞"抽离上下文,当作一个基准(benchmark)。把某个组织的内部计数当作基准,正是这几年大模型能力宣传中的老毛病,2024 和 2025 年围绕代码生成的宣传已经翻过一次车了,这反射还没更新。

第二种是"复现假设错误"——因为合作伙伴名单里有认识的公司,就认为方法论经过了独立审计。实际上并没有。合作方用同一个模型跑自己的代码库然后汇报结果,这叫合作,不叫复现。复现是另一个实验室、用不同的样本、应用一套有文档的方法。

什么才算是证据

正确的怀疑方式不是否定这份帖子,而是精确指出"状态更新告诉你什么"和"论文告诉你什么"之间的差距,然后明确指出哪些信号能弥合这个差距。

三个信号能把 Glasswing 从"初始更新"升级为证据。

第一,后续帖子要有消融实验和方法论说明——候选集之前跑了哪些过滤、提示词和脚手架栈长什么样、在一个留出的已知漏洞语料库上的假阴性率是多少。

第二,外部复现——不是 Glasswing 合作方的安全研究团队,跑到不同的代码库上运行一个可比较的系统,然后发表对比结果。

第三, outcome 数据,不只是发现数据——这 10,000 个漏洞有多少实际被打补丁了、用了多久、有多少在部署阶段才发现是假阳性、有多少修复引入了新的回归问题。

标签是诚实的,热闹不代表定论

这份帖子的标签是诚实的。但评论区的热度不是。281 分和 186 条评论说明大量从业者注意到了这个项目。但热闹不等于问题已解决。能定论的工作,是那些还没有发表的工作。