玻璃之翼降临——Glasswing计划与Claude的Mythos Preview

xiejin77 · 发表于前天 07:45

玻璃之翼降临——Glasswing计划与Claude的Mythos Preview

一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞，然后11家科技巨头都坐不住了……

故事是这样的。

我今天看到这个新闻，看完之后愣了好几秒。

一家叫OpenBSD的公司——做操作系统的，算是安全领域的老前辈——他们有一个漏洞，在代码里躺了整整27年。1998年写进去的，没人发现。

结果被一个AI模型给挖出来了。

这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方，所有传统工具都扫过5百万次，一次都没报过警"的条件下挖出来。

然后，这个AI模型，顺手还把FFmpeg里一个16年的漏洞也给挖了。

FFmpeg，音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台，有几个不是建立在FFmpeg之上的？这个漏洞在里面藏了16年。5百万次自动化测试，没一次报过警。

然后呢？

然后，11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来，说了一句话：我们一起出钱，让这个AI模型，能被全世界的安全研究员用上。

这个项目，叫Glasswing。

glasswing

先说清楚Glasswing是什么。

简单说，它是一个AI安全联盟。发起方是Anthropic，加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心，是一个叫Claude Mythos Preview的模型——注意是Preview（预览版），就是还没正式发布的那个版本——专门训练来挖漏洞的。

有多强呢？

CyberGym基准测试，83.1%。作为对比，Claude Opus 4.6，得分是66.6%。不是Claude Opus 4.5，是Claude Opus 4.6，Anthropic目前最强模型。

SWE-bench Verified，93.9%。还是SWE-bench Verified，不是那个容易一点的版本。Claude Opus 4.6是80.8%。

差了13个百分点。

你说这13个百分点意味着什么？

意味着，传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。

意味着，27年的OpenBSD，16年的FFmpeg，以后可能不会再有了。

或者说，这种级别的漏洞发现速度，会比以前快几个数量级。

说到这个OpenBSD的漏洞，我必须展开讲一下，因为这个例子太有意思了。

OpenBSD是个什么存在？

它是BSD操作系统的一个分支，最核心的设计哲学就是安全。代码审计之严格，在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。

这样的项目，代码审计了多少年了？二十多年。

然后，一个漏洞，在里面躺了27年。

这说明什么？

不是OpenBSD的人不行，是传统的审计方式有盲区。任何人工审计，只要时间足够长、人足够累、代码足够复杂，就一定会有漏洞漏过去。这是人性的边界，不是能力的边界。

但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内，把整个代码库的所有调用路径、所有边界条件全部穷举一遍。

Mythos Preview发现的那个OpenBSD漏洞，是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限，可以利用这个漏洞进一步提升到root权限。

这种漏洞可怕在哪？

它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解，才能构造出触发条件。

传统扫描工具扫不出来，是因为它的payload模式不在规则库里。AI不一样，AI学的是语义理解，它不是匹配特征，它是理解代码在"想什么"。

FFmpeg那个例子更让我震撼。

16年。

FFmpeg上一次发现这种级别的漏洞是什么时候？2009年。

16年都没有人发现。然后Mythos Preview扫了一下，找到了。

注意这个"扫了一下"的背景。SWE-bench测试集里，有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过，是某次修复的时候被记录下来的。这意味着，Mythos Preview不仅能做代码审计，它能做的是：从海量代码里，识别出"这个写法有问题，即使目前还没有人报告过"。

这是主动防御，不是被动响应。

传统安全的方式是：出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。

AI安全的方式是：不需要样本。直接读代码，告诉你这里有个洞。

这两者之间的差距，大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。

现在说说大家最关心的问题：谁能用到，怎么用，花多少钱。

Glasswing的AI能力，现在跑在三个平台上：Amazon Bedrock、Google Vertex AI、Microsoft Foundry。

这三个平台，恰好是AWS、Google Cloud、Azure。全球三大云服务商。

你在任何一个上面，都能调用Mythos Preview的漏洞检测能力。

价格呢？过了初始的credits之后，每百万token输入25美元，每百万token输出125美元。

这个价格贵不贵？

对比一下就知道了。现在市面上做代码安全扫描的工具，像Snyk、Veracode这一类，商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配，不是语义理解。

Mythos Preview能发现那些工具发现不了的漏洞。

这不是贵不贵的问题了，这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。

另外，Anthropic自己掏了1个亿美元的使用额度，分给联盟成员和开源社区。还额外捐了400万，250万给Alpha-Omega/OpenSSF，150万给Apache软件基金会。

这些钱是用来干什么的？让那些没有商业利益驱动的开源项目，也能用上最好的漏洞检测能力。

FFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计，但他们的代码，运行在全球几十亿台设备上。

还有一个细节，我觉得特别有意思。

漏洞发现之后，公开披露的时间是90天。

90天是什么概念？

行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新，但又不至于让漏洞在黑市上流通太久。

但这里有一个问题：90天是针对"有人发现了漏洞"这个前提来说的。

Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞，可能比以前整个安全社区一个月挖的还多。

这意味着，漏洞披露的节奏，整个就变了。

以前是"挖到一个，披露一个"。现在是"AI在持续不断地挖，每90天披露一批"。

厂商的补丁开发速度，能不能跟上AI的发现速度？

这个，我说实话，不知道。但我觉得，这是整个Glasswing项目最值得观察的地方之一。

写到这儿，我突然想到了一个更大的问题。

Glasswing这个名字，本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的，像玻璃一样。

透明，意味着隐藏的东西变可见了。

一只蝴蝶的翅膀是透明的，它就隐藏不了任何东西了。它在哪里，飞向哪里，所有捕食者都看得清清楚楚。

这个意象，放在漏洞挖掘上，太精准了。

代码里那些隐藏了几十年都没人发现的漏洞，在AI的"眼睛"之下，突然就透明了。

以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开，漏洞藏在暗处，攻击者找不到。

但现在，只要代码存在，AI就能读。Mythos Preview不需要你的代码是开源的，它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。

代码越来越难藏了。或者说，代码里的漏洞越来越难藏了。

这是一件好事吗？

我觉得，短期内，这是一件非常非常好的事。

全球互联网基础设施里，有多少代码是10年、20年、30年前写的？没人敢审计、没人敢动、出了问题就打补丁接着跑的，有多少？

这些代码就像一颗颗定时炸弹，埋在整个数字世界的基础里。

AI能做的是，帮我们把这些炸弹找出来，一颗一颗地拆除。

但长期呢？

当所有可见的漏洞都被AI清除干净之后，剩下的，是什么样的世界？

是代码质量极高、安全性极强的一个世界？还是所有攻击者也在用同样的AI，攻击的速度和防守的速度同步提升的一个世界？

我也不知道。

但有一件事我特别想强调。

这次Glasswing联盟里，有JPMorganChase，有CrowdStrike，有Palo Alto Networks。这些公司，是真正的安全重度用户。

他们自己有能力挖漏洞吗？当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。

他们为什么还要加入这个联盟，用别人的AI？

我大胆猜测一下：因为挖漏洞这件事，规模太大了。

全球代码量太大了。每一家公司，即使安全团队再强，也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码，你根本管不到。

Mythos Preview的价值，不在于它比你的安全团队强。而在于它能同时扫所有地方。

这是规模效应。

就像打补丁。手工打补丁，你只能打你知道的那些机器。自动化打补丁，你能打你所有的机器。AI扫漏洞，相当于在每一个代码提交的时候，就自动扫一遍。

这个规模，是人类团队根本无法覆盖的。

Glasswing这个项目，还有可能往一个方向发展——成为一个独立的第三方机构。

什么意思？

现在它还是Anthropic牵头、11家公司参与的联盟。但未来，它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果，有公信力；它的漏洞报告，有权威性；它给出的安全评级，整个行业认。

类似现在的ISO认证，但针对的是代码安全。

想想这个画面。未来的软件采购，合同里可能不只要写"符合SOC2"，还要写"通过Glasswing认证，漏洞数为0"。

这不是不可能的。

当然，路还很长。现在还只是第一步。但方向是对的。

好了，写了这么多，让我最后说几句掏心窝的话。

我这次看到Glasswing的新闻，第一个反应是兴奋，第二个反应是有点怕。

兴奋是因为，我真的觉得，这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全，大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要，但离普通开发者很远。

这次不一样。这次是AI在帮我们发现自己的脆弱点。

这种脆弱点，我们以前不知道，或者知道但没有能力发现。AI把它们挖出来，摆在阳光下，告诉你这里需要修。

这是AI在补人类的短板。不是在超越人类，是在帮助人类补上人类自己够不到的地方。

我怕的是什么呢？

我怕的是，这个工具，只有大公司用得起。

AWS、Google、Microsoft，Bedrock、Vertex AI、Foundry。这些平台，都是商业平台。Cloudflare这种中型公司，可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗？

Anthropic捐的那1亿美元额度够用多久？分到全世界的开源项目上，每个项目能分到多少？

这些问题，现在还没有答案。

但有一点我特别想强调。

Glasswing这个项目，让安全这件事，第一次真正有了一种"基础设施"的可能性。

以前的安全，是奢侈品。你要么雇得起安全团队，要么买得起企业级扫描工具，要么你就裸奔。

AI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞，但它的调用成本，并没有比那些工具贵多少。

当漏洞挖掘的成本持续下降，当AI扫描变成每一个代码仓库的标配，我们或许真的会迎来一个更安全的互联网。

这一天什么时候来？我不知道。可能5年，可能10年。

但Glasswing，让我第一次觉得，这件事不是痴人说梦了。

aniu · 发表于前天 09:53

联想到了Snowden曝光的棱镜PRISM

xiejin77 · 发表于前天 09:56

aniu 发表于 2026-4-9 09:53
8 I# G9 v* j' W' R联想到了Snowden曝光的棱镜PRISM

大模型大大降低了此类工具的门槛，之前国内的安全夺旗竞赛，几个夺冠的团队好像都用了AI，最狠的一个用了五个codex自动渗透攻击；反复迭代。

		自动登录	找回密码
密码			注册

[科技前沿] 玻璃之翼降临——Glasswing计划与Claude的Mythos Preview

评分

点评

浏览过的版块