0 i. R" X, q% b; q( B1 Y然后呢?. n4 Y% I3 E% j6 `& ~5 M. a
" [" L* W, j2 o& ]3 z5 [$ N l$ N
然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。0 H; e1 z: f P V e2 U
& R# K8 F' l" V" q6 b% {3 D& \这个项目,叫Glasswing。 $ w0 l5 F3 X# S, r1 n* I+ U+ E6 i+ c : |3 X! W) s. u; p0 t* tglasswing & T/ v4 Z& \9 P# g2 Y& C J) q* G8 L7 Z) L/ x
8 z1 W; D! y8 f7 I- F先说清楚Glasswing是什么。8 M; ~5 _, c. G+ X# @& ^
5 b% N$ Y" p2 i* q8 T2 w
简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。# ?2 i2 B& K1 F1 S5 n6 U$ T# k
5 j( F) a3 Z" w有多强呢?1 o$ D; m) @$ H8 Y q$ L8 O$ M; t
0 }9 S/ s/ w0 Y2 y) T& V8 ZCyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。/ j% b! {# }# L8 k
6 ?4 j' d. ^4 W1 j+ ~2 \( K U4 cSWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。) \: _4 W* D" S$ \7 y, p4 b0 ]
# w, ^8 x/ a, t9 z8 i1 w0 k差了13个百分点。 9 a. k9 O4 b2 J( O( O/ T& `) G T) ?7 K$ A2 t
你说这13个百分点意味着什么?# C, N. X1 F- j% f% h# N
6 I( m. P3 I5 G7 e* H5 c
意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。 . X' n# B$ q& O" f; m 5 Z0 N0 o: V; v y+ T2 `意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。 * N' B- U- o1 F* f1 z- i: p P+ j( j6 x: ~3 D u( Z' @
或者说,这种级别的漏洞发现速度,会比以前快几个数量级。5 f/ p. H+ u* A0 X6 U
. W+ D2 _+ ~7 K# \# d
说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。 % A, \' H$ r5 g+ C: z, ?% [7 W ' |* z$ E) }2 B5 U* MOpenBSD是个什么存在? : p5 [3 ^2 Q& J0 m" S3 V# _, V1 u( b( [
它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。 " C- v5 z% E) z / n! I2 \' f% F这样的项目,代码审计了多少年了?二十多年。 ! K! u9 T, x: P6 H8 l) i$ h6 Z# L8 t. V8 V
然后,一个漏洞,在里面躺了27年。 7 _/ d7 K ?3 l$ ?( j! n$ ]* @% X& G& a$ P/ l/ r. b
这说明什么? 5 ^1 Z* [; {& N- Y. h; l: O5 R, _/ J/ E
不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。 3 ~9 `0 M* [/ k: u8 s9 z, D) `8 q3 R7 E' o. v" h/ o9 `. I; L2 J
但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。 7 A$ |2 l- d# j/ V+ W$ h * q8 v/ n7 q! n7 tMythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。/ |7 I: l! j$ @
: e6 R; s: g8 X5 c
这种漏洞可怕在哪? 8 L' |4 t5 t8 }. F Z ) ?7 ~: k8 G4 b+ S它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。 8 p' y0 `! p/ |/ Q2 B7 o6 K 9 Y+ p# u7 ^& Q1 d& S3 o$ U传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。 0 B+ ^" |% S( w$ r* e3 @2 v& B4 k6 [2 P- i1 K7 O* D
FFmpeg那个例子更让我震撼。% T2 d* U7 F, c; ^0 l% l& z3 l8 _- d
. ]8 |% `/ C7 D& U16年。 ^# ^2 k4 \. V! o$ n3 c# n3 ~' r Z, u% n5 r o
FFmpeg上一次发现这种级别的漏洞是什么时候?2009年。 & z3 A1 ~5 ~$ E3 q( G. T- P" d' c8 v( x- q
16年都没有人发现。然后Mythos Preview扫了一下,找到了。8 O N/ c$ {" D% L1 `5 [
7 N" J% A! U! v注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。9 e3 _/ A P2 N, L o