TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview
7 r7 m/ ?; k& C# [0 _+ L; b
0 B! J7 _* l8 d2 w) H0 y& o/ L3 x l0 d" {7 e3 K5 g1 l
一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……. a1 a' L! o( ]5 a2 I, ]2 P
6 z% ] y/ X! H9 G b0 i' ~& v7 g* R
故事是这样的。2 Z7 I! T7 T4 F' P
& x, `. h+ y( ?$ N. J5 W
我今天看到这个新闻,看完之后愣了好几秒。
& y+ C0 p) y( @% ~% A( [
9 S/ w) w1 p* A0 E: x/ ~一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。
& d! S, A! I) F( T* u" s1 f! K$ \0 D3 k; R
结果被一个AI模型给挖出来了。% W* ]9 R! R) C
& O3 H( P: T+ s+ m
这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。
7 S7 ~5 m. p* ~: y! H) l8 I5 `% M' _
然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。4 e% `! H) @$ W$ `7 |9 A
( ~7 ~0 u' Q7 M7 l* u8 \9 ~
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。
/ h- [* ?) J, `8 b5 M* e: P. J& U
3 Y6 m5 {, N$ d8 i然后呢?6 m; s$ |2 ?3 r4 @! }; M% |7 {
& g- X1 W. q; d5 O2 u然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。& z8 M3 d: y4 c0 k
6 L3 y( B6 }* E) |- K6 ~" ]9 T* d这个项目,叫Glasswing。
% s: t$ i! O, \# F! X8 T- ^' y5 n* h+ L
glasswing
% D6 q! R% z" e" q" x& n( n- Y% a; i2 G2 N
' D- a- a; h6 t7 P
先说清楚Glasswing是什么。8 `3 D2 }$ a8 `$ m( S: F
% q) O, d7 q: y: ~' |+ H. V
简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。
& ^" B7 Q5 C( V* V' P) D* E( C5 Z4 K/ |4 I( h+ x; m9 _0 y# t" @
有多强呢?& c0 U+ W% W8 T0 ?: y
/ T- R: n7 M9 z5 c1 U% |( z4 `
CyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。
. W$ L# G# X1 d8 v
7 ^8 ?- \) Y' g iSWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。
7 S( h3 m: ]6 y% W9 c" |1 r, A7 E# f
差了13个百分点。2 r# }; W! F4 |* {% C
' b$ |! R' _9 b9 ]
你说这13个百分点意味着什么?. B' C' o6 C) D1 p! v9 T
0 h2 I3 e/ ~1 j" f: }2 m4 W意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。6 L4 A" O: _3 o Y2 s5 F
7 o8 ~ t& \" F- p意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。
+ Q, L( G8 C4 P: v4 ~9 E# G+ U t t) m8 P7 `% H# s! e# w
或者说,这种级别的漏洞发现速度,会比以前快几个数量级。
- q2 K, ^! [* E; V& |5 h$ f
+ A8 b, \# T! C5 a y说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。
1 M& r' a; u' H3 S
* k% K, j0 {2 b+ EOpenBSD是个什么存在?
0 v9 g5 `1 m' I/ r) C' ?4 Z! q8 Q. @! f
它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。3 H# y* M* E, f; ?. N
! E Q: I6 O% x
这样的项目,代码审计了多少年了?二十多年。! ^, R, q8 J) Y- t5 ^2 u( N$ p
3 N* w8 L) ~7 Q% c/ y$ q
然后,一个漏洞,在里面躺了27年。
$ \4 V! X4 z& W `6 O% k0 a; P) ~
1 T' Y. l9 _/ y$ }这说明什么?
y: z4 _, y9 |* w
9 L/ P% f8 r+ c o' ?1 Y不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。
( k, c/ @; C$ h1 | n$ a
7 B* s' e! n3 F: B9 H# J* ]$ k. y但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。
& W, K1 k) {6 A, }" e
7 I( p1 t v, [" I. @% i- JMythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。( Q/ {: X( C$ g3 a8 \5 r2 n4 k! y; W
8 G* m, d" U! F/ g这种漏洞可怕在哪?7 v; f& o l( P
7 ^! `/ x1 n* W它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。
4 k8 J: w2 \2 l! q- D7 V% p: G2 o" ~7 D3 b
传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。
" j t" u5 d* B/ x# ^" ?- x& H% {' f; p
FFmpeg那个例子更让我震撼。% N# k% N Q, p( Q! N4 `& I' Z% {
) @9 p+ @+ R6 r: B16年。8 c# o* P; D# X$ U, m u- i
/ v0 o# ~6 z. J+ f$ x8 {FFmpeg上一次发现这种级别的漏洞是什么时候?2009年。% @& b1 m* X' Y2 k
- J8 o- L* K; o- \. d" B3 Q16年都没有人发现。然后Mythos Preview扫了一下,找到了。3 Q9 D% D/ \. m1 [4 D5 ^
( o4 n% F- z) U1 Z" U- K注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。7 d. P ?% _ b/ s
8 _% J; S# S* ?4 {0 W+ j1 [这是主动防御,不是被动响应。
* @3 `" ~4 }/ `) \
' y! Q3 n( I6 i* `0 r5 I6 q" h* }传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。
1 U5 V* Z& J0 }+ O3 I) l! W7 q; ^; H2 n1 P2 N
AI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。) M" \- J! b3 V' ]! d, F" p2 f
' q& A; t; e/ `这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。
9 ^8 c+ } [, _& g5 H6 y n' N3 z5 y! k! l
现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。$ B! n+ z6 B, f. J j
9 M) O( `( {2 M; x- r4 o3 v
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。
7 r/ ]6 z+ Y* q) A$ Z$ w8 W
. K2 V2 ~9 _- T H6 q这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。
8 h; V5 {, e: y6 g) Y) ^
4 \8 s8 D. }1 w! h2 S) b/ u你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。% B! ~* n% P# S5 c( A9 q4 S, ?
% T0 ~: |0 o7 _+ ?8 v* \, Z/ ^7 d. r5 I价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。
3 N, o$ Y3 t+ t, j6 M: P) N+ Y! R7 Z2 D' |
这个价格贵不贵?
) y8 }# k! q" @9 l$ k" Q( u
- `% d" A4 _; M& g3 \- H对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。7 |3 K0 Y [2 n& ~. h: q
" c7 O* N' _8 V0 D+ t( T4 k2 q5 w( k2 D
Mythos Preview能发现那些工具发现不了的漏洞。
3 [7 W8 ^$ Z. w
' `; Y, m' ~5 a' W1 | P5 [! k这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。( s) j- C/ I7 F1 K- F
3 o% Z% V7 h$ d. b9 L另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。
- y5 T# x7 P) \& o v- z
8 T$ {4 u0 _ z1 _# o这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。2 q9 l. Z: U4 D# T: {/ ~9 G% A
# b5 _) E1 H. e8 q7 f
FFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。
# j* |+ o2 ?7 S# Z5 z. V: p8 O) B/ u! E: B
还有一个细节,我觉得特别有意思。
( f+ ? x* \, D
. K9 }$ _& [. B+ c4 k5 _漏洞发现之后,公开披露的时间是90天。
5 ]/ Y% r+ ^5 A c5 ?# [
; R5 s# j0 B/ T" J$ U' ?+ k* H90天是什么概念?
6 H) I- w4 E2 M; N3 z1 \& I9 O% ?% M
行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。, g. H1 y8 G* d7 N* d) j
3 a" Z7 l, h5 o. ^
但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。
4 P4 L9 t5 \5 k0 Z3 l! d& y3 @% k( e+ t! t
Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。2 ?7 ~: ^ t) u6 N
6 D6 i0 Q0 ~1 t. \* V
这意味着,漏洞披露的节奏,整个就变了。! c$ R: }7 N( P
) c6 {6 f y; |9 Y/ l
以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。
& ~, i$ A) { a$ P9 @+ \' Q& K) E: u% ]. B- C, y, T
厂商的补丁开发速度,能不能跟上AI的发现速度?% j6 x# _/ x+ l" B; j
" ~% O5 X3 ?* e% u2 c- `这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。
3 P- V) B; H& e% U
" H4 B- b! n# _3 s# a8 h! ]写到这儿,我突然想到了一个更大的问题。
# ?* Q6 `! _' b' f
8 ]* J- u# k8 c9 ~9 tGlasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。6 D$ E/ H3 R( s2 Y8 S
0 D! }$ N' v7 X7 y- H透明,意味着隐藏的东西变可见了。
9 K0 I' m$ Z' B' V4 M& y, ?7 O# Y: ^- O- p+ Z
一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。/ a7 h& F7 }4 j6 C x# |. y
8 e& G- D1 }0 Q6 }这个意象,放在漏洞挖掘上,太精准了。
0 j2 c- N( |6 `6 T$ n( m, @6 P* H: z5 }; \
代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。2 {# `. Q3 O; L5 s Y
% n: r6 o. G; B& U
以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。
4 h" S" h/ L) k4 B R7 e. Q' v' X; H: [& ~, n
但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。
. _) |% Q1 B) a3 k' ?- D/ X+ Q* R5 s J p& L Q
代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。1 b2 l6 Y, H$ G7 p
0 A) ]/ S | s8 U# Z8 p
这是一件好事吗?' B: A# k2 Q! ?# i; V! i( f. @
G# M- `: i# D. U我觉得,短期内,这是一件非常非常好的事。
7 K7 ?2 G/ w1 }
$ H N4 h- Q( D) |2 B( z全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?
8 r* i) M; ~2 ^$ @1 ^' n
. r, T+ G3 l( _' a8 h @这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。
4 Q) f1 q: [, q; R8 O( b) W4 k& |$ m
AI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。
" f6 `& d, {) x; {5 P Z6 n; t0 {, E
' l8 t9 |. _7 }; ^7 Z! d3 s0 s2 g O但长期呢?5 \6 f2 b' h1 ~1 M, x" |1 o
% {: x) U! a1 B. u
当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?
/ ^' r9 {1 F0 V/ K3 S$ O
' N- \% `: u2 n7 J是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?4 C5 D% K+ [8 ~& ?
: U: C1 d: ~ B- L9 v
我也不知道。
- s; D4 e7 z( R3 v* ]% N* \
# i, q1 b9 ^( C$ s. ^但有一件事我特别想强调。1 k ^2 f& N( v, O# D
# W; k* M6 a$ U5 z这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。( z, Q X5 {0 {
; O+ V& _! X& g" W' u- ]
他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。
% a. ?8 T7 @0 ~- p7 m, T5 \' a6 o) m: B! W% P( w
他们为什么还要加入这个联盟,用别人的AI?
- I6 { v* D/ H# S. [2 O6 _, Z. F' o l/ i2 d2 r7 o
我大胆猜测一下:因为挖漏洞这件事,规模太大了。
, B& ]9 U2 w0 c$ l8 M; |. j4 s+ n1 o3 v1 X% n& `- w5 M
全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。/ T* F* ]4 U3 l" T
* \% I' ^6 ?5 IMythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。
# _/ x$ c, Q# q. }- n
3 q1 [; V1 q- k这是规模效应。
9 M) g+ b' Y. v6 }& m$ Y9 J0 _# R: V1 g$ ~
就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。
& n* \% }/ V% t5 n6 K
1 c, G3 G0 }4 D# [% ~7 e- Y这个规模,是人类团队根本无法覆盖的。, a8 {2 f: u# P2 W, X" t, Z
) `/ I E9 J5 M6 ? s z
Glasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。
% w/ ]0 c9 v2 X0 T3 L" E, Z# B; @, X& h+ ]
什么意思?
2 a+ W& ]7 x4 x( B6 H, }- Z, c- { a( y( \3 ^+ j
现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。! G% M9 a/ c& g4 J/ v
3 g) }6 e# {3 ]% R' \: c类似现在的ISO认证,但针对的是代码安全。
; f# F h/ R8 L: m4 r' I7 S, W
. U0 r( \; ^7 t$ h想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。
+ `7 ^! Q: X1 r3 l+ D: }* G8 o' r0 @8 x w. N% y. F- D
这不是不可能的。9 U5 ^* P( x% Y" T9 w0 i! a
# F: v5 U" r' ~) N: h/ d当然,路还很长。现在还只是第一步。但方向是对的。( t4 _ N2 f$ G4 x
: z1 C. e% I9 X9 p
好了,写了这么多,让我最后说几句掏心窝的话。
* u2 q0 \( q+ _7 G4 [. C$ M$ N- g1 Q
8 f! Y; }9 f5 ?4 {1 w# {( W/ D. S我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。! K: f2 o4 {8 C
& O" [+ m4 [: X5 w6 b
兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。
2 ^; W0 [& j8 B, p' c7 S# W1 I" f8 k3 q4 V( {, R
这次不一样。这次是AI在帮我们发现自己的脆弱点。/ U4 @, W2 {9 L- ]# l
' M; v1 a/ y( x1 d' e
这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。" V6 n* \$ ^( b; y+ w
# C! f& _- k, Q1 M这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。6 q$ V& V0 q3 h. B' m
/ V3 G7 C1 P: M( B) D3 \8 ~) r+ s0 e D
我怕的是什么呢?/ c. t4 }0 v5 d' I' W
2 b4 |9 J' {7 b, p& V$ ?
我怕的是,这个工具,只有大公司用得起。0 u5 e' n- T5 B, Z f
; ~9 p% Y5 v1 m) I6 L( F* ZAWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗?8 K$ Y! \! C, u; v# v
% M- r i3 b0 d% }: DAnthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少?/ ? T+ I7 ^) s$ G6 k5 a
# n: N( O/ [% P3 I; b这些问题,现在还没有答案。
" c1 j+ E+ @* Z4 N4 {' W+ O: u: _2 y1 s* g* r+ h5 S! a* z
但有一点我特别想强调。
' Y3 Y }- A3 Q$ D+ y0 I" \/ V! W& m: u
Glasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。
, M# o8 Y* w$ N( |$ S( A0 H
; x* j" w( [( e2 X" ?0 H以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。
) _; O# Y% `6 O; g+ E7 z
: X3 b6 ~+ o9 J% xAI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。+ c5 A$ }: l& U$ C' v% ^: |
# L! M3 o+ K5 W. Z当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。" Z9 N3 z2 g5 p/ O# C) I9 ?8 d5 k
7 L$ B- o; k6 T: M/ t0 M( A这一天什么时候来?我不知道。可能5年,可能10年。, p3 B( [ d, c" ]
6 f7 O, J! v2 C但Glasswing,让我第一次觉得,这件事不是痴人说梦了。0 M7 k, S2 o6 R" {, p( e$ S4 }) p
|
评分
-
查看全部评分
|