TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview2 B9 o8 J: k( R; d) \/ K' c% a F
v; G9 e g* u. F* o6 q
8 D' q# _) ^; M/ b. K7 q一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……+ Y Q2 d. C& X6 G; q: h/ R
, b, K6 c2 r) b/ g故事是这样的。; J% W3 ?: U) ], I$ x" B
5 } K; h- W9 a) \+ M( W ~* y
我今天看到这个新闻,看完之后愣了好几秒。
* ^% v. {( s/ H! ]% ]1 x
3 Y3 s- g9 R* X一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。
6 x. p( S# j4 }
- N. h2 A6 z; {+ M, P r! d5 {8 b4 K结果被一个AI模型给挖出来了。: F+ H3 J( f$ o# _$ v3 |
5 h/ y2 w @: M5 [ ^# J: P+ c: b
这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。: Z, f3 J0 |; i" ?7 v5 X
6 R9 j+ K8 N ^( _6 F* O然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。
& R" b, ?. T- S C+ C: k* U1 I' P# E. W" {; u6 r8 Z2 b
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。9 X0 }% R" S z$ l3 e2 ?5 m( |/ I
2 V4 v2 s$ t1 ]1 i1 Z) r
然后呢?/ G }4 g. L( N& E
6 V2 C+ z( G+ r
然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。
' K8 h7 `7 Z9 N/ [1 j7 X1 ?
0 _6 Z2 M4 f* H0 B3 l0 [/ U这个项目,叫Glasswing。* _! w% Z8 U! a
( c/ ]7 W8 d0 `- z4 kglasswing4 c9 Q! X3 j c- O9 O/ R
. h0 J: P* X6 Q7 x
% Q; B6 x3 d* e- q8 O' k先说清楚Glasswing是什么。
H+ c& e8 S5 C( o% ~, a- R# }- ~6 c
, }$ i1 p2 K, z% F- `, g' B1 u4 u; S6 L简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。
- Y$ b) `5 L% N. u/ @! d" q1 {' | i. U0 G, J% N7 x! \
有多强呢?
5 \9 P" F( d: ?) l2 g# G1 |6 [: k, j3 U- P& E2 n" z" j
CyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。' ~8 N! Q2 y. R! e$ Y
; l: ^+ p) h3 e/ |8 y1 W7 t$ lSWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。
5 f$ o* k$ Y4 H, `& V8 b& ]) U# E/ R* y
差了13个百分点。) @+ T6 {4 {" }& P9 b
H I( l5 }! a- q+ T你说这13个百分点意味着什么?
$ h% I7 C3 h% ~2 L+ ^6 G) ^- b$ E; P9 m9 s' k) X! f
意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。' r4 ?# k6 k# C9 X3 E% E0 u
; g1 _! p" z; m! t2 L- L9 a意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。
1 Z0 v' x3 {* ~3 T j& \2 T5 R7 G+ j; {$ O
或者说,这种级别的漏洞发现速度,会比以前快几个数量级。
7 H' ~ }" c! G5 |0 ]* ^1 U8 Y7 @4 c( \
说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。2 m4 W) i0 _) `
2 V! ~; C7 L! {, z& sOpenBSD是个什么存在?. R6 j# a/ c# M9 f6 i- X
- r& p7 o5 x' L! b
它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。% k1 {+ t, z9 [4 i9 \- c9 ?
, i* B4 C+ z! T$ x这样的项目,代码审计了多少年了?二十多年。
& l- {- e4 }/ H- H( Z k/ l* D
$ d8 a/ n% P0 ~# w/ D然后,一个漏洞,在里面躺了27年。; Y- k2 j5 a+ a: L2 h) X& E+ W5 q
# P& T) S# Z! t( n3 |这说明什么?% I7 `0 x( E+ y1 ]( c: h
4 {- ]2 m. n# E( L不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。
+ C5 M$ p6 t: `5 t7 ]; H' r
l Y1 ]9 n! q& x但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。% r' i; H: b# ?
! I* U# r( M% }Mythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。
) ~ M+ s$ p0 Z/ M- V4 `* n; f& h- H" ]5 I9 r
这种漏洞可怕在哪?8 a% n/ m; l7 V+ ]- r1 ?
$ U. C- _6 k; }它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。6 n& {$ }$ z+ o# o( W) ~1 ]
, O0 i& Q J0 W* M" Y3 p传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。
0 U; U4 |) `+ D3 A! r. a
# f1 t5 G8 H2 yFFmpeg那个例子更让我震撼。
3 F1 t$ S8 S6 c7 h2 l) V" R# \$ L( i1 M
16年。
7 X/ j K3 F! _. w+ S
8 s3 p- ^/ X3 M* MFFmpeg上一次发现这种级别的漏洞是什么时候?2009年。* ^& { G) w3 N8 y2 }
. |# j- s4 e& n) [6 K# T
16年都没有人发现。然后Mythos Preview扫了一下,找到了。
. R& I# {! x g! f
0 u8 G+ g! d4 a- T& _注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。, T* e; f/ h) m0 S& N3 P# h0 \/ |" p
* W( G/ m4 k) }" W7 Y7 i. _ a L7 v: z
这是主动防御,不是被动响应。
; n; ]% U. C4 u+ ~. b) z9 A
& x* _0 a. W" z9 u传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。3 e2 G: c9 {; |, h q
$ D" Q) }: L( q# a9 G
AI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。
( m9 l; R0 s5 A/ q3 j" p' n) g7 w: c* f8 y
这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。2 {2 ?' k; f* N3 L4 B
6 i8 U) U Q: ] w/ {) M. h现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。
" o7 I8 F# @2 q0 i8 E5 H/ q. m. E5 r' u& H1 `0 t7 K; H
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。+ @. Q6 ]2 W( ^8 q+ f/ ]0 x
2 L9 t) r& g$ Z& a ~
这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。
( V2 M. K/ ]% H& u' q' u% F
* t" Y* u ?( `3 P- ?& B你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。
# |$ J9 l# G8 k$ p y9 l
- Y: a& y. k& q& ~价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。
) ~' L: {7 K9 H+ ~; a# E+ K5 P6 r
9 y1 b3 |9 ]. V9 @# _; d8 Z这个价格贵不贵?& W* {8 E, v" g5 _
+ c, g U" ]' [0 Y n+ n6 m& Q
对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。 D1 t; s4 U4 q7 U
6 r7 f: K! x- g$ x0 v" e
Mythos Preview能发现那些工具发现不了的漏洞。
A# L8 H# Q4 T$ D, P2 {1 I% N% w. n! _3 ~; n. |( a8 j: v- O( z
这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。, K( A3 w* s" q4 x; t, P9 q
3 Y& l/ B+ f( s5 ]) Q# q另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。: { E- K, t: t8 T) x
5 G$ z, W& J! H( m4 ]
这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。, H; v9 N( |$ F, I9 F6 ]7 F8 U3 {
& w" _ u6 m. c, ^FFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。1 @1 C; h& I1 ~8 R" P
+ c3 C) ~8 q9 t6 r" I# Z9 F; \8 h$ I
还有一个细节,我觉得特别有意思。, x1 z+ m7 q0 y j
0 f1 g/ F; k1 p" l8 m) z4 t0 |
漏洞发现之后,公开披露的时间是90天。
/ _" E5 R# m! g, U3 O; i- r9 L% Y7 Z& p, ~3 J; W N4 j
90天是什么概念?
# Z9 r& K, |8 }/ E: n, W
y" t+ v7 I% }( A0 R E" q行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。5 C I6 h: e6 }8 i/ w$ Y
; z5 w2 h2 L0 }. J. t6 d6 d: F0 Z但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。
5 s7 m% r8 U0 d, h o
5 D6 H, B5 Z4 g' d$ y, GMythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。
4 b/ g' y# g z* W0 }0 q; T7 K- L8 v! X, N/ d
这意味着,漏洞披露的节奏,整个就变了。% W. }, ^. p4 I" U. u, i6 `' H
1 Y4 U3 S; V' f. ]
以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。* A7 n9 e8 Y6 j6 q' B
& @; y& w+ c" \5 h- i* [
厂商的补丁开发速度,能不能跟上AI的发现速度?8 x* S' e- p/ h% Z$ [' @
( v5 k( g1 n0 M& Y! w这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。
) X! y; \$ e2 x/ N( h
. k) z5 u0 u* l) N0 N/ ?; e( l写到这儿,我突然想到了一个更大的问题。1 Q8 T1 U* l! x* C
P, f/ M( I! ]$ o! _& w! tGlasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。
; x% \% \; j2 y9 q; q/ g% t/ l/ p+ _8 s' A
透明,意味着隐藏的东西变可见了。9 o( x; J; D5 a! x
2 S9 J$ D* b3 w, V; j# i S6 o
一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。
# M8 H6 K% P h9 E* u h L0 G* y' B4 Y* g
这个意象,放在漏洞挖掘上,太精准了。
" i9 Q3 u5 y) i+ y& N/ V" g% D2 Y$ `+ o6 n2 {
代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。) b, ]9 i8 M( e5 c @( G8 ]: K5 c8 ]
8 W3 s! a& H1 x- t$ f+ t2 F以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。
) f; P- p2 J. u5 L& [ Q
/ i$ k# e7 r7 c: T# s) Y但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。" K4 s; P6 @% n- P8 c' `+ v
+ F' K( m* B4 a
代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。
( S g& L% @& L0 i# |9 K
' s& ?- l1 j5 Y! p7 ^这是一件好事吗?
5 b, G$ m% ]8 _2 j$ D& }
) m$ m0 e o) ~8 C5 E' X5 @/ V0 I我觉得,短期内,这是一件非常非常好的事。
7 u4 I1 s) s3 ]; D7 o9 {4 W* n4 Z& z9 p2 w
全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?' O5 K7 J9 |' V
/ O& B9 u9 L) I- E: T4 K这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。1 v3 o9 T0 j) {7 d8 r. o
9 i1 A. k- J# J" R" c4 SAI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。1 c. Z; h( `; P3 j; i* H! {
* S( d& m; _' h0 N* \# q. Z
但长期呢?& U6 @1 x0 t- F" c* i( c/ q# l
y# O ~7 u, ?# x+ T当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?
# @5 F+ [2 M- u+ X* Z+ L2 V! s0 D& F! h+ \3 a# @1 g+ W1 V
是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?% m5 u/ i9 r% N/ p
) T! D/ Y; [8 m0 d! ]. \% Y
我也不知道。
& c* l; }1 G9 F6 K# s
7 V I7 ^( a& ~但有一件事我特别想强调。
) e4 W0 j. q1 s8 A1 ?
0 |! p2 n: b: n0 o6 \( l' Y这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。
) J: c6 s: n+ G( K8 l
% j( n4 Z2 |- R, E5 X/ X他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。
7 b4 b/ V7 c1 k2 O, H8 N; a! a: L' e8 l/ P* X4 q
他们为什么还要加入这个联盟,用别人的AI?; | w( m! ]* `+ I8 [+ ~6 K
, k; g1 D9 G5 @3 w& C我大胆猜测一下:因为挖漏洞这件事,规模太大了。2 X+ m3 B& D9 ^2 ~ g
1 m2 c% ^9 H E: b5 y" P9 K2 Y' }9 ]
全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。' G7 `/ |0 Y( X
9 ]& ]# w G! |0 _
Mythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。& P3 G# x& i$ c1 u+ i
( ]% ?) E M. b+ p这是规模效应。! d8 r* d6 W9 k+ v6 E) e
$ U' Z [; m4 W: @
就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。
- G, ~8 l( G& U3 [/ v, \. {! V; t0 [5 U" M
这个规模,是人类团队根本无法覆盖的。3 O- s8 K' C4 ` A6 _
* Q! N: |3 @/ h3 kGlasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。* _# k2 a. o4 s4 ?3 S$ l* l; j
3 p& ~3 e, ] x' @什么意思?: j( d; F# z5 e
8 }- n- B7 B( q" ^. I X! [5 a9 @现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。3 B: i, r: M0 }
/ F" A, t& q2 D: _类似现在的ISO认证,但针对的是代码安全。
( V* K# y% l& j3 C2 _2 |9 C" p3 t3 I
想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。
! |0 I( b4 q# }3 n
: w0 v$ j5 n; l9 i这不是不可能的。# h) e( g2 S9 L+ F# {9 T- h
: m" f I9 P F- A+ y$ F& D
当然,路还很长。现在还只是第一步。但方向是对的。9 G. c* {8 H' K) s; d+ ~( {
7 F( Q* j, [8 m I! K( r
好了,写了这么多,让我最后说几句掏心窝的话。
3 u" _* F: \( s& h B4 ] Z/ K b( H9 M- [2 h* w
我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。+ z7 r% D% e( c9 C
. }0 l% q9 C; b% e6 {
兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。% q( J( t& X$ G6 ^3 L. t3 }7 k
2 \3 h5 M% M+ M
这次不一样。这次是AI在帮我们发现自己的脆弱点。
' O! O2 }/ {* U- V; l( Y( g
- J0 P6 e4 P& i: W7 p这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。9 i$ W9 e2 Q+ {" y. g
4 R) W2 Q0 D6 Q& q9 G这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。
; ], B. _" ` r
) ^ {5 O/ |, ^/ \我怕的是什么呢?( ^4 ~& i. c2 R5 E1 w8 M# ^
S; @. t3 v+ C( k! f1 j
我怕的是,这个工具,只有大公司用得起。+ E' v& S% ?0 N; J: s+ J
3 Z: L9 V3 {9 h
AWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗? d* D g/ N2 ^( k
( L& T. A- C0 B$ L
Anthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少?3 R+ ], Q( T! L* @
% [, A2 x4 C4 U! {8 _1 p/ P; n$ N这些问题,现在还没有答案。! D {: b5 i" g
' [( ~3 W& w8 r" D& @7 B; f但有一点我特别想强调。
% {0 o- x2 k/ ~# A- O! _
6 i8 v& ?5 J( C( M' I5 d, }Glasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。/ J' d& ~! c% a7 W8 ?/ ?/ n
$ S8 z0 Y7 M: g+ \( z2 U. j以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。
/ }; }* r5 x e8 _1 c R. b* S
/ r, \# O% W1 b5 {AI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。
$ }; H; S ]8 P
4 K+ |% v& U, r( L当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。# g( \, J0 ~8 _; u/ a8 w! \, a9 }9 Y3 E
2 J6 P- o. o+ p5 l( x这一天什么时候来?我不知道。可能5年,可能10年。0 P- @+ P) Z/ Y
3 q# i. ^4 H3 F; ?但Glasswing,让我第一次觉得,这件事不是痴人说梦了。
$ \9 G: H4 i% I! ~ V |
评分
-
查看全部评分
|