TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview4 Y: m$ j) P( t
8 e$ s" Z7 s8 T/ g0 N
$ s, J) I* I( ?) J. C0 h. B一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……
, A$ H* u* Q! C1 [
$ [6 M5 @+ [7 Q1 B+ m故事是这样的。& Z6 t" f0 u, G+ c* ^4 F& k" Q3 \
6 f N+ ]$ l/ J0 ?5 a. I我今天看到这个新闻,看完之后愣了好几秒。; T: V0 ?* T9 i' |0 M2 h/ [2 G
5 g; ] R" K' Y4 y- w: X一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。
1 P" n% Y) Q3 C& [; ^2 B& F+ a) p0 Q4 c, k) ]
结果被一个AI模型给挖出来了。
- u9 N! |5 ^) r! L1 ~3 b0 T* Y' T' ]0 F8 m! M) A
这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。
: B2 j' i% B" T' `
+ c$ O- m) s" T* H e: _& e* f5 e然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。
5 Y! q3 m* |* d1 R+ e) [. K" U8 S0 d$ X
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。
! }; s; Q0 ?6 ]
& W0 B7 m. w; p2 n# H然后呢?
7 {0 r$ |/ U5 b( x+ X P n/ g c5 v# r, X
然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。. C" O2 L/ x! J2 O$ T# A# O2 h
' m5 K: ?3 }- ]这个项目,叫Glasswing。$ a1 X! I! K( I S; M. g
- v e5 V. s& M: v" Y8 v# y6 V
glasswing
$ k9 l* O( r' g9 \2 Z. G) h0 c7 Q7 g. Z4 ~7 U' w* N8 F
$ ]! ~4 f! M; H, Q先说清楚Glasswing是什么。
3 o! ^; [! ]2 S6 R% i
* E' @0 F( k) `! h3 |5 n! Z简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。
y+ g6 V0 k* ~' J! S1 R/ G% L F
8 c, K+ L1 G9 K# s2 |; _+ g有多强呢?
& r# p2 e, y! e* J! U' _4 S. W/ E& U. n+ B% m; \! I2 o+ D
CyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。+ B! M. J: K# `$ j: _
4 M. e$ }. ?$ L0 a+ a/ FSWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。
1 `5 v/ U% `0 k' I* y8 d8 w) B* I4 u) ]
差了13个百分点。
; f6 Z' L- V: |0 P
% V7 u' J; V: F+ d- ]* F你说这13个百分点意味着什么?
) @! d" J2 Q" o# J
& v; A: j9 \5 F, @4 c意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。
5 G1 X! m3 u; F: i8 Z. \8 i9 u$ o& [% [; A
意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。
- v% I# y) G. d" p9 c; A/ I# d* e w5 G
或者说,这种级别的漏洞发现速度,会比以前快几个数量级。
+ e8 C: _+ S6 {8 p/ }& ]
- o' a& k1 ~4 }; T4 N说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。
! ~2 O- S# X2 R& X" \3 T. _3 u8 z# a! v4 d# l8 k
OpenBSD是个什么存在?- j0 V! S2 m% Q: l% |/ \
* O1 S5 X/ N: R4 {它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。/ ], H& d5 ~5 T0 F
( O# ?0 F A# P6 x这样的项目,代码审计了多少年了?二十多年。5 s- }1 u0 a( L. D
* l( ~* H! [5 C. h) C5 q" P; w然后,一个漏洞,在里面躺了27年。
# J, T+ K9 D9 S/ B: ~) M/ K
: X" ~) G6 @: y这说明什么?
$ S1 d% d ]1 q# m
! ]# z; ~3 x/ P不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。
/ l" ~' \5 o, z3 U: E$ S5 g' b/ {- ]5 ?
但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。# W- T2 H7 `( D
3 [1 T8 [. S$ _Mythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。
) Q. H5 X, D0 X6 M; j: Y& O- U M; k
这种漏洞可怕在哪?
% f5 Z6 _/ M$ ~0 V6 q1 E i
# x5 G9 }2 R2 I( _; M它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。' _2 K; U. b) b; M% R2 x
6 G; {3 z; f$ Q* m. {& I# M7 \传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。0 w5 F! R9 v2 H- q8 |+ O) l
+ I0 O" ~! K, M; @) Z% H# \
FFmpeg那个例子更让我震撼。
$ P; T1 W( L; i3 v: |1 |3 \0 s( K! Y2 O% V- Q5 O
16年。
2 J' o _ Q2 T- c, K! g% Y' J3 W3 ~- }' t% V% j
FFmpeg上一次发现这种级别的漏洞是什么时候?2009年。" C* P8 w2 V* W! D3 v! _
8 `' @7 O: w% r7 H( Y
16年都没有人发现。然后Mythos Preview扫了一下,找到了。7 b$ k6 c4 b. k# i
# e! |8 b1 |$ b' ], v注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。
8 ~, `8 i9 N2 X+ c
. |2 g. R, p7 H这是主动防御,不是被动响应。7 Z& U" \1 A. S2 G4 `
( A) X C( h/ }* p- a+ n传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。# L. P3 l) ?! [" x
) n1 i! R/ b. H, f, |
AI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。& E. u* N1 l, ~9 c$ w
+ A" g+ c4 E! H/ t, T6 [1 W这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。7 M) W! b8 M, X& D W! U' P
( D6 J+ H5 k. I5 I' U4 ?* B
现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。( M$ X# ~& w9 _& W* |: S/ N5 m
8 o1 b; B( M; i- B, Z2 }
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。& ?) L$ p, j( h2 w" U0 k
2 r2 h( s8 y" u9 L0 ^; c7 E+ ^7 U
这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。/ q: @; o6 ~! a1 \
) f% L* T# i$ d. `, S& v4 j5 D3 z你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。% b' U9 Y' i: N
& R9 c) k4 T$ y
价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。6 y2 C1 p' G( r5 T i8 I
3 p) P4 z/ i) X# e+ u2 |7 E
这个价格贵不贵?1 U% {- D, u+ [" u
& a) e! T3 ]3 }
对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。; `1 }: T3 Y( D8 i/ _% U# ^, q6 H
3 d5 l M2 j* F6 J8 y6 h( }8 A/ `Mythos Preview能发现那些工具发现不了的漏洞。
& }# M" s" s: g! Q
% I6 ^" d: \4 i这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。7 H" d- d- ^6 f: x* B' a8 ^
! w v4 I( L# d/ n另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。& m9 F, N( u- A6 x8 |
0 [" E" n8 L0 W* `& `' q, S2 l
这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。
) [2 V" q6 e* E+ F+ x' H) e
: C5 V: }, l+ B9 wFFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。! s# e$ P+ p! r3 o. N
1 ]# @# Y8 I' X7 [
还有一个细节,我觉得特别有意思。
9 N9 n$ r |' b% n! a8 g( y/ G6 P, o2 Y
漏洞发现之后,公开披露的时间是90天。
7 L9 Z: o8 a) q" o
( j! @% B6 K/ Y$ }, Q$ m4 q& y90天是什么概念?' f% Q `0 H$ f% a. E
& _' o& ?, o, h行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。
9 l5 `7 j: h: a( C, c4 a7 F f A) w6 W8 M" R" M
但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。# j& C' T) `, a7 T
9 g4 G8 ~( F |! |Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。$ p% h1 c$ v0 j( c9 x4 J7 l
/ l# I9 k( u% h& w这意味着,漏洞披露的节奏,整个就变了。; D/ g$ x8 u: R! c
9 Y% o4 ]3 F/ K以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。
9 E/ f K2 ]; n6 Y( M& p, W2 ^& g6 y4 c7 Q& Z
厂商的补丁开发速度,能不能跟上AI的发现速度?
+ i* `- O0 k! a; U1 m8 j; `- k5 `' n+ Z1 t3 w2 y+ H1 L& H, C
这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。! r0 K4 N+ S7 d: b9 U# Y9 z
5 ]1 g# S# l: R3 _7 d
写到这儿,我突然想到了一个更大的问题。
- l6 P. t+ d8 D& C3 `- p1 W7 w, h) C, ]2 N$ o& G
Glasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。- P9 L- e! i& ~* O: X( `
/ J( I6 C$ A$ Z; p, \+ ~
透明,意味着隐藏的东西变可见了。
+ ]" m4 t9 i- ]9 u' e7 d" ]9 h
* d$ e$ z3 i2 z: f: X一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。: y7 H7 v7 u) R" q- W
( {- m0 V* q5 Q7 K* F7 d( L这个意象,放在漏洞挖掘上,太精准了。5 x/ o+ N8 k3 b( V
. H0 O. X6 P& [' O6 o8 {: ^$ \+ g代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。
8 ]+ [& y6 M8 ~* `9 a b
' P. N4 o: r1 I/ I3 ]' r3 U以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。
8 n7 Y% l% s. ~: h8 d" B
! m9 J1 z- b0 ~0 _6 q4 d6 i但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。; _% k4 K0 B" ^( @4 B4 K" h$ Y
' X7 {$ {# Z8 J
代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。# d( z5 l* A5 ]+ I3 _
" v, H \) s, i G这是一件好事吗?
# R5 E" A" D7 D e8 G& z& v5 u
, a5 f" v6 m; l T$ q8 z3 q4 Y我觉得,短期内,这是一件非常非常好的事。8 g3 m4 j2 c! v2 T% W4 s$ f
, D6 t: T- s9 U" k; u
全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?
- ?! [; ?# f1 K/ A
7 }% a1 q4 {0 @& }3 w0 f# R5 [# |这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。) ]9 ~1 D0 i7 J0 O0 M
7 R4 j7 Z& ]* i4 E" AAI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。6 ~ ^$ e$ x. ~
2 w$ z* s- I* ^4 G& U( i6 T$ _7 J但长期呢?7 F, o) Y1 Q9 o) s! r* }. Z
. v$ D: V3 d4 E# j( Q+ I当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?
' r( |& M2 {' Y3 k* p5 U# f* |( l3 c7 @% R$ F3 v* Q4 E* r2 g
是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?
1 @9 I7 s8 y& e; w0 v8 B I6 f9 x4 N- b: ]+ h9 ^
我也不知道。9 a$ {* t7 s6 |4 f- |
$ ~7 F# @ F7 Q4 b
但有一件事我特别想强调。1 }* W4 s* q. U' W1 J, R# l" W' C
! L7 W0 @! g D7 E, w! O0 E这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。9 [4 Q! A5 l5 |- a
! m! z7 B0 h/ Z" y8 |/ L- n9 s/ d! j他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。6 z% ^/ M$ x4 G, Y% j8 z
0 R1 q& R$ k4 D2 z# z* o: \4 P, C/ A; ^
他们为什么还要加入这个联盟,用别人的AI?
3 l7 N" k: L! S: i9 ]7 [, [
, l! l# x9 y8 b* Z我大胆猜测一下:因为挖漏洞这件事,规模太大了。
& R5 z, B9 [1 i8 o/ K0 W, ]* U. j5 M9 {
$ L4 ]- D9 A- b) W! q全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。
( L0 G l) ~: o1 N: h2 b L' @8 k$ i3 j" u2 _$ |+ @
Mythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。
* ]3 E. Z+ r% M1 _6 E6 D7 M" l
9 S7 e# }$ m. K, N" I" M0 N; ^' Y0 J这是规模效应。
1 m/ C4 P, R. J" [+ |
4 ?% J E5 M, M! u. D就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。
5 r7 ?% _) C+ ~) @$ W8 @( f
0 N6 _' H* o( K( a. H/ p- L' X/ w这个规模,是人类团队根本无法覆盖的。
. {& p9 x; n4 Z6 w
6 c3 l5 E. N' I2 d9 X+ z* EGlasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。* N+ P6 g$ V7 b4 Q" \* c( a
# a( F. }1 Z4 a( g0 O P$ E8 x: f% G3 c什么意思?9 X/ ^% l: @% A/ z
. a) e- L0 N" K* [5 f. }+ f现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。
K! {% }% c' h/ h
5 I9 Z: K* S: J- p! u( i类似现在的ISO认证,但针对的是代码安全。$ d/ a; |' ]- O! f$ p- j
" J d* R& _ K( F8 }( p2 a, ^& U
想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。5 w( W4 F( w8 _' e3 C8 t+ G w) M
8 |% q0 T8 K5 y& j4 B M+ O! S
这不是不可能的。
4 m0 D. ]* `- C: Z( K4 L" h# n
* a' o/ Z8 w7 _* \2 c当然,路还很长。现在还只是第一步。但方向是对的。
( ~& C/ W) p7 G/ ^# g
! o a% ?0 c9 C7 @/ f. l好了,写了这么多,让我最后说几句掏心窝的话。; h( t) D' T2 R" I$ T
3 x" J$ r+ s3 Z" }; E, w
我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。
# a5 l* p% A0 z# X G' x8 Q
9 C W$ k5 C' X. r/ l i7 E& h兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。
5 m* d! J* H( H3 c, n
1 e% N; p0 L' _+ T; D这次不一样。这次是AI在帮我们发现自己的脆弱点。
8 N! Z$ Q- I& r7 ?
) u4 O* J8 c2 O! } E% f& n这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。
% l0 g* i( A M& F. e2 |; C# G, }" J3 D
这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。4 E2 V) P4 \( {2 \
3 X8 @, I/ g: A* H0 P" B( D( j我怕的是什么呢?
; m- q$ I) g" @& f4 S3 G# K) z% o( ?3 y9 B" ?; V1 @" k: h) A
我怕的是,这个工具,只有大公司用得起。/ {! Y. x H2 ?
7 s& y* k, v. u, ?, AAWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗?# o' x4 g5 W' ^" m. X: \* h( ]+ `' E
2 g, [0 i% D0 V* k" A- ?7 @" W) ]
Anthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少?
* n) w2 V( W, u7 G- F# l( `; u6 v' Q) \3 d6 Y, P
这些问题,现在还没有答案。! N, e- S ^9 u r* Q3 t
$ O- L! x& {; Z/ M
但有一点我特别想强调。7 O! W7 D9 G" _2 } n
" N& j5 m) | _6 p6 |8 W
Glasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。) P% y' O8 I8 l! Q
3 \8 n0 x' l8 F X- h以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。( X( H& @" l6 l' J+ e. U3 H0 V
; s* T9 G+ _& g% x* o, [+ a0 J4 P
AI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。
$ @& K3 F4 }* N( ~! d# v* r# K, O2 M
当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。+ }% g, A$ a* A, C+ r" c$ B
7 D; f H5 w- f这一天什么时候来?我不知道。可能5年,可能10年。3 ?6 e0 s) E/ w( ~- C. Q- O
) ?% U3 c9 X3 A# m
但Glasswing,让我第一次觉得,这件事不是痴人说梦了。3 Y# |& K9 Y0 e: z9 b
|
评分
-
查看全部评分
|