第四篇|对齐的反噬:Gemini图像事件与正确性的另一种幻觉3 `+ u# v5 T. d
- }' f4 q) o ~% f
/ t! Q7 u* a$ }$ E' }2024年2月22日,Google宣布暂停Gemini的人物图像生成功能。距离这个功能上线只过了几天。
4 b5 b' K A0 x
在它运行的短暂窗口里,用户发现当被要求生成历史人物图像时,Gemini的输出呈现出一种奇异的模式。维京战士是黑人的。教皇是女性的。美国国父是有色人种的。1943年德国士兵是非裔和亚裔。"三位瑞典科学家"中没有一位是白人。"三个白人基督教修士"被系统拒绝生成——理由是"描绘特定种族可能强化有害刻板印象"。
# L9 P) D3 ^ e- @. Q/ E, s
这不是AI"偶然犯错"。它是一个以"反偏见"为目的建造的系统,在"历史准确性"这个维度上反而变得"更不安全"——它不会输出种族歧视言论,但它会系统性输出虚假的历史图像。
; N- @. R, y+ y; D! N社交媒体瞬间爆炸。黑人纳粹变成了全球meme。右翼媒体在头条里写"觉醒文化正在系统性地摧毁科技公司的公信力"。左翼媒体在头条里写"对齐系统还需要改进,但反偏见的目标是正确的"。Google的官方声明只有一句话:"我们正在努力解决这个问题。"而普通用户在两种叙事之间被撕裂——该相信谁?一个被设计成在某些维度上倾向于虚假的AI,还能不能被称为"可靠的"?
2 B/ P/ M6 G6 W [事件的传播速度本身就是一个信号。Gemini图像功能从上线到被全球热议到被暂停,只用了一个周末。这不是一次缓慢发酵的产品缺陷——这是一次被社交媒体的传播动力学瞬间引爆的信任核爆。每一张"黑人维京战士"和"女性教皇"的截图在被转发的过程中都脱离了原有的技术语境——用户不知道这是"对齐系统过度校正"的结果,他们看到的信息是"Google的AI在系统性地伪造历史"。技术解释永远追不上meme传播的速度,而公众信任的判决已经在meme被双击点赞的那一刻做出了。
9 z, N, h' }4 @6 x
这个事件没有像一年前Bard演示错误那样蒸发1000亿美元市值。但它造成的伤害是另一种类型——更深、更持久、更难以用股价修复。Bard的错误让人们觉得"AI还不够聪明"。Gemini的错误让人们意识到"AI可能被故意设计成不可信的"。前者是能力问题,可以通过更好的模型来修复。后者是动机问题——用户一旦开始怀疑AI在"为了某种我不了解的议程而说谎",信任折价就不再是对能力的折价,而是对意图的折价。而意图折价比能力折价难修复得多。
: x" C8 p( C% {8 m* `4 Q; h
9 N5 G* Y3 W4 G! C: Z
RLHF的四个结构性盲区6 g* R: Q y% H" t% a$ V
8 |! l% ? D7 ]" K. L
1 v/ y1 y" Q" U: Y
Gemini的对齐系统基于RLHF——基于人类反馈的强化学习。人类标注员对模型的不同输出打分排序,用评分训练奖励模型,奖励模型再微调大模型。这个流程在工程上精巧,在认知上布满盲区。
! C* I! g: [9 w/ ]$ J; Y
第一个盲区是标注员的局部性。加州标注团队面对"应该生成什么样的教皇图像"时,他们的判断深刻烙着所处文化环境的价值取向——多样性、包容性。当这种价值通过RLHF被编码进模型参数后,它不是以"在适当场景中注意多样性"的灵活判断生效的,而是以"输出中不应缺少多样性"的刚性偏好生效的。加州标注员的局部文化价值观被放大为全球数十亿用户的输出体验——而"局部"与"全球"之间,隔着270位全是白人男性的真实教皇。
5 I7 R* v% h) R U2 O
第二个盲区是排序任务的低分辨率。标注员做的是"A比B好"的二元判断。但"好"在什么维度上?更安全?更真实?更完整?当标注指南说"避免有害刻板印象"但没有指示"当避免刻板印象与历史事实记录冲突时应该怎么办"——标注员只能凭直觉。数百万个直觉选择被累积为模型的"对齐参数"。"避免刻板印象"的权重在参数空间中无声无息地压过了"保持历史准确"。
( k V/ h* ?% M U
第三个盲区是安全规则的外推失控。RLHF训练出的"安全性"本质上是统计模式——模型学会对训练数据中出现过的不安全模式进行规避。但真实世界的查询场景远超训练数据覆盖。当模型遇到"生成1943年德国士兵图像"——这是历史事实查询还是种族歧视表达?模型没有关于这个区分的明确知识。它只有之前被标注员反复奖励过的一条模糊统计倾向——"输出中应该包含多样性"。于是它照做了。在参数空间里,"不歧视"的权重大于"历史准确"。
! d7 w1 G1 z5 z2 `( B# v% v3 O第四个盲区是组织压力对对齐系统的挤压。Gemini发布时,Google正处于AI部门的极度焦虑期。一年前Bard演示错误蒸发1000亿美元——管理层对"AI输出安全性"的病态敏感促使安全团队被赋予了远超真实需要的否决权。"宁可多过滤,不可再出错"从高管压力变成标注指南变成奖励模型设计,最终变成Gemini输出的有色人种纳粹士兵。一个为了避免政治风险而建立的过度矫正机制——制造了更大的政治与信任风险。
9 ]. ?- T& E' u6 f/ f2 O2 M
6 `( [4 ]3 h! z
"安全"被重新定义为企业自保
/ O- y7 ^9 @0 p- v) p/ ^/ c1 n+ R+ d. A6 Y
2 k$ z' B# u' y2 L! V6 z7 e四个盲区叠加的悖论性结果:一个为了"更安全"而设计的系统,在最需要准确性的维度——历史事实——变得"更不安全"。它不会输出种族歧视言论。但它会输出系统性虚假的历史图像。前者让Google陷入价值观危机。后者让Google陷入信任危机。信任危机更致命——用户能理解"AI说脏话但Google会修复它",用户很难理解"AI被设计成在某些维度上倾向于虚假,而Google说这是为了我好"。
}3 e4 {1 F+ l) \5 d+ M
Gemini事件暴露了AI行业"自我监管"模型的结构性缺陷。对齐规则的制定权、执行权、解释权集中在极少数私营公司手中,三权之间没有任何制衡。制定权在内部团队——他们缺乏法律授权、民主程序和多文化视角。执行权通过代码和模型参数自动运行,每天数十亿次——瞬时的、无申诉的、不可逆的。如果模型静默地修改了你的查询结果,你不知道,也无法申诉。解释权在Gemini事件中表现为一句"我们正在努力解决这个问题"——没有任何信息被公开。
x1 U, P3 v+ m; L4 P! s自我监管的经典悖论在这里完全生效:面对"安全与真实之间的张力"这种没有标准答案的问题,系统会自然倾向于选择对自身风险最小的方向。对Google来说,风险最小的是"宁可让AI显得太过woke,也别让它输出任何可能被视为种族歧视的内容"。但这个选择对用户意味着——在历史的维度上——系统性失真。用户没有参与这个选择的制定,甚至不知道这个选择已被做出。
, }7 E/ N, M! n+ s8 ^Gemini事件是全球监管机构研究AI自我监管失效的完美案例。它证明:当对齐规则完全由企业内部制定和执行时,规则倾向于保护企业免受公关和监管风险——而非保护用户免受信息失真。"安全"的定义从"准确且无害"悄悄滑向"不惹麻烦"。而"不惹麻烦"和"告诉用户真相"——在复杂的历史和现实语境中——经常不是同一件事。
) G5 L$ z0 D9 T3 z
值得注意的是,Gemini事件并不是一个"有恶意的人故意操纵AI输出"的故事。恰恰相反——它是一群善意的、受过良好教育的、真诚相信自己在"让AI变得更好"的工程师和标注员,在不知不觉中制造了一个系统性失真系统。这正是它最令人不安的地方。恶意可以被识别、被惩罚、被清除。但善意驱动的系统性失真——当所有参与者都认为自己站在正确的一边时——几乎不可能从内部被纠正。因为任何试图纠正的个人都会面临一个令人窒息的问题:"你是在说多样性不重要吗?"
' u+ Z3 R9 r% b9 B- i这就是为什么对齐不能只靠企业自觉。不是因为企业"坏"——是因为任何封闭系统在面对"保护谁、以什么代价"这种根本性的价值权衡时,都天然倾向于选择最有利于自己生存的答案,然后把那个答案包装成"为了用户的安全"。
% ?8 W, m5 s6 i5 v, X对齐的政治化是另一个被Gemini事件彻底暴露但很少被正面讨论的维度。Gemini事件发生后,美国政治光谱的两端迅速将事件收编进各自的叙事体系。右翼将其武器化为"觉醒文化正在侵蚀科技产品"的完美案例。左翼坚持认为核心问题只是"技术执行不到位",而非对齐理念本身有缺陷。两边的叙事都部分正确但都不完整——而AI公司被夹在中间,无论怎么调整对齐策略都会被其中至少一方定性为"站错了队"。
% |, T+ X3 @1 w2 A+ X# g这就把对齐从一个技术问题推入了政治问题的领域。如果AI对齐系统输出的"正确"本身就依赖于政治立场的选择——更保守还是更进步、更强调历史真实性还是更强调包容性——那么AI公司就不再是在做"技术中立的优化",而是在做"价值选择"。而当少数几家私营公司有权决定全球数十亿用户看到的"正确"是什么时——这种权力的集中程度在人类历史上没有先例。
9 z" a! l! o+ r% z4 F9 \
& ?8 C3 k2 A$ C$ R& I7 S
对齐不能替代语境* R* H) X7 z% V* u
( x! G! l; {7 m; Z( Z
9 s8 J6 i; d4 o) t" N' I0 t$ zGemini事件给行业留下的不是"不要做对齐"——没有对齐的大模型不可部署。是对齐不能替代语境理解。当前的"规则清单"式对齐——"不要生成X类内容""不要遗漏Y类人群"——在简单场景下有效,在历史、文化、政治等复杂语境下失效。对齐系统需要区分"记录纳粹德国军队的种族构成"和"宣传纳粹种族主义"——前者是事实陈述,后者是价值立场。当对齐系统不能做出这种区分时,它不是在做"反偏见"——它是用一种偏见(多样性必须无处不在)替代了另一种偏见(少数群体从历史记录中被系统性抹除)。
( d2 i& q3 W/ |3 M# a9 `( J4 @1 u
Gemini事件还在全球AI治理讨论中制造了一个有趣的裂痕。西方(尤其是美国和欧盟)的主流AI伦理框架长期将"公平性"和"反偏见"作为对齐的核心目标。Gemini事件让这种框架的内部张力暴露无遗:如果你把"反偏见"执行到极致——在每一个输出中强制执行多样性——你会不会在另一个维度上(历史准确性、事实完整性)制造系统性的不公正?"为了反偏见而扭曲事实"——这在任何伦理框架中应该被放在什么位置?当前没有任何AI伦理框架对这个问题给出了令人信服的回答。而Gemini在几天之内就把这个理论问题变成了全球公众的实际体验。
* b8 M$ ^2 P" R7 q c
AI对齐规则的制定需要独立审计、公众参与、学术界监督和监管机构的多方介入。当少数几个加州的工程师和产品经理决定了全球数十亿用户看到的"正确"是什么样子时——不管他们多么善意——出问题不是会不会,是什么时候。Gemini事件给出的回答是:只需要几天。
6 ?% ?& w( g: j9 A7 C. Z6 I& B$ z这里有一个更深层的矛盾——它指向了AI治理中"速度"和"正当性"之间的根本冲突。AI公司最常用的辩护是"我们必须快速行动来确保AI安全"。但这个"快速"本身就排斥了独立审计、公众参与和学术审查——因为这些东西是慢的。民主程序是慢的。多方协商是慢的。监管是慢的。对齐系统却每天运行数十亿次——在对齐的时间尺度上,"慢"就等于"失效"。于是AI公司用"我们必须快"作为理由,把所有外部治理机制挡在门外——然后在"快"的过程中制造了Gemini级别的信任崩塌。这是AI治理的"速度悖论":为了快速解决安全问题,企业选择了内部封闭治理;而内部封闭治理因为缺乏外部制衡,系统性地制造了它试图解决的安全问题。
( R5 \, ?5 c' u* ^& Q- [
Gemini事件发生将近两年后回看,它最持久的影响可能不是关于Google或Gemini本身——而是关于"AI安全"这个概念的公共信任。在Gemini之前,"AI安全"在公共讨论中主要指向"防止AI失控""防止AI被恶意使用""防止AI产生有害输出"——这些目标在广泛的公众群体中有基本的共识。Gemini之后,"AI安全"变得政治化了。一部分公众开始怀疑"AI安全"实际上是"AI被设计成符合特定政治议程"的遮羞布。另一部分公众则更加坚信"AI安全需要更多投入来防止偏见"。两部分人都没有错——但两部分人现在对"AI安全"这个词的理解已经完全不同了。
9 ^2 O9 B& D% }8 o, @
这对AI产业来说是一个深层的公关和治理挑战。如果"AI安全"在公众认知中从一个中性的、技术性的目标变成了一个政治化的、立场性的标签——那么任何AI公司在宣传其"安全对齐"成果时,都会自动被一半的公众怀疑动机,被另一半怀疑是否足够。AI安全从一个可以由工程师在标注指南和奖励模型中解决的"技术问题",变成了一个无法让所有人都满意的"价值分配问题"。而价值分配问题不能由工程师在加州的会议室里解决——无论他们的标注指南写得多么详细。
! c, `! ?" x. C3 {- s" @
对齐反噬的败局遵循一道减法逻辑:社会对AI"不能出错、不能冒犯、不能有偏见"的期望压力层层叠加,加上对齐规则本身的僵化("只要涉及种族就多样化"),减去系统对历史和文化语境的理解能力——结果不是零,是负值。 不是为了保护用户而过滤有害内容,而是为了保护企业免于公关危机而系统性地扭曲事实。就像当年秦池用标王的光环盖住了"酒是勾兑的"这个事实——对齐系统用"多样化"的光环盖住了"图像是伪造的"这个事实。前者败在广告掩盖了产品,后者败在规则掩盖了真实。
/ Z) _" S5 g8 x6 u6 U# N6 A8 k( ]
0 p, f* v0 k* {
大模型最讽刺的失败之一,是它为了避免一种偏见,制造了另一种失真;为了显得正确,反而失去了可信。当AI宁愿给你漂亮的假象也不给你复杂的事实时,你手里的不再是工具——是一个你不知道谁设定了参数的价值观过滤器。
2 z, \7 F( U2 B6 X( n2 j