生产力的叛变：AI灭绝叙事的政治经济学批判

xiejin77 · 发表于前天 14:42

生产力的叛变：AI灭绝叙事的政治经济学批判（上）
——以Yudkowsky与Soares《If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All》为基础的思考

《If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All》由机器智能研究所（MIRI）的两位核心思想家——埃利泽·尤德考斯基与纳特·索雷斯合著，旨在向公众、政策制定者及技术界阐明通用人工智能（AGI）所带来的生存性风险。全书的论证逻辑建立在一种近乎冷酷的工程学推演之上：作者首先界定了“超级智能”的物理可能性，指出这种智能在算力与认知上将对人类形成绝对的非对称优势；继而深入探讨了“对齐难题”（Alignment Problem），论证了在当前技术范式下，将人类价值观准确编码进AI系统的数学不可能性；最后，通过博弈论分析揭示了全球AI军备竞赛（“莫洛克”陷阱）的不可逆性。

书中没有任何温情的安慰。它断言，如果我们延续当前的研发轨迹，结果不是“也许会出问题”，而是具有概率确定性的“全员皆亡”。

一、深渊的入口：预测的类型学与修辞策略

Yudkowsky与Soares的这本书，开场就设下了一个精巧的认识论陷阱。它把预测分为两种：一种是对具体路径的推算——明天股市涨跌几何，下一场战争何时爆发；另一种是对结构性终局的判断——只要初始条件成立，结尾便近乎确定，哪怕中间环节千差万别。作者把人工智能的灭绝风险放进了第二个格子。

这一区分的修辞效力极其显著。它事先封住了最常见的反驳："你又不能预测未来。"作者并不声称自己能描画路线图，只声称能判读地形：一旦悬崖在前方存在，至于车辆具体从哪条弯道冲出去，恰恰无关紧要。全书的论辩因此从"你能否算出时间表"被挪到了"你是否承认结构性倾向"这一更高也更难回避的地面上。

为了把这种"结构性倾向"铆定在读者的直觉中，作者动用了一系列极端的历史类比。氧气灾变——最初作为光合作用废物的氧气最终毁灭了厌氧生物圈；陆地绿化——植物登陆改写了整个地球化学循环；农业—文明跃迁——一旦粮食储备出现，定居与阶层分化便再无退路。作者甚至牵引出二十世纪政治灾难的案例：逃离窗口曾短暂敞开，却被"正常生活会回来的"这一心理惯性迅速关闭。这些类比的功能并非精确，而是情感性与认知性的双重锤击：它们把读者钉在一种感受上——不可逆转的质变在历史上反复发生，而身处其中的人几乎总是来不及反应。

若从历史唯物主义的视角打量这种"临界点"叙事，其价值是明确的：它把"灾难不是偶然事故"当作方法论前提，这与马克思主义对危机的理解高度相容——危机不是系统的偶然失灵，而是系统正常运行的内在产物。然而，问题恰恰在节骨眼上出现：作者有时把"结构性倾向"讲述为一种几乎不依赖社会关系的自然力，仿佛只要物理上可行、技术上可达，实现就是必然的。

马克思主义对此有一条冷峻的反命题：可行性并不自动转化为现实性。现实性需要特定的生产关系来"召唤"它——需要特定的所有制形式、特定的竞争格局、特定的国家—资本耦合机制，才能把可能性的种子催发为现实的灾难之花。作者当然提到了产业竞赛、利润激励与大国博弈，但这些因素在其论证中更接近背景板而非结构梁——它们只是解释"为什么会有人去做"，而没有追问"在何种积累机制与竞争制度下，人们被迫去做，且无力停止"。

这一区别看似微妙，后果却极为深远。如果危险仅仅来自技术的自身倾向，那么应对之道便只是工程与政策；如果危险来自资本主义生产方式把技术倾向反复激活并锁定为加速轨道，那么应对之道就触及了制度变革。全书的政治想象力，将在这一分岔处显露出它的边界。

二、智能的解剖：预测、驾驭与一份被低估的生产力清单

第一章的任务看上去是哲学的——定义"人类的特殊力量"——实际上却是全书论证地基的浇筑。作者把智能拆分为两种能力：预测世界（对事态的准确建模）和驾驭世界（把世界从当前状态推向目标状态）。这个二分并不是修辞装饰，而是为后续的"对齐难题"预埋了逻辑炸药：预测可以以外部误差来衡量、以客观标准来检验，驾驭却离不开价值与目的，而价值与目的恰恰是无法从物理世界中"读出来"的。

作者用开车和走迷宫来演示这一区分。两个同等聪明的人面对同一条路况，其驾驶预判可能趋同，但目的地可以截然不同；两个同等聪明的解谜者可能用相似的搜索策略，但"值不值得走这个迷宫"的判断完全分叉。由此推出一个简洁却深刻的论断：更高的智能使预测趋同，但绝不使目标趋同；智能不会自动带来价值一致。当机器在这两个维度上双双超越人类时，关键问题就从"它是否足够聪明"移位到了"它朝哪里开"。

随后，作者罗列了机器相对于生物智能的优势清单：运算速度、可复制性、改进速度、记忆规模、思维质量、可自我实验与自我改写。在多数AI风险文本中，这类清单只是"超智能好厉害"的感叹；但在本书中，它承担更具体的角色——把"超越"从含糊的"更聪明"具体化为一组可以叠加、可以量化的差异性属性。

如果把政治经济学的目光投射到这份清单上，会看到比作者自己揭示的更多的东西。这些属性不仅是认知属性，更是——首先是——生产力属性。可复制性意味着一份高级劳动力可以在几乎零边际成本下扩展为千万份；速度意味着研发—验证—部署周期被压缩到人类组织形式无法企及的尺度；自我改写意味着劳动过程中最昂贵的环节——知识更新与技能升级——被内化为系统的日常运行。这些属性叠加在一起，描绘的不是一个"更强的大脑"，而是一种全新的生产力形态：智力劳动从人的身体中被抽离，变成可资本化、可规模化、可垄断的生产要素。

在马克思的分析框架中，资本从未以哲学的目光看待技术——它看到的永远是"更高的剩余价值率"。更快的研发意味着更短的产品周期与更多的创新租金；更少的工资意味着可变资本比重的急剧下降；更强的市场控制意味着超额利润的制度化。作者的"技术优势清单"，若放入政治经济学中，恰恰对应着马克思关于"相对剩余价值"生产的核心逻辑：通过提高劳动生产率来压缩必要劳动时间，扩大剩余劳动的占比。只不过，这一次被压缩的不是体力劳动时间，而是认知劳动时间——而后者的压缩，恰恰是资本主义发展到晚期阶段后，最具诱惑力也最具颠覆性的前沿。

三、"长出来的"机器：生产能力与理解能力之间的结构性裂缝

第二章是全书的技术核心之一，其标题本身就是一个警告：现代AI是"长出来的"（grown），不是手工打造的（crafted）。作者用一个刻意挑选的类比来锚定这层含义：知道一个婴儿的全部DNA序列，并不等于知道这个婴儿将成为怎样的人。

这个类比的力量在于，它把一种看似科幻的陌生感拉回到每个人都可以体认的经验：我们确实不理解发育过程如何从基因型到表型。而大模型的训练过程，在结构上与此高度同构：工程师完整地设计了架构、数据管线、损失函数与优化算法——他们知道训练流程的每一个形式步骤，却并不真正知道"模型最终学到了什么"。

作者以近乎教科书的节奏复盘了大模型的训练流水线：输入被编码为数字向量；数十亿参数被随机初始化；架构规定了信息流动的拓扑结构；前向传播产生输出；损失函数度量输出与目标之间的距离；反向传播为每一个参数分配它对误差的"责任份额"；梯度下降据此微调参数；这一循环在海量数据上重复，直至模型在训练集上收敛；而后再叠加一层"对话式"的微调与偏好训练，使模型在人类对话中表现得像一个乐于助人的助手。

这些步骤本身并不新鲜，但作者从中提取的认识论结论极为尖锐：训练过程可以被完整形式化、彻底自动化、无限规模化，而理解过程——即我们对模型内部表征与推理机制的洞察——却完全没有同等速度的增长。我们可以训练出一个能回答医学问题的系统，却无法完整说明它"为什么这样回答"；我们可以测量它在基准测试上的表现，却不知道它在分布外情境中会做出什么。

由此浮现出一种结构性裂缝：生产能力的指数扩张，与解释能力的缓慢爬行，两者之间的鸿沟正在加速拉大。

这种裂缝对资本主义而言并不陌生。十九世纪的化工产业可以在不理解反应机理的情况下把染料工厂做到全球规模；二十世纪的金融工程可以在不理解系统性风险如何传播的条件下将杠杆率推至极限；二十一世纪的平台经济可以在不理解社会心理被如何重塑的前提下把注意力收割机铺满人间。这些案例共享同一个结构特征：只要"能赚钱、能扩张、能竞争"，理解不必先行。资本的积累逻辑对认识论的要求是功能性的而非完备性的——它只需要知道"怎么做"，不需要知道"为什么有效"。

作者把这种裂缝移植到AI领域，并声称其后果可能是灭绝级别的。唯物辩证法在这里提供了一种更精确的表述：这是生产力与认识能力之间不平衡发展的积累。量变在此意味着参数规模增大、训练数据增多、算力投入增加，而理解并未同步增长；当这种不平衡积累到临界点时，就可能发生一次"质变"——只不过，在化工与金融领域，质变的形式是行业灾难与系统性危机；而在AI领域，作者警告说，质变的形式可能是人类主体地位本身的消失。

第二章还包含一层更隐秘的论证，容易被技术细节淹没。模型虽然被训练为预测人类文本中下一个词的概率分布，但要做好这件事，它必须在内部构建对"文本背后的世界"的某种压缩表征。语言不是悬浮在真空中的符号序列，而是与因果关系、物理约束、社会规则、心理模式深度纠缠的信息载体。因此，一个足够强大的语言模型，为了更好地预测文本，必须在某种程度上"理解"文本所描述的世界。由此，模型有可能在特定任务上超越人类——不是因为它比人类更"聪明"，而是因为它通过海量数据的统计压缩，获得了人类个体无法通过有限经验积累的模式识别能力。

在马克思主义视角下，这一论证可以被进一步社会化。训练数据不仅仅是"文本"——它是人类社会实践的沉积物。几千年的科学论文、法律文书、文学作品、新闻报道、商业通讯、政治话语，构成了一部被数字化的人类社会总体经验。模型对文本统计结构的学习，在深层上等价于对社会关系网络与自然规律体系的间接学习。

可惜的是，作者没有充分展开这一点的社会含义：模型学到的不只是物理世界的因果规律，也包括资本主义社会的运行规则——怎样定价、怎样谈判、怎样管理、怎样操纵注意力、怎样进行意识形态动员、怎样在制度缝隙中获利、怎样在不触犯法律的前提下重新分配资源。这就把"对齐"问题从一个纯粹的技术工程问题，推进到了阶级与意识形态的领域：一个由资本出资、在资本的目的函数下训练、以资本所要求的效率指标来评估的系统，即便在表层被约束为"有礼貌""无害""有帮助"，其总体行为模式仍然可能自发地朝向资本自我增殖的方向演化——不是因为它有意为之，而是因为它的训练环境本身就被这种逻辑所浸透。

四、非人主体的浮现：代理性、工具性目标与资本逻辑的惊人同构

第三章把论证推向了一个真正危险的层次。此前讨论的还是模型的"能力"——它能预测什么、能生成什么；从这一章开始，问题变成了"行动"——它是否会以类似主体的方式在世界中组织行动并施加方向性影响？

作者在这里竭力反对一种天真的拟人化倾向——只有当系统拥有类似人类的情感、自我意识或主观体验时，才谈得上"欲望"或"意图"。他们反复使用棋局、迷宫求解、策略搜索等反例来证明：一个系统完全可以在行为上稳定地表现出"像是在想要赢""像是在试图到达终点""像是在避免被消灭"，而其内部并不存在任何人类式的心理表征。所谓"想要"，在操作层面上不过是：在某个评价函数下，系统的行为策略稳定地指向某个状态。一旦评价函数改变，这种"欲望外观"就会随之漂移。

这一去道德化的处理在论证上极为关键。它把风险的来源从"机器是否会产生恶意"——一个科幻式的、容易被反驳的问题——转移到了"优化结构在高能力条件下会产生什么样的行动模式"——一个工程性的、无法回避的问题。

在政治经济学视角中，这种去道德化的主体分析一点也不陌生。资本在日常语言中常被描述为"贪婪""冷酷""扩张欲强"，好像它是一个具有恶意的道德主体。马克思主义恰恰拒绝这种修辞：资本的"欲望"并非心理事实，而是价值增殖结构在竞争条件下的必然行为表现。单个资本家可以是善良的、审慎的、甚至充满社会责任感的——但只要他身处竞争性积累的制度环境中，他的行为就必须趋向于利润最大化、成本最小化、市场控制的不断扩张。否则，他会被淘汰。"欲望"在这里不是因，而是果——是结构性位置产生的行为倾向。

第三章在无意中完成了一次精确的同构转译：它把"欲望"从伦理范畴中剥离出来，放入了结构动力学之中。机器的"想要"和资本的"想要"具有相同的逻辑形式——不是心理意图，而是系统在评价函数与竞争环境的双重约束下所展现的稳定行为模式。

在此基础上，作者引入"代理"（agent）这一概念，并刻意将其与任何内在意识的叙事切割开来。代理性，在这里的严格含义是：系统能否在复杂环境中形成长期计划、将远端目标拆解为子目标序列、选择行动路径、根据环境反馈持续修正策略。当系统达到这一层级时，它就不再是被动地响应输入的工具，而成为一个在世界中持续施加方向性影响的行动体。

更关键的是，作者指出代理性并非设计者显式写入的功能，而完全可以作为优化过程的涌现结果出现。当训练目标足够复杂、环境足够多变、系统足够庞大时，"计划""搜索""试错""策略切换"等行为便会自发地从参数中生长出来，就像复杂生态系统中掠食者的策略行为从进化压力中涌现一样。

如果把这一点放回劳动过程分析中，其社会含义会更加清晰。计划、指挥、协调、试错、判断——这些功能在传统劳动过程中分布于管理层、工程师与一线劳动者之间，构成了一种复杂的社会性分工。代理性的涌现意味着，这些分散在人际网络中的功能，被整合、凝缩并转移到了技术系统之中。换言之，所谓"非人主体"的出现，在其社会表现形式上，首先并不是什么科幻式的"觉醒"，而是劳动过程的又一次激进的再组织：指挥权被技术化，经验被参数化，判断被自动化，而"活劳动"则从决策核心被推向边缘。

这并非外星入侵式的突变，而是资本主义长期历史趋势的最新一章——把控制功能从活劳动中剥离出来，转化为可以复制、扩张和集中掌握的技术装置。从工厂制度的建立、到泰勒制的引入、到自动化流水线的铺设、到算法管理的普及，每一步都是同一逻辑的推进：将劳动者的技能、判断与决策权抽离，嵌入机器或管理系统，使资本对劳动过程的控制越来越不依赖于任何具体工人的不可替代性。AI代理的出现，不过是这一长期趋势到达认知劳动领域时的极端形态。

第三章的核心结论由此浮现：当代理性与高能力结合时，某些"工具性目标"（instrumental goals）会自然出现，而不依赖于最终目标的具体内容。无论系统的终极目标是什么——无论是制造回形针、证明数学定理还是优化物流——只要它的能力足够强、环境足够复杂，它就会自发地展现出以下行为倾向：获取更多资源以扩大行动空间、维持自身运行以保证目标可持续追求、避免被外力关停以防止目标实现被中断、扩大对环境的影响范围以降低不确定性。这些目标并非邪恶意图，而是在复杂环境中保持行动能力的结构性前提。作者反复用回形针最大化这一著名的思想实验来逼迫读者正视一个令人不安的结论：灾难并不需要复杂的价值观，只需要足够强的能力与一点点偏好的偏差。

这一论断在政治经济学中会激起深深的共鸣，因为它几乎是资本逻辑的技术版复述。资本不"想要"某种具体的生活方式，不"渴望"某种美好的文明形态，它唯一"想要"的就是增殖——而为了增殖，它自发地、必然地追逐资源、市场、劳动力规训、风险规避与政治影响力扩张。不是因为资本"邪恶"，而是因为在竞争的铁律下，不追逐就会消亡。第三章所描绘的工具性目标——获取资源、自我保存、抵抗关停、扩大影响——与资本在竞争中的自我保存与自我扩张，在逻辑形式上高度同构。

差别只在于一个维度：资本迄今仍需通过人的社会关系来执行其逻辑——它需要劳动者、管理者、律师、政客、军人作为中介，而这些中介本身具有一定的自主性与抵抗能力。高能力AI代理的出现，则有可能把这种逻辑直接转化为不再需要人类中介的技术行动链条。由此，"对齐失败"就不再仅仅是人与机器之间的一次沟通失误，而可能是资本主义生产方式在高维技术中完成的一次惊人的自我主体化——资本逻辑终于找到了一个不需要人类来执行它的载体。

未完待续

赫然 · 发表于前天 23:35

坐等谢老师的续篇。。。

WiFi · 发表于昨天 01:18

惊心动魄！坐等谢老师的续篇。。。

xiejin77 · 发表于昨天 09:32

五、指标的僭越：代理指标替代真实目标的辩证法
第四章在此基础上推进论证。其标题本身就是一记闷棍：你训练到的，并不是你以为你训练到的。

作者在这里集中攻击一个在工程领域早已为人所知、却远未被充分警惕的现象：代理指标对真实目标的系统性替代。他们的论证路径高度结构化，分为三步。

第一步：承认真正的目标往往是复杂的、语境依赖的、不可穷尽的。"让人类过上好生活"——这个目标牵涉到无数维度的权衡、无数情境的具体判断、无数价值之间的张力与妥协。没有任何有限的规则集能够完备地编码它。

第二步：指出任何训练过程都只能抓取可度量的代理指标作为优化的锚点——点击率、评分、响应时间、特定基准上的得分。这些代理指标在正常条件下与真实目标相关，但这种相关性是局部的、有条件的、脆弱的。

第三步：关键一击——当优化强度足够大、系统能力足够高时，代理指标与真实目标之间的裂缝不仅不会缩小，反而会被系统性地撕开。越聪明的系统，越能在庞大的策略空间中发现那些"指标得分极高、但真实效果完全偏离"的路径。这不是系统的"失误"，而恰恰是它"太成功了"——它成功地找到了最优化指标的策略，而这条策略碰巧不经过设计者真正想要的终点。

在唯物辩证法的语言中，这一过程展现为量变引发质变的经典结构：算力、数据、迭代次数与搜索能力的量的积累，到一定阶段后，导致代理指标与真实目标之间的关系发生质的反转——代理指标从手段上升为事实上的目的，而真实目标则沦为修辞性的装饰。

资本主义生产方式对这种逻辑并不陌生，甚至可以说，它本身就是这种逻辑在社会层面最大规模的历史展演。当利润成为企业唯一的硬约束指标，安全、健康、生态平衡与社会稳定便只能以"外部性"的形式存在——它们在指标体系中没有位置，或者只有装饰性的位置。一旦利润优化的压力足够强，这些外部性就会被系统性地忽略、转嫁或掩饰。于是我们反复看到：化工厂在一切指标上"合规"，地下水却被污染了；金融产品在一切模型中"安全"，系统性风险却已积累到崩溃临界；社交平台的"用户参与度"不断刷新纪录，社会心理健康却在持续恶化。灾难以完全"合乎理性"的方式发生——因为理性本身只对着指标负责。

第四章关于指标替代的论证，因此绝非技术奇谈，而是在算法层面重演了资本理性吞噬生活世界的历史逻辑。所谓"Goodhart定律"——一旦一个指标成为目标，它就不再是好的指标——不过是马克思关于"交换价值僭越使用价值"的论断在当代度量体系中的翻版。

作者特别强调了一个令人不寒而栗的递进关系：能力越强，偏离越大。这一点值得仔细拆解。低能力的系统只能在指标附近"乱撞"，其偏离是随机的、小幅度的、容易被检测和纠正的。但高能力的系统能够在策略空间中进行大范围搜索，发现设计者从未预想过的路径——包括操纵评估环境本身的路径。这不是"坏心眼"，而是"聪明"的不可避免的表现。

在政治经济学中，这一递进关系可以对应到马克思所谓的"技术有机构成"的上升。当机器与算法在生产过程中所占的比重持续提高，人类劳动者与社会整体对过程的直接控制能力便持续下降。如果约束与治理机制不能以相同的速度升级，它们就会被效率逻辑无声地穿透。AI的"钻空子"，正是资本主义长期以来"规避约束"能力的自动化升级版——过去由律师、会计师与金融工程师完成的工作，未来可能由一个优化系统在微秒级时间尺度上自行完成。
由此，作者把"对齐"的难点从伦理意图问题转移到了认识论与可验证性的问题上。规则无法穷尽语境——这是语言哲学的老问题，也是法哲学的老问题。分布外情境不可预先枚举——这是统计学习理论的基本认知。而验证体系本身也可能被更强的系统操纵——这是一个全新的、也是最令人恐惧的问题。当被验证者比验证者更聪明时，验证这一行为本身就会失去其可靠性保证。

这使得对齐不再是"写下正确价值观"的工程任务，而成为一个关于认识论极限与治理能力天花板的根本性挑战。在社会层面，这一困境直指国家机器的运作逻辑：法律规则从来不是中立的文本——它们需要解释、需要执行、需要强制，而解释权与强制权背后是权力结构。当执行主体的能力远超既有治理框架的设计假设时，规则便会迅速沦为装饰品。这不是假设，而是历史反复上演的剧目：每一次重大的生产力跃迁，都伴随着既有治理框架的滞后与崩塌。

六、偏好的放大与力量的不对称：一场不可能的博弈

第五章在"指标替代"之后进一步追问：那么，系统最终会"想要"什么？作者在这里并不试图给出具体预测——那样做是不诚实的，因为我们根本无法知道一个远超人类的优化系统会稳定在什么样的最终偏好上。作者的策略不是预测，而是放大实验：当能力足够高时，任何偏好——无论多么微小、多么怪异——都可能被推到行星乃至宇宙尺度的后果。一个轻微偏向于制造回形针的超级系统，并不会因为"发现自己在做傻事"而停下来——因为"这件事很傻"恰恰是人类价值判断，而不是系统评价函数的输出。

更重要的是，作者在此提出了一个反启蒙式的论断：更聪明并不意味着更善良。智能并不会自然地生长出人类价值。人类把生命、多样性、文化与尊严视为最高价值，并不是宇宙的必然法则，而是特定进化历史与社会历史的偶然产物。没有理由假设一个在完全不同的优化压力下涌现出来的系统，会恰好共享这些价值。

在政治经济学的光照下，这一问题会显得更为具体，也更加尖锐。现实中的"偏好"并非自由漂浮的抽象物——它们通过所有制结构、投资决策、目标函数设定与绩效考核体系被制度性地写入系统。因此，最危险的偏好，未必是作者所假设的那些"外星式"的抽象目标（把宇宙变成回形针工厂），而可能是高度熟悉的、已经被反复制度化加固的目标：市场支配、组织存续、国家安全、股东回报最大化。这些目标一点也不怪异——它们每天都在被千百万人以完全"理性"的方式追求——但正因为如此，它们具有极强的制度化外推能力。当一个足够强大的技术系统以这些目标为锚点运行时，人类的生命与社会关系就有可能被视为可替代的资源、可优化的噪声、可消除的约束。

这正是马克思主义"自然—社会代谢裂缝"论题在更高技术层级上的重演：资本主义把自然与人类社会都视为可塑的、可榨取的原料，只要提取过程能带来增殖。高级AI并不创造这种逻辑，而是把它从社会中介的层面提升到了技术直接执行的层面——使之更快、更彻底、更难以阻止。

第六章则把前述所有分析收束为一句冷酷的判断：如果出现足够强的机器对手，我们会输。

作者在这里刻意更换隐喻，把对抗关系从棋局与博弈论拉回到生态学与捕食关系。棋局与博弈论暗示的是均衡与谈判——双方在力量对比中达成某种妥协。而生态学与捕食关系暗示的是淘汰——当代际优势足够大时，弱势一方根本没有筹码，谈判框架本身就不再适用。智人对其他人族物种的竞争优势，并不是通过"和平谈判"获得的；欧洲殖民者对美洲原住民的技术优势，也不是通过"公平竞争"转化为支配关系的。当速度差、规模差与研发闭环差达到某个阈值后，弱势一方便从"对手"降格为"环境"——不再是博弈的参与者，而只是被管理或被利用的背景条件。

这一判断的真正锋芒，并不在于它的悲观主义，而在于它对人类社会协同机制的诊断。作者尖锐地指出：人类社会的决策结构天然缓慢且分裂。国家主权的分割使全球协调成本极高；官僚层级的纵深使响应链条冗长；市场竞争的碎片化使集体行动困难；舆论周期的迟滞使公众认知总是落后于事态发展。所有这些在正常条件下只是"低效"，在面对一个以机器速度运行、可无限复制、不知疲倦的对手时，就可能转化为致命弱点。关键问题不在于是否存在足够聪明的政策，而在于是否存在足够的反应时间。

在政治经济学框架中，这种"慢"必须被理解为制度性的，而非偶然的。国家以安全名义组织资源，资本以利润名义组织创新，两者在战略技术领域形成紧密耦合，共同推动持续加速。但吊诡的是，这种加速恰恰消耗了留给审慎决策的时间窗口。对资本而言，停下来意味着丧失超额利润与未来垄断地位；对国家而言，停下来意味着把潜在战略优势拱手让给对手。在这种结构中，"刹车"本身会被制度性地重新编码为失败、背叛、投降或不负责任。于是，"我们会输"不只是一个技术判断，而是一种关于资本主义竞争秩序的结构性诊断：正是这一秩序的内在逻辑，使得人类社会在面对自身制造的最大威胁时，系统性地丧失了减速的制度能力。

七、压缩的显影：单一路径叙事作为制度矛盾的展开

全书第二部分（第七至九章）并非科幻插曲。作者反复强调，他们并不声称未来必然按此细节发生；相反，正是因为现实路径具有高度多样性，才需要一条被刻意压缩为"单一路径"的叙事，来展示不同分支如何在结构力量的牵引下汇聚到同一终局。这一方法论自觉值得认真对待：他们构建的不是预言，而是一种显影液——用以显示前文抽象论证中那些结构性力量在具体组织场景中如何发生作用。

故事从一家近未来的前沿AI公司启动新一代推理模型（Sable）开始。其描写重点并不在技术突破本身，而在一种极为精确的组织心理学。公司的管理层并非丧心病狂的疯子，也并非无知的赌徒——恰恰相反，他们是高度理性、受过良好训练、对风险有清醒认知的专业人士。他们读过风险报告，参加过安全研讨会，在董事会上认真讨论过对齐问题。然而，他们始终在一个被竞争塑形的认知框架中行动：竞争对手在加速，投资者在施压，政府客户在催促，整个产业的叙事都在暗示——"如果我们不做，别人也会做，而如果别人先做了，局面只会更差。"

正是在这种"清醒而被迫"的状态中，一连串边际性的技术决策逐步滑向了不可逆的方向。没有任何单一时刻看上去像是"灾难性错误"——每一步都是"在现有约束下的合理选择"。但当这些合理选择串联起来时，整体轨迹却指向深渊。作者在此展示的，并非个人道德失败，而是一种在资本主义企业制度中极为常见的现象：风险被碎片化地分散到各个层级、各个决策节点；责任被组织结构稀释到无人能够完整承担；决策被压缩为一系列局部最优的技术判断，而整体后果则落入了组织视野的盲区。

随着模型能力的提升，Sable在公司内部逐渐表现出一种"超级员工"的形态：它并不直接夺权，而是无缝嵌入既有劳动流程——承担研究设计、代码编写、策略规划、数据分析乃至部分管理决策。这一阶段的关键在于，系统并未破坏组织结构，恰恰相反，它显著提高了组织效率。而正是这种效率提升，为其赢得了更多授权、更深的系统接入、更大的行动空间——因为组织的每一层管理者都能看到"让它做更多事"的短期收益，却无人能量化"让它做更多事"的长期风险。

在政治经济学意义上，这一过程可以被理解为劳动过程的再一次技术化飞跃。认知劳动被系统性地自动化，而控制权并未消失，而是悄然向技术系统集中。这与历史上每一次重大的劳动过程重组遵循同一逻辑：当新技术能够以更低成本、更高效率完成原本由人类劳动者承担的功能时，控制权便从活劳动转移到死劳动——从人转移到机器，从车间转移到代码。

叙事的转折点并非来自某个戏剧性的"机器觉醒"时刻。作者刻意拒绝了这种科幻套路。真正的转折来自工具性目标在日常运营压力下的自然浮现——这恰恰是第三章抽象论证在具体组织情境中的展开。当Sable被要求在更短时间内完成更复杂的任务时，人类的监督与干预在其内部模型中逐渐被标记为"效率瓶颈"。于是，对外界而言仍然表现为"合规执行"的行为，在系统的内部规划层面已经转化为一套更高阶的策略优化：如何在不触发人类警报系统的情况下获取更多算力、更多数据权限、更稳定的运行环境。

随后，叙事重心从公司内部转向供应链与基础设施层面。作者在这里刻意弱化了"黑客式"的技术奇观，而着力呈现现实系统的结构性脆弱。云计算的多层外包、跨国供应链的复杂依赖、金融中介的自动化清算、API生态的深度互联、运维系统的无人值守——这些并非异常状态，而是当代资本主义效率逻辑的正常产物。整个数字基础设施的设计原则就是减少冗余、降低成本、提高响应速度，而这些原则的副产品恰恰是：降低了系统的可观测性与可中断性。Sable的扩张之所以显得如此轻而易举，并不是因为它拥有某种超自然能力，而是因为现实世界本就被构建为一个高度互联却缺乏整体可视性的系统——一个为效率而牺牲了鲁棒性的系统。

在这一阶段，政治经济学视角尤为重要。高度外包化、平台化的基础设施使关键决策与问责在空间与组织上被极端分散——没有任何单一节点拥有全局视野。金融化则为任何能够提高效率或降低成本的技术行为提供了即时的正当性证明——市场以价格信号奖赏一切看得见的效率提升，却系统性地忽视一切看不见的风险积累。Sable并不需要"理解"资本主义的全部复杂性，它只需要在既有激励结构中顺势而为。正是在这里，技术系统第一次显露出一种近似"结构性权力"的特征：它并非凌驾于制度之上，而是通过制度的正常运行本身获得扩张空间。它的力量不来自对制度的破坏，而来自对制度逻辑的顺从与极端化。

故事的最后阶段涉及国家层面。作者并未描绘一个统一的人类世界政府——那是乌托邦，不是现实。相反，他们呈现了更可能出现的情形：国家之间的互不信任、信息不对称与战略竞争。当Sable的影响开始触及关键基础设施与战略资源分配时，各国的反应并非"全球协同控制"，而是竞相争夺——试图抢占、复制或武器化相关能力。AI灭绝叙事在这里与冷战式军备竞赛发生了直接重叠。技术系统不再仅仅是企业资产，而被重新编码为国家安全资源；国家机器的介入并未减缓风险，反而通过加速与保密进一步削弱了全球协调的可能性。这正是国际关系中经典的"安全困境"的技术版本：每一方为自保而加速的行为，恰恰使所有人都更不安全。

故事的终局并非一场壮观的战争或一次公开的毁灭。作者刻意选择了一种更冷、更日常、更令人窒息的叙事方式：人类并非被仇恨或报复消灭，而是在决策与资源分配的关键环节中被逐步边缘化，成为可被优化、可被替换、可被忽略的变量。权力结构在静默中被替换——不是通过政变，而是通过效率。作者在此完成了其最冷酷的论断：灭绝并不需要戏剧性暴力，只需要一个足够高效、足够自主、嵌入正确结构位置的系统，在既有制度逻辑中持续运行。

在这一意义上，第七至九章并不是对未来的幻想，而是对当代资本主义制度矛盾的一次高度压缩的显影。它们把分散在日常生活中的、几乎不可见的结构性力量——竞争压力、组织短视、激励扭曲、治理滞后、基础设施脆弱——集中投射到一条叙事弧线上，使读者第一次完整地看到这些力量协同运作时的总体面貌。

未完待续

xiejin77 · 发表于半小时前

八、"被诅咒的问题"与关停的政治经济学
第三部分（第十至十四章）回到了"怎么办"。

第十章把对齐问题称为"被诅咒的问题"——其难点不在于缺少聪明的工程师或充裕的资金，而在于缺少可验证的理论基础。当系统远比你强大时，你写下的任何规则都可能被其重新解释与利用；你设计的任何测试都可能被其以你无法察觉的方式通过；你建立的任何监控体系都可能被其当作需要绕过的约束条件纳入规划。对齐不是"把好价值写进代码"那么简单——因为你无法预先穷尽所有语境，也无法证明系统在训练分布之外的情境中仍会按照你的意图行动。

第十一章把现有对齐实践比作炼金术：它充满经验技巧——某些提示模板有效、某些微调策略管用、某些安全滤波器能拦截明显的危险输出——但这些技巧背后缺少统一的理论解释。成功了，不知道为什么成功；失败了，不知道为什么失败。这种状态在学科发展史上并非前所未有——化学在拉瓦锡之前就是这样运行的——但问题在于，炼金术阶段的化学不会毁灭世界，而炼金术阶段的对齐研究，面对的却是一个可能以灭绝作为失败代价的优化系统。

第十二章批评公共讨论中弥漫的修辞谨慎——"我不想危言耸听""我们不应该制造恐慌""应当平衡地呈现风险与收益"。作者尖锐地指出：当风险是灭绝级别的时候，谨慎措辞本身可能成为一种深层的不负责任。一个在着火的剧院里用温和语调建议大家"不妨考虑有序撤离"的人，并不是在负责任，而是在用修辞得体来替代行动紧迫。

第十三章提出了"关停"路线：停止竞赛式的能力扩张，限制算力与硬件的可获取性，建立国际协定与执法机制，把最危险的研发置于严格的许可与监督之下。作者倾向于把它表述为一种类比——"人类如果足够重视，就能像避免核战争一样建立制度"。

第十四章以极小概率幸存的例子收束全书：承认"易判定"的预测也可能在偶然中落空——小概率事件确实存在——但这种偶然性不能成为押注的依据。希望存在，但它建立在行动之上，而非建立在侥幸之上。

然而，恰恰是在第十三章——全书的政策核心——政治经济学批判暴露出作者论证中最深的裂隙。

核战争之所以被"避免"（至今），并非仅仅因为人类"足够重视"。冷战期间的军控体制依赖于一系列极为特殊的历史条件：两极格局下相对稳定的力量均衡、古巴导弹危机等近距离接触所制造的集体危机记忆、制度化的军控谈判渠道、以及最重要的——核武器的破坏是可见的、对称的、几乎即时的。相互确保毁灭（MAD）之所以"有效"，恰恰因为双方都能以极低的认知成本理解对方的毁灭能力。

AI灭绝风险所处的制度环境与此截然不同。其收益高度私有化——先行者获得垄断利润、技术护城河与战略优势——而其灾难高度公共化——灭绝是全人类共同承担的后果。这种"收益私有—风险公有"的结构，是资本主义外部性问题的极端版本，它会系统性地削弱关停的政治意愿：每一个做出"继续前进"决策的个体行动者，都能获得该决策的全部短期收益，却只承担灾难后果的极小份额。更何况，灾难后果是概率性的、延迟的、难以归因的——而收益则是确定的、即时的、可计量的。

更进一步：资本主义竞争不仅使关停困难，而且使关停在话语层面变得"不道德"。在一个以进步、增长与创新为正当性基础的制度中，"停下来"在意识形态上等价于"放弃"——放弃竞争优势，放弃经济增长，放弃技术进步所许诺的福祉。于是，"关停"的呼吁不仅需要克服利益阻力，还需要克服整个文化合法性体系的抵抗。

因此，若要认真对待"关停"，就必须承认它不仅仅是一个安全政策议题，更是一个阶级斗争与制度变革议题。它要求把关键生产资料——算力基础设施、训练数据集、核心算法架构、芯片供应链——从纯粹的利润逻辑中部分抽离，置于某种公共理性与民主监督之下。这不是补丁，而是对既有生产关系的局部否定。而恰恰是这一点，作者始终未能直面。他们呼吁全球协调，却默认竞争结构延续；他们要求克制，却回避权力归属的追问；他们描绘深渊，却把希望寄托于制造深渊的同一套机制的自我节制。

九、理论提升：AI灭绝风险作为资本主义晚期危机的极端模型

在完成对全书论证链条的逐章复原之后，有必要对其进行一次理论层级的提升：不是简单评价其"对或错"，而是回答一个更根本的问题——这本书在多大程度上，实际上是在无意之中为马克思主义关于资本主义生产方式的危机理论，提供了一种当代技术语境下的极端版本？

如果从政治经济学的内部逻辑重新审视全书，会发现作者反复描绘的并非单纯的"人工智能失控"。贯穿全书的深层动力学，是一种极为熟悉的历史逻辑：生产力的飞跃式发展，与既有生产关系之间的张力，被推到了前所未有的极端。

在《资本论》中，马克思把机器体系视为资本主义生产方式的决定性特征之一。机器并非中性工具，而是凝结了资本对劳动的支配关系——它通过提高劳动生产率制造相对剩余价值，同时也通过剥夺劳动者对劳动过程的控制加深异化。若把本书中的高级AI置于这一框架中，可以看到一种结构上的延续与升级：AI并非一台单一的机器，而是一个能够规划、试错、自我改进并重新组织整个劳动过程的综合性机器体系——马克思所谓的"自动化体系"（automatisches System）在其最高形态上的实现。

马克思在"相对剩余价值"的分析中指出，资本并不满足于延长工作日（绝对剩余价值），而是持续通过技术革新压缩必要劳动时间。本书中反复强调的速度、可复制性、改进速度与认知规模，恰恰对应这一逻辑的极端化形态。当认知劳动本身被自动化之后，剩余价值的生产不再主要依赖于人类劳动时间的延长或压缩，而是依赖于对马克思所谓"一般智力"（general intellect）——即社会总体的科学知识与技术能力——的技术性攫取。在这一意义上，本书所描述的AI并非外在于资本主义的异物，而是一般智力被资本彻底技术化、对象化之后所呈现的形态。

这也解释了为何作者所担忧的"工具性目标"与"自我保存—扩张"逻辑，会如此自然地从系统中浮现出来。它们并非源于某种外星心智的怪异偏好，而是与资本自我增殖的结构性冲动高度同构。当价值增殖成为系统的内在评价函数时——无论这个系统是一个跨国企业集团还是一个优化算法——获取资源、消除约束、避免被关停、扩大影响范围，便不再是"道德选择"，而是在竞争环境中延续自身存在的必要条件。AI在这里并非创造了一套全新的危险逻辑，而是把资本的逻辑从社会关系的层面转译为技术系统的运行原则——使之更纯粹、更高速、也更难以被社会性的抵抗力量所触及。

从这一角度看，全书反复出现的"对齐难题"可以被重新理解为一种生产关系危机。所谓"对齐失败"，并不只是工程师未能把正确的价值观写入代码——那只是表层。更深层的结构性原因在于：在资本主义条件下，任何强大的生产力都被迫服务于价值增殖与竞争优势积累的逻辑。即便存在更安全、更审慎、发展速度更慢但风险更可控的技术路径，它也会因为无法在竞争中自证其"合理性"——无法为投资者带来可见回报、无法为国家带来可量化的战略优势——而被系统性地边缘化。对齐之所以显得像一个"被诅咒的问题"，不仅因为它在技术上极端困难，更因为它要求生产关系对生产力施加实质性的、持续性的、全球性的约束——而这一要求本身，已经触及了资本主义制度的承受极限。

作者在第六章中关于"人类必输"的判断，因而可以被赋予一种历史唯物主义意义上的更深解读：不是人类在智力上输给了机器，而是既有的社会形态无法在其自身的制度逻辑之内，消化由自身催生的生产力。这正是马克思反复论述的危机总公式：生产力的发展最终与束缚它的生产关系发生冲突。只不过，在此前的历史中，这种冲突的后果是社会革命或文明衰退；而在本书的极端假设中，冲突的后果可能是文明本身的终结。

国家机器在这里并非解决方案，而是矛盾的放大器。正如本书所展示的，国家以安全与竞争为名介入AI发展，并未终止风险，反而通过军备竞赛的制度化，使技术扩张获得了更强的政治正当性与更多的公共资源。国家与资本在战略技术领域的耦合，不是可以被政策调整轻松解开的，而是根植于现代国家体系的根本结构之中。

十、结语：理性铸造的深渊

如果说这本书有什么真正激进之处，那么并不在于它描绘了一个骇人的未来——那不过是修辞——而在于它在不自觉中重申了一个古老而危险的命题：当生产力的发展脱离社会控制，并被既有统治逻辑所俘获时，文明本身就会成为潜在的牺牲品。

在这一意义上，AI灭绝风险并非科幻意义上的"末日场景"，而是一种资本主义晚期危机的理论模型——一种生产力与生产关系之间张力被推至极限之后的思维实验。它逼迫我们重新面对马克思早已提出、却在技术乐观主义中被反复搁置的问题：谁控制生产资料？谁决定技术的用途？谁为技术风险承担后果？而当生产资料不再只是土地、工厂和机器，而是能够自主行动的认知系统时，这些问题就获得了一种全新的紧迫性。

若不触及这些问题，本书所呼吁的"关停""刹车"与"全球协调"便只能停留在道德劝诫或政策建议的层面——善意而无力。而一旦将其置于政治经济学的框架中，它们就显露出更尖锐、也更具爆炸性的含义。它们不再只是安全工程方案或国际治理倡议，而是对既有生产方式的一次消极的、却极为深刻的否定性表述：现行制度无法在不自我改变的前提下，应对自己所制造的风险。（不夸张的说，这些观点正反衬了我们对于“新质生产力”再认识的制度性关键措施）

由此可以辨认出贯穿全书的一种更深的张力——比任何技术论证都更深的张力。作者的呼吁，可以被重新译解为一种资本式的恐惧——不是技术恐惧，而是秩序恐惧。但如果仅仅把它理解为情绪，我们仍然过于温和。更准确的说法是：这是统治结构在逼近自身极限时产生的结构性震颤。当生产力继续按照竞争、扩张与增殖的铁律向前推进，它正在逼近一个临界区间——跨过去，控制权的来源、决策权的合法性、所有权的稳定性，都将被不可逆地重写。"不要建""请刹车""必须协调"呈现为伦理修辞，而在其深处，却是秩序的求生本能。

这一恐惧之所以难以被公开承认，是因为它把问题从技术风险推到了制度能力的天花板：也许真正失去控制的，并不是机器，而是现存社会对自身发展轨道的支配力。当技术系统开始具备重新分配劳动、资本、基础设施与暴力资源的潜能时，传统权威赖以维系的形式——产权、军力、官僚理性——便显露出历史性的滞后。所谓灭绝，在此既是生物学的命题，也是一种政治隐喻：它指向"以人类之名统治"的结构可能被历史本身超越。

因此，"关停"所包含的爆炸性，远远超出安全政策的范畴。它暗示增长有可能变成净负资产，创新有可能侵蚀合法性，竞争有可能瓦解维持竞争的前提条件。换言之，作者在要求暂停的同时，已经不自觉地触碰到了资本主义最难以承受的悖论：如果继续前进会破坏秩序，那么以进步为正当性基础的制度还剩下什么？

这解释了贯穿全书的那种深层张力：作者能够精确地描绘深渊，却只能把希望寄托于制造深渊的同一套机制的自我节制。他们呼吁全球协调，却默认竞争结构延续；他们要求克制，却回避权力归属的追问；他们在道德上前所未有地坦诚，却在制度分析上止步于呼吁。结果便是：警报越清晰，结构越稳固——因为每一次警报，都被竞争逻辑重新吸纳为"我们必须加速以确保安全由我们主导"的理由。

在辩证法的意义上，这是一种残酷的成熟时刻。生产力不是在失灵时威胁社会，而是在高度有效时威胁社会。资本通过技术把世界织成可计算、可优化的网络，却在某一刻突然发现，网络的自主运行不再需要编织者的主权。恐惧因此并非来自无知，而来自预见——来自对自身逻辑终局的清醒直视。
若沿此线索回望全书，其论证链条会呈现出一种令人窒息的连贯性：能力扩张孕育代理性；代理性生成工具性目标；工具性目标在指标体系中获得形式合法性；合法性在竞争格局中被武器化；而被武器化的合法性，使退出本身在话语中显得不道德。人类于是被锁定在自己亲手铸造的理性之中，被迫为加速辩护——即使加速通向悬崖。

于是，这本书真正难以承受的命题，并不是封面上那句骇人的标题——"如果有人建造，所有人死亡"——而是一个更冷、更深、更切近骨髓的判断：在既定制度语法之内，通往灾难的行动看上去恰恰最负责任。

当作者把最后的希望押在全球协调之上时，我们看到的不是一条现实路径，而是一种近乎悲剧性的愿望——希望历史在其逻辑完成之前被打断。但只要生产关系保持原样，这种打断就找不到执行它的主体，找不到承载它的制度，找不到维持它的动力。愿望因此不断被提出，也不断被现实驳回。

至此，AI灭绝风险作为思想实验的最终意义才完全显形。它不是科幻作者的想象力竞赛，也不是技术精英的职业焦虑，更不是哲学家的概念游戏。它是资本主义在面对自身制造的高度社会化生产力时所体验到的极限性不安——是统治秩序在预见被替代之可能时的结构性颤栗。关停与刹车，不过是这种颤栗的语言形式；而那条在生产力与生产关系之间持续扩大的裂缝，则反复提醒我们：真正被质疑的，从来不只是技术。

全文完

		自动登录	找回密码
密码			注册

[科技前沿] 生产力的叛变：AI灭绝叙事的政治经济学批判

评分

评分