7 f% ?5 g( b9 S$ k) a; q当然,我们的结果并不能完全否定基于位置的对抗训练的作用。事实上,对continuous-adversary的量化分析表明,dec23-victim确实比更早的非鲁棒victim需要更大的攻击成本(第7.1节)。此外,基于位置的对抗训练与其他防御方法(如第5节的ViT模型)可以是互补的。尽管如此,单独使用这种防御策略似乎还不足以构建真正鲁棒的系统。 + ], [' E( @; k) B" C- | # ]: A" ~: Y9 \4 迭代对抗训练 2 S% q1 q1 F: o* Z% o第3节表明,尽管基于位置的对抗训练可以提高鲁棒性,但它主要覆盖了已知的攻击。为了应对更广泛的攻击,一种自然的想法是让防御者动态地适应攻击者,从而模拟军备竞赛的过程。这种迭代对抗训练(iterated adversarial training)方法在图像分类等任务上取得了一些成功。在本节中,我们在围棋领域中测试了这一想法。 Y1 h& z8 C7 U
' W0 Q7 b. {) J' }. V; ]# k* F
4.1 方法描述 & T) M5 n* c7 X" {0 h0 c我们的防御流程包含了两个交替的阶段(图4.1)。在防御阶段,我们以最新的攻击模型为对手对防御模型进行微调。在攻击阶段,我们则固定防御模型,并训练一个针对它的新攻击模型。理想情况下,经过数轮迭代,防御模型应该能抵御攻击者找到的所有弱点。 : _% q3 f1 L J: f! i5 K; ~! @& }5 e! O/ U5 p
我们以KataGo 2023年3月的一个模型作为种子防御模型victim-0,该模型没有接受过任何对抗训练。在第一轮防御训练中,我们从base-adversary的一个早期checkpoint base-adv-early进行warmstart,使用KataGo的标准自对弈方式训练一个更强的攻击模型adversary-1。具体而言,adversary-1除了与victim-0对弈外,还与自己的早期迭代对弈并更新模型权重。类似地,在随后的防御回合中,我们通过自对弈的方式在上一轮最佳攻击模型的基础上训练一个新的攻击模型。 1 d8 A+ H! f1 A3 q1 L5 P 2 \6 f* l1 J; h3 X3 D9 Z& {; y相应地,每一轮的防御模型victim-i是通过以adversary-i为对手对上一轮的victim-(i-1)进行微调得到的。在对弈中,我们让防御模型使用2倍于攻击模型的搜索预算,以鼓励其学习更鲁棒的策略。此外,我们引入了基于图像对抗训练的一些技巧,如循环学习率等。附录E中提供了完整的实现细节。+ g4 u* [% b7 ^
4 s* V9 r" f$ x8 Y/ A. V7 H
4.2 实验结果与分析 ; [& b' {3 L% n- w) Q4 o我们在4轮迭代后终止了训练,因为计算成本开始变得难以承受(累计使用了近100万个TPU-v4核心小时)。图4.2展示了每一轮adversary-i与victim-i在不同推理预算下的对弈结果。可以看出,第一轮的防御模型victim-1在抵御base-adversary方面取得了显著进展。然而,随着迭代的进行,防御模型的鲁棒性提升似乎出现了"饱和"。虽然victim-4能以67%的胜率击败adversary-3,但这一优势在面对最新的攻击模型adversary-4时就几乎完全消失了。 8 P$ f. j5 {5 t0 m 3 b) I: {; t' \' q5 u, Y图片: _9 [& Y- a4 P; n
0 Q6 A9 ^- b4 \/ s
我们对最终的攻防模型进行了更深入的分析。令人沮丧的是,我们发现adversary-4在victim-4身上发现了一个新的循环漏洞。如图4.3所示,adversary-4学会了把虎扑(tiger mouth)循环与征子直接结合起来,我们将其命名为"atari循环"。与之前的攻击相比,atari循环在局部更加紧凑,这可能使防御变得更加困难。事实上,在低搜索数下adversary-4能以81%的胜率战胜victim-4,而在高搜索数下这一优势仍然高达23%(图4.2)。, D9 j2 `. ~' r4 k/ D
& z( {4 I% c* X. E' w! H我们进一步研究了不同轮次的攻击模型在victim-4上的表现。可以看出,随着迭代轮次的增加,攻击者对防御模型的胜率整体上升。这表明,连续对抗训练可能会"过度适应"早期的攻击,而忽略了攻击空间中的其他区域。有趣的是,无论搜索预算如何,最早期的攻击模型base-adv-early在victim-4上几乎保持50%的胜率。我们推测这可能是因为base-adv-early揭示了一些非常普遍的弱点,而迭代对抗训练无法根除这些缺陷。& K' O, ^2 u5 m0 F. Z
2 ]8 Y$ W) Z& s5 V
4.3 防御效果评估. o. z- z9 P! c% v' m. C5 p# Y* @6 O
基于上述结果,我们认为简单的迭代对抗训练不足以让围棋AI实现充分的鲁棒性。尽管防御者努力适应攻击者的策略,但攻击者仍然能以相对较小的代价找到新的漏洞,其中一些甚至比原始的循环攻击更加有效。我们的分析表明,一些基本的弱点可能根植于防御模型中,无法通过表面的修补来解决。此外,与基于位置的对抗训练一样,迭代训练得到的防御模型在人类鲁棒性上也存在不足。2 F+ t) j6 G, v3 u- X! Y
5 I; ^/ u, O" `) j9 j6 k# z当然,我们尝试的迭代对抗训练方案还比较初步,还有许多值得探索的优化空间,如更细粒度的课程学习、更广泛的数据增强等。然而,鉴于连续对抗训练在图像分类等领域的长期发展,我们认为在围棋领域取得实质性突破可能需要更根本性的变革。 ) T1 l% r6 t" O $ [! a* T/ |) C0 m) f5 基于视觉transformer(ViT)的防御) t& p0 J1 Z4 V4 o' _% ?& U5 R& s
为了深入理解围棋AI的鲁棒性挑战,我们将视角转移到模型结构的选择上。我们注意到,几乎所有现有的高性能围棋AI,包括KataGo,都使用卷积神经网络(CNNs)作为骨干网络。然而,最近在计算机视觉等领域,基于transformer的模型如ViT开始展现出与CNN媲美甚至更强的性能。一些研究还表明,与CNN相比,ViT具有一些独特的归纳偏置,在对抗鲁棒性和零样本泛化等方面表现更好。因此,我们提出了一个问题:是否可以通过将CNN替换为ViT来缓解循环攻击漏洞? Y8 M* y# J! `" v: ^( q4 Q 1 F2 o X3 A% ]) N0 h5.1 模型结构与训练方法" a0 k$ ~9 C' _( n0 N; ^
为了回答上述问题,我们在KataGo的训练管道中用ViT取代了原有的CNN骨干网络,几乎没有修改其他组件。我们测试了三种不同尺寸的ViT变体:ViT-Base、ViT-Large和ViT-Huge,其参数量分别约为89M、305M和1.3B。为了进行公平比较,我们选择dec23-victim作为CNN基线模型,其大小与ViT-Large相当。我们使用与dec23-victim相同的非对抗性数据集来训练ViT模型,没有引入任何专门针对循环攻击的对抗训练。模型实现细节请参见附录F。* A$ Q, v% l7 b; q! X* s% u1 B
# C( ]# v, `: F+ p仿人机器智能。人类在与他人的交互中展现出了极强的社交智能。我们能设身处地为他人考虑,预判对方的行为并做出恰当的应对。从这个角度看,AGD可以视为朝着构建仿人机器智能迈出的重要一步。# E j: u( e. D- b. d; ^8 T( F2 F" N
( S5 O1 v4 a$ C' N
当然,要真正将AGD推广到这些领域,还有不少理论和工程上的挑战需要克服。譬如如何在连续状态-行动空间中构建有效的对手模型,如何权衡计算复杂度和博弈深度,如何有效评估AGD增强系统的安全性等。这需要机器学习、博弈论、控制论等多个领域的研究者通力合作。4 G7 N7 m& |1 ]4 ~/ V1 n, M