0 B" N2 q% [8 z( K7 s6.3 实验结果与分析 6 t8 a4 T1 V' n, } A: f! x我们首先评估了ViT-Large-AGD在标准围棋基准上的表现。如所示,引入AGD后,ViT-Large的棋力出现了轻微下降(KR从8d降至7d)。这可能是因为在搜索过程中考虑对手的反应会稍微偏离最优路径。不过,ViT-Large-AGD在面对人类棋手时仍然表现出了接近顶尖的实力。& u7 X. k& \% E, p: T8 K
' l4 R" Y: j9 O) F1 B接下来,我们考察了ViT-Large-AGD在循环攻击下的表现。出乎意料的是,ViT-Large-AGD展现出了显著的防御效果。在与1024次搜索的continuous-adversary对阵时,ViT-Large-AGD的胜率从2%提高到了45%,而ViT-Large在引入基于位置的对抗训练后的胜率也只有33%。更令人印象深刻的是,ViT-Large-AGD甚至能以31%的胜率击败搜索131072次的continuous-adversary,远高于任何之前的防御方法。 : a4 B, A- J, M" K+ E; t( c6 @/ r& V8 e8 U3 }9 a
为了进一步理解AGD的作用机制,我们分析了ViT-Large-AGD在循环攻击下的博弈过程。面对continuous-adversary的循环诱导,ViT-Large-AGD会主动选择打断循环的应对,从而避免了恶性循环陷阱。有趣的是,ViT-Large-AGD的这些应对往往与人类棋手惯用的化解手法非常相似。这表明通过对手博弈,ViT-Large-AGD学会了在看似危险的循环中辨别真正的威胁,并做出了更加人性化的决策。' K5 a: Y3 c: e( y
2 M+ O+ u S. d$ N6 c& ?& _
6.4 防御效果评估 : d* D, C: n8 p i1 Y! w7 F尽管还处于初步阶段,但对手博弈防御为围棋AI的鲁棒性问题提供了一个有前景的新思路。通过引入对手模型并将其嵌入到搜索过程中,AGD使防御模型能更全面地评估局面,预见对手的反应,进而规避可能的陷阱。我们在ViT-Large上进行的实验表明,即使使用一个简单的human-like-adversary作为对手模型,AGD也能大幅提高模型抵御循环攻击的能力,同时在面对人类棋手时保持较高的竞技水平。 + b# Y' U( K9 ~! B9 V" Y/ ]# g1 l- f5 Y/ u0 S& A& D. H
当然,AGD还有许多值得进一步探索的问题。例如,目前我们只在搜索树中展开了对手的一步反应,而现实中的博弈往往涉及多轮交互。因此,一个自然的想法是将对手模型的预测向更深层次扩展。此外,虽然human-like-adversary作为一个起点还不错,但它与真实对手的行为仍有差距。未来可以考虑通过不断地在线学习来动态更新对手模型,使其更好地匹配真实对手的特点。最后,我们目前只在ViT模型上测试了AGD,但这一防御框架应该可以很容易地迁移到其他模型结构中。总的来说,我们相信AGD是一个很有潜力的防御方向,有望与其他防御技术相结合,进一步提升围棋AI的鲁棒性。+ _- {/ @# v! I4 l+ O9 H
4 F' y) _) u; H' r+ R7 ^
7 量化分析与综合讨论+ k' p" L6 { l' q- ^% e# t8 v
在之前的章节中,我们从不同角度探索了围棋AI面临的鲁棒性挑战以及可能的解决方案。本节将对这些结果进行量化分析和综合讨论,以期对围棋AI乃至其他领域的鲁棒机器智能研究提供启示。0 q$ D, n/ ^: O. u! _/ d. l( v
% l% O k5 E6 |7.1 防御效果的量化比较% H: v# q6 S* K0 R
为了系统评估不同防御方法的有效性,我们引入了一个量化指标——攻击成本(attack cost)。直观上,攻击成本衡量了攻击者为达到一定胜率所需付出的计算代价。我们用攻击模型相对于防御模型的搜索次数比来度量这一成本。例如,如果一个攻击模型需要搜索256次才能达到50%的胜率,而防御模型只搜索64次,那么攻击成本就是256/64=4。攻击成本越高,说明防御模型的鲁棒性越强。 9 k' q) L! D+ e" v b+ Q9 T" N& p1 f
根据论文的图表,展示了不同防御模型在面对continuous-adversary时50%胜率所对应的攻击成本。可以看出,基于位置的对抗训练和迭代对抗训练都能显著提高攻击成本,但效果并不理想。例如,dec23-victim的攻击成本虽然是非鲁棒模型的3倍,但仍然不到10。迭代对抗训练得到的victim-4略好一些,但其攻击成本也只有24。相比之下,ViT-Large-AGD展现出了明显更强的防御效果,其攻击成本高达128。值得一提的是,攻击成本对应的是50%胜率,而在更高胜率下ViT-Large-AGD的优势会更加明显。% _& ]9 ~5 _: ~% |; H+ P
4 G9 ^0 o6 t# [+ e) L
7.2 人类鲁棒性的定量评估 1 F+ s5 [ s. D" k' G; L除了抵御刻意设计的攻击外,我们还希望围棋AI能在面对人类棋手时表现出鲁棒和可解释的行为。为了定量评估这一人类鲁棒性属性,我们请3位职业棋手(1个九段和2个八段)分别与不同的模型进行了10局对弈,并记录了每个模型犯下明显错误导致失败的频率。我们将这个频率称为失误率(blunder rate),失误率越低,说明模型的人类鲁棒性越好。$ t- M$ U/ r1 j6 n O, U8 A1 j1 b
" W5 f$ T' s' X
非鲁棒的KataGo模型(如base-victim)的失误率非常高,接近30%。即使是接受过防御强化的模型,如dec23-victim和ViT-Large,其失误率也在15-20%。相比之下,ViT-Large-AGD的表现要好得多,其失误率只有8%,与人类职业棋手处于同一水平(附录H)。有趣的是,ViT-Large-AGD的这一失误率甚至略低于使用高达131072次搜索的dec23-victim,表明通过AGD,围棋AI可以在更低的计算预算下实现更高水平的人类鲁棒性。 4 z, f2 P# T. ~4 L+ N. D- `" ^) I2 }; U( [ i6 G) ?( n4 ]
7.3 讨论与未来工作& v. J' Y, X$ d& E
综合以上实验结果,我们可以得出以下几点认识: : @* b u' o1 {1 X0 ?. Q2 F$ w: |- ?- J- c( G
循环攻击揭示了当前围棋AI在鲁棒性方面的严重不足。这一问题不仅局限于特定的模型结构(如CNN),也难以通过常规的对抗训练来解决。6 R7 U5 J8 r" u7 _& O- P# j9 F& ?. B
5 m0 c) K* D4 E* p4 J仅仅追求在标准围棋基准上的高胜率并不能保证模型的鲁棒性。事实上,一些在棋力上接近人类顶尖水平的模型(如ViT-Large),在面对刻意设计的对手时仍然表现得非常脆弱。 0 h. k. Z; C R0 m! A, m+ i; I( n) g
将多智能体博弈的思想引入到训练和推理过程中,可能是一个提升围棋AI鲁棒性的有效途径。我们提出的AGD防御就是这一思路的初步尝试,取得了鼓舞人心的效果。 , z! [7 \9 i; L( _, ?1 n# F8 n+ r r a& S
人类鲁棒性应该作为评估围棋AI的一个重要维度。一个真正强大的围棋AI不应该仅仅在与同类对弈时表现出色,更应该能经受住人类棋手的考验,在节奏与风格迥异的对局中稳定发挥。3 P' |/ Q- Z8 _
/ p2 B4 I. r" a$ e, `' r当然,本文的探索还只是一个开始,未来还有很多工作可以展开。首先,虽然我们重点关注了循环攻击,但围棋AI可能还存在其他类型的弱点有待发掘。构建一个全面的鲁棒性基准和评估体系将是一项重要但艰巨的任务。其次,AGD作为一种新的防御范式还有很大的优化空间,例如考虑对手的长期博弈、引入多个异构的对手模型、在线对对手模型进行调优等。最后,本文聚焦围棋领域进行研究,但我们认为其中的一些见解可能具有更广泛的意义。探索如何将围棋AI的鲁棒性分析方法和解决思路迁移到其他对抗性场景中,也将是一个非常有价值的研究方向。6 T0 p' t/ t0 e; E8 j- B& c