|
|
( s$ D1 h$ V( t/ R( ^8 [: j+ a0 O# G! s) `2 a; n0 ^
这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
, {: f0 B4 h1 {2 F3 j* u, Y" q
; c7 N3 H0 j/ r m, h+ Z) z最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。* R7 F0 x/ R2 W" f' N
. t; G$ R- t# [& g) S6 y给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
% Q! }7 ?# ~+ g/ j' c
2 H1 y7 U+ H1 i/ j& m: j9 ~( ~AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
# g8 r5 s3 ^7 t! A" @6 d2 y我: A" ~1 A) `0 ^7 H$ x6 b0 [6 ]8 C
AI: B6 _0 q" @+ s; r5 d- @0 }( U
我: B$ ?' k4 J1 N% j/ Z! w
AI: C
/ U+ H$ V. b! h. h. P" d我:X9 N$ B0 ^6 L5 r# j* `" l$ w7 T
- S" g7 |8 x$ U0 u4 x
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
0 H# a1 y, x2 |4 B7 Q- \
o' P2 S. v6 h真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:( H' `3 [4 s7 i, V4 E+ v
我:Z
3 w# @6 O% d. e d! C, v! v. x+ L
" C3 b h& z# ?0 {0 s. H这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。* m; I, O. w- Q/ c& ^. t0 L
8 X) g# c, v# C" L5 B, ^* x而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。. `2 s( H7 _" v+ K! p
4 b: U& z" G$ d( U( o( h有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。6 [3 D! T% ]( ?. r# X
0 ~) d- |7 Y2 _$ p6 } h" \. R
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说: w0 s. O" o: t M& j! G
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
: ?, r+ T. Z4 Y3 K8 L& Z& O6 Y
+ Y: k5 K5 e3 m2 `) }1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
2 g5 S' e" r6 Y. P, D3 \; f8 Q; F$ {8 ]0 M4 w( u; P
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
& V7 v/ J. ]) U7 E) ] R r0 F% H9 p, F. M" n0 V3 s1 n# P9 }7 P) d
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 * ^0 k9 o$ n m( z
 |
|