|
1 }' K, T9 K3 g# }( k* Z- m) ?4 ^& q0 M7 s0 x
这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
2 O& X8 q: h+ I- k5 k6 z/ T9 }$ S0 S7 a& X
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。- y% I* u# q. ^9 s1 D P
3 A- i" P$ `, h: L2 N: X1 f给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
4 N1 v) D, k0 h* ?# {: ^4 Y" V9 h' x4 l- q4 Q, H" `
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:$ L4 f# q6 T& R! D, Z# }! P
我: A
# T& R5 e9 H5 y) v0 d5 SAI: B# Q, M. g' e+ }, e2 ]# P8 D
我: B
, D/ y& ~1 G5 V+ K( IAI: C4 F! M$ L: n* `7 _& Q' Y
我:X+ T9 b7 T. S, O$ ^
2 `, J* f0 {; p* J K8 ~这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。" t. l, q2 q1 h* [& ?
: f3 Q# e* _2 q0 O. q& m! H( w
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
1 d) `; G: S- o, }2 X6 A我:Z0 _' S+ L* L) Y7 H1 h: w, l
* c4 V- i; c/ ?9 q u& d这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。0 A9 c8 O) I6 C, @( p, ~
D2 U. Y1 N% R6 s {4 O: F' g
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。7 R' {1 ~, p0 t# Q3 @
' \! J& a5 m" H2 f, V" b/ D有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
2 M# B' V( p& }) ?: N9 G$ D; g7 e( W$ N; l) a9 N2 i
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:$ p/ E2 a9 J& P7 H4 J
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。: z; [2 [8 i( l& ]2 L- X7 r
! C, R: B( d* M5 @! h1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。$ C6 A" D8 h& |: U5 i
, D7 Q5 t# q8 ~2 O. o2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
8 [& K, G$ e: E) G# o* ~7 v, z" R0 a1 W) E
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
; O4 P, k% ]8 m9 N c9 E0 v: z9 k |
|