|
|
: e, W% ]$ A: N3 Z, k% Q7 I3 ^
! A: H+ ?7 {0 c+ a这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
+ q( H. H- G# D# c' E" s
! [8 L: D1 g9 {最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。- F9 r9 _/ @5 r: {# ]
' [) z, z4 e4 |6 r5 ]. W9 M给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.' e% i4 ?& ]$ h
' v; A! y; Q, {- G6 w$ ]
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:0 [0 S! y5 S- t! x2 U
我: A0 w/ U+ J& v, m7 [- B. E7 E
AI: B
7 \0 L5 }6 d" C我: B
0 [9 P3 U% I6 n& k& Z0 S) O; yAI: C. T: u) Y& U3 l2 X: M! X
我:X
" p( C: L3 h4 o; B
" k7 `1 t( M( ~: g' N f7 T2 ]这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。. V" t2 ^! M$ G( C
0 S2 I5 y9 X* S! {+ R真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
, [' g* m# G/ x3 T% d我:Z
, R8 }0 e @; R& g# X
( j6 t) Q; M7 r* X1 v1 W这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。8 |! D) d) @& \1 ]3 g8 R1 L
2 n2 i. G# ~, ^7 J( t& O2 O而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
( J: ~) E% u# J/ E" Z7 a
+ ~7 U( t" t" r1 t有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。1 M, h( T; \# \7 i+ G3 Z) h
+ F! r& q& c! X* \
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:3 |+ z5 ^* U* k; C8 m
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。1 ~" z. @* l) X+ ~* F; z
M3 s1 u; i6 M) j- y: u! o$ l8 ` N
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
( m% {: R) ^. c( r5 P4 o! j" C) J4 N' Z1 F
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
* O% _* Q1 T7 `# |! m* m: |, m4 D) M
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
2 y; T: G- I4 d! ?7 w' n |
|