|
, P" @8 ]/ v2 Q
1 ^5 h: f. u: ~* i: q! u& N
这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
7 h8 {5 ]8 Q! V4 |) p6 w: H! k6 H! |9 I+ D( l9 g8 l, ]3 o
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。1 N8 A! ]. V% T: N
, u3 o. x8 O4 b" i5 z: |给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth./ Y' e# E' U- D! o6 S
B7 h; ?5 Q8 u
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
9 l I* Y. {5 Z" L8 p我: A
+ l+ \- E @; F6 s' z" m2 l- j* JAI: B
4 o4 A# ^5 J' M3 @, _我: B
. p# s* \. b2 D6 E: }AI: C
' S, I5 ]: a# s: V我:X# H, T( u: q$ ]% Z8 k) t& g, a) m% j
4 l0 h- _, K+ D. j! ~/ q( U这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
: \( I3 R- ~% K$ K8 L: i
* @9 [! B3 a" Q7 e% S真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
; @4 h7 u+ i6 s9 l0 u8 `4 v我:Z
* z6 b, E! }: |2 T1 n8 _1 m
: [3 Y( A+ Z2 y3 X8 y8 H这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
7 W$ a5 ^8 h: o R7 Z
+ U) }4 O2 i; Y, H+ a9 t' S/ g而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。5 H0 {4 ?6 D/ K% Y
( I1 Q. r3 z- w9 `- \4 c m
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
2 D1 H4 S, `! _& I
: N E1 @/ e" C+ g; r- K- @ T7 f至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:* r! K; _2 f u5 o. M0 T3 k
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
# v0 J u# T+ B$ O; O; `4 X" X5 @
* Q/ d$ v- q" N- o5 k( ]1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。( |6 L, l0 L5 }2 v! W" F. r# {& K
# D2 ~/ ^0 q! O' Q1 K3 @" \& t2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。% M* j7 v" Q0 H1 |& m
9 f7 F" e+ B1 b% n3 z/ z* `0 u& r1 q总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 9 [. l, _5 Z1 L! a
|
|