爱吱声

标题: 生成式 AI 有没有推理能力? [打印本页]

作者: 孟词宗    时间: 2024-10-18 23:36
标题: 生成式 AI 有没有推理能力?
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
* k7 S" W+ P: H& ^; W
2 p# G* ?7 N% a7 V% p% @  F4 t: b( t$ Y讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理( v8 h% q7 e4 R" X3 t" v

  e( H& T' D* m2 k这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
" P/ E& L8 e7 a9 [' f+ F  f% l, j4 D4 M; V2 y# }
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
' F; h4 M# L3 k! a6 M) ?9 B) s* ^6 N; E8 N- m2 t5 O0 ?& I. {
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.# ?+ K7 F+ G2 p- [/ O
, p( I) F+ F* ^8 I: d: B' W8 k
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
. _" S6 @# E+ ^2 ?+ z. b$ |& z' @( p我:  A$ Z9 H; c, {7 i* M7 [8 f: F
AI:  B
9 N1 s% j- q6 F  P4 `7 N! G  A( ?$ c我:  B
0 y3 _7 z; A: y) @' w& ~$ yAI:  C0 w0 b3 [! i+ z3 G1 L" d& e
我:X
7 Q6 ]  e$ L' M$ c/ L+ a% n. U! W- k: L0 _% y5 |$ I* ]6 Q  v
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。  很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
) F9 H8 A4 g% t. v1 i5 S6 Z5 K
, C2 b* L) I6 \% A' H真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
* D6 g8 @" A- y我:Z
) H, J. [/ b5 ]2 U8 S: C
2 Z: ~$ j$ y& E8 Z这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。6 F* g+ u# x/ x. Z

9 y' q$ D& I, S  n* S而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
& F- V# Z& P# D6 |8 P8 u( A) p  w2 U: G# J8 i2 ]9 y# J
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
$ P: Q1 {: Z/ ?8 k
# L1 y! C7 N' V. i, G- u" W8 `( W至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:  t% O9 _9 ~& q# w+ L
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。7 O& l1 T! H6 O1 o

- l$ C1 m. J( R* ~8 `* u1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。. Z: J/ t6 t5 M; [
1 f, ^4 t7 @; Q5 s% M4 P6 k
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。/ E) i% w# j4 w% q9 _9 f
" @' H1 C. P' O3 h. o
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
7 P5 W/ ^. r4 K% Y3 P1 u& t

作者: 唐家山    时间: 7 天前
本帖最后由 唐家山 于 2024-10-19 18:52 编辑 3 b# W7 ~# U4 l9 ]  a6 t4 a

/ |5 `% u7 T* b推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在证明的过程中也分三种情况。第一种是直接照搬已有的证明,只在语法层进行修改,用于消解待证目标。第二种需要深入理解待证目标的语义信息,以及已有类似证明的语义信息,借鉴已有证明的构造模式,构造出符合要求的证明。第三种是还没有类似的证明,这种情况下需要从头开始,把大脑中的非形式证明,翻译成形式化的证明。. z8 `' e" G; Q
第一种可以认为是一种广义的模式匹配,目前大模型的水平处于这一层级。" p! A. ]- E+ c' _( ^3 {' e
如果大模型能够做到第二种,那就应该认为它有一定程度的演绎推理能力。# w. v1 |& ^8 _) U
如果大模型能做到第三种,那它就已经具备了真正的演绎推理能力。
作者: 孟词宗    时间: 7 天前
唐家山 发表于 2024-10-19 09:02) ^) U7 Q8 y5 Y; K
推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在完成证明的过程中也分三种情况。第一 ...
% ]2 V$ ~: t3 A5 D6 ~, t
yanei 刚才问: 有没有回答AA的 ?
1 W$ y/ c# B: a3 i2 a
6 e( c4 v8 v: y6 ^8 n! |# Q* F4 w这在实验中已经考虑到的。输入 ZZ 得到 AA + ~' M+ G/ V& j% n$ x+ n

3 H( m  s4 ?# i- ^  g9 {甚至输入 ABC,得到 BCD。 输入 XYZ, 得到 YZA。还可以输入 ABCD 得到 BCDE。 输入 ABCDE,得到 BCDEF  ) v- R6 Z1 R$ u. V% x8 ~% [0 Q
2 h! C: N/ a% l
打乱顺序输入 NBC, 得到 OCD。 ! M5 ~* [9 a9 Z# c. |" L7 u
. K4 z. c' y/ q2 m
这些都是建立在只输入主贴原始规则的基础上的。+ W) z9 H2 @3 e5 }
, X2 Z& p' v( T% S) i
由此可见,在给予一定规则后,高度训练的 AI 是可以表现出类似“举一反三”的推理能力的。而这肯定不是什么模式匹配。
作者: 唐家山    时间: 7 天前
本帖最后由 唐家山 于 2024-10-19 18:51 编辑 & P: r' s' t- a/ w5 f5 l
孟词宗 发表于 2024-10-19 09:142 R: P* X+ A! v& \6 M5 G/ x' v
yanei 刚才问: 有没有回答AA的 ?
- W+ D+ ?9 s! Y$ A  P
) z2 v1 _1 e( I这在实验中已经考虑到的。输入 ZZ 得到 AA
1 O; W7 j( g7 S

* o+ E: L( y/ T5 O看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演绎推理。Z后面可能是A,也可能是大模型从其他语料处学来的公共知识。7 n2 T# y6 H/ I: t# o# M  X7 D0 j
一个认真的演绎推理至少是要考虑递归可枚举的。能否请你做一个实验,先给出自然数的生成规则,让大模型学习,然后问大模型一个很大的数字,比方说999999,然后问其后续?
$ Q8 X: _, s( I' F8 |- K5 o# Q# d7 i. }! ]% t+ h
) p, R7 m% e$ A: V) H6 N
这在实验中已经考虑到的。输入 ZZ 得到 AA
4 f) e( q1 c" K; U% }
这个有点意思了,如果输入10个Z加一个Y,输出是什么?




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2