设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 231|回复: 3
打印 上一主题 下一主题

[科研心得] 生成式 AI 有没有推理能力?

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2024-10-18 23:36:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑 ! n- `' s9 |; d! v
5 C6 N. q  {) \+ ?: {
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理) I+ W& |1 L, I" ]( b# p
! l  X2 M6 q7 g- q$ d3 g
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
' W. k7 F5 W; f3 J. i( p
" N/ Q: Q/ h3 z4 r7 T最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。- W2 ?9 j4 t2 v

# S" L) X* b3 b: @0 ~; k) q2 a2 R7 o, Z给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
9 H" I7 F3 a0 i! S  T" X, E1 B2 c  q3 U/ q/ H; A
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:6 ]$ {& F+ d9 R- E
我:  A
: v% |& ]8 O2 e. e* L6 X8 S' J4 l- sAI:  B
) Y# R: S* S2 C# u我:  B
! T& p5 }) x; h/ T$ G3 |AI:  C
6 T5 |; B, ^: ]- `我:X% n  F$ E4 k; x  X" F
: E7 l4 M+ y1 ]' ~& O! d4 x
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。  很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
( L! p: L. ]% _. a) L
, J1 K5 }6 {+ b0 `* D6 o  |- }7 J真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
# b# V2 j8 `0 k; ~我:Z* G* P& a0 i. r! k6 `
/ R" i' G, e- u6 D3 l% V+ X
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。; l5 r# `2 I7 B' p  m) x! i
/ _0 a1 k  C7 M# g; d# u+ n3 c
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。% {8 R% V9 u6 _  ?" A* n0 L) X3 w3 t

+ Z! c$ }# |! X) q5 }" i$ B有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
# b8 o  \( [% L& Q8 Q
/ a  d; V* D" v至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:% s) Z. I* V& X* a1 m
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。/ V. [+ o, ?5 E2 `" |2 E$ Y
" Y& G& z% p& c" [: @
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。7 B8 o; X6 m! @+ U7 M
: m9 D. N  S: k
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
7 `! ~( q/ C9 p. }) e- a: T; `' q0 f8 u" j
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
) x5 d0 K. ?1 H

评分

参与人数 3爱元 +24 收起 理由
helloworld + 10
老票 + 10 涨姿势
唐家山 + 4

查看全部评分

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2768 天

    [LV.Master]无

    沙发
    发表于 2024-10-19 09:02:34 | 只看该作者
    本帖最后由 唐家山 于 2024-10-19 18:52 编辑 " L7 F, O: t& s5 L

    & ^. L) |2 d8 b推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在证明的过程中也分三种情况。第一种是直接照搬已有的证明,只在语法层进行修改,用于消解待证目标。第二种需要深入理解待证目标的语义信息,以及已有类似证明的语义信息,借鉴已有证明的构造模式,构造出符合要求的证明。第三种是还没有类似的证明,这种情况下需要从头开始,把大脑中的非形式证明,翻译成形式化的证明。& ^5 Z+ a9 T" a" P8 A& ~! h7 p2 h
    第一种可以认为是一种广义的模式匹配,目前大模型的水平处于这一层级。5 f( {$ z, w( n$ v
    如果大模型能够做到第二种,那就应该认为它有一定程度的演绎推理能力。- T3 J# e5 }7 G2 G# b5 ~$ i- R9 ^
    如果大模型能做到第三种,那它就已经具备了真正的演绎推理能力。

    评分

    参与人数 1爱元 +10 收起 理由
    helloworld + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2024-10-19 09:14:42 | 只看该作者
    唐家山 发表于 2024-10-19 09:021 k& t9 X4 v+ w6 ^; Q
    推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在完成证明的过程中也分三种情况。第一 ...

    5 W2 C  _1 h" Y; [9 @5 Byanei 刚才问: 有没有回答AA的 ?: a" o' L4 @( W8 j5 w1 S# G

    + ?3 c; Y* h3 z5 g4 h这在实验中已经考虑到的。输入 ZZ 得到 AA 4 ]4 `$ E+ n% \; R  b9 G% {
    * z, Q8 Z9 j" {) d( O
    甚至输入 ABC,得到 BCD。 输入 XYZ, 得到 YZA。还可以输入 ABCD 得到 BCDE。 输入 ABCDE,得到 BCDEF  4 w2 E+ u; c- G& p4 d; }7 N9 E2 p
    & Y) P# X! n* u& g. c8 s
    打乱顺序输入 NBC, 得到 OCD。
    % U- C- S3 O% R9 A
    5 B+ U! x0 ^5 N: M- z这些都是建立在只输入主贴原始规则的基础上的。
    1 z6 T; |3 M1 K7 H# K1 m  ~* C* y  C
    由此可见,在给予一定规则后,高度训练的 AI 是可以表现出类似“举一反三”的推理能力的。而这肯定不是什么模式匹配。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 2768 天

    [LV.Master]无

    地板
    发表于 2024-10-19 10:48:54 | 只看该作者
    本帖最后由 唐家山 于 2024-10-19 18:51 编辑 # Y9 ~* w: s! O
    孟词宗 发表于 2024-10-19 09:14! B) }* T/ X  |, b7 p2 `
    yanei 刚才问: 有没有回答AA的 ?
    8 T2 V' }. v; R# Y% |+ {9 M0 K
    ( a* o' J# R; F8 t9 ~这在实验中已经考虑到的。输入 ZZ 得到 AA

    5 |3 i: X4 |  N3 C0 A! D1 X! K8 W3 B% N; W& ~) V- e) I3 s
    看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演绎推理。Z后面可能是A,也可能是大模型从其他语料处学来的公共知识。
    ; ^! a( @; D9 R6 k  [一个认真的演绎推理至少是要考虑递归可枚举的。能否请你做一个实验,先给出自然数的生成规则,让大模型学习,然后问大模型一个很大的数字,比方说999999,然后问其后续?  [6 V. O) F4 i8 ]/ x2 R0 I
    5 G3 a3 w2 Q+ y+ e' z

    % r3 G/ B' ^& y5 ~
    这在实验中已经考虑到的。输入 ZZ 得到 AA
    * ^% D" u5 K$ k% o. v7 A1 R
    这个有点意思了,如果输入10个Z加一个Y,输出是什么?
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2024-11-23 21:06 , Processed in 0.036723 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表