设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1125|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    % q& f* S& u/ |- F% }  ^1 G  l) [" }
    7 ?- m# H1 Z" k+ ^& I" Q遇到一个数学问题,懒得推导了。习惯性让GPT推一下。1 \* X+ U7 z: {" J

    2 T3 Z. U* p( t5 c; g/ z* D8 g7 i. B最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    0 _( z  |& }# k: C& I& A9 o1 C* W9 Q9 k' {' C) C; x2 R
    % X! [% n: B. o) I+ _8 T3 s! @; z
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    # X# i7 G2 S3 {$ P- \! H9 ~% u' R- l! l" U, X3 }8 N! k

    . ]) T" _8 U* e8 c9 x! N9 G# x( W1 f' z5 A+ f9 Q

    7 u7 n" E& |4 G. [6 W4 N+ |5 V' Y3 z
    要么继续胡说八道。5 B: }6 D% g! V6 l6 ^
    ' U3 }9 ^1 t6 Q* A: L. S
    % \% Z- G: R# q; h: C; W5 ]/ j
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    9 A) h; Q* [( G0 Z& A- a# T' `. I6 H) S* f
    deepseek速度快,结果也对,但是过程是不对的。3 f3 H' e( G8 K' \
    5 A! {% ^$ z1 u2 k
    ! s4 n' ]' k7 L! G! j8 \
    豆包过程比较绕,但是基本正确,结果也是对的。" j! C9 h( ~- |

    ' e* u/ y% F- f) H  w) U! \" I4 x5 v1 E
    + [( L  P  c8 n) R: }% L) ?当然,都不如人推导的哈。% C6 ]4 |1 }, D+ [

    . X+ G0 B# e, S' Z2 g, W/ Q: O+ x4 N% L. C$ B
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    / n. I) B3 _# g, }: W; q' }0 \4 t; y/ s: L3 d$ W
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。% J% V: }1 s6 `7 x# Q0 j0 _9 h+ X

    - }9 @; V4 j5 ^8 m* w, V1 Q
    ' s: C. M  {+ b, P) @9 Y% H/ T) H6 y/ M+ M

    ( Y. o( g/ ]0 v# f. ?, |0 ]5 A5 N8 z0 V0 f, |# U: v3 h

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    0 q( U  }& X& B9 N, l
    7 }+ B1 e  R' S5 {  e这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 天前
  • 签到天数: 3579 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。; p/ h- W: U4 m, {4 q+ O

    . m2 O6 v8 _* {3 U/ m* g6 ^! L+ l要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。* ]) H1 T2 k9 `) ~/ k* v5 i

    " {" |0 ]6 }6 D3 i1 c3 F即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    0 V4 t& p, @6 t
      j7 e0 O- \1 @3 }' B+ v4 i现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;5 \! M* O' Q  Y2 a" X- f0 y
    另外的一个笔记本我基本上只常规使用搜。
    - t7 V( }6 ^4 I9 b0 Q* Z
    - E  R7 s8 w5 e* f$ c9 V; b6 q( Q" n我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 15:49
  • 签到天数: 2733 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    : k2 Q' x4 X, r" F+ f- n# ^我没用过花钱的AI, 但是我觉得各有优缺点吧。( l$ D" {2 Q6 ^4 m

    8 J1 e, D; W/ K2 A. D; c  v要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    2 Y  N6 r4 v6 u, g$ z0 c

    $ b+ F0 j( \1 N2 L, R* i所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 05:18
  • 签到天数: 2356 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    % i, }8 H5 [2 d$ H6 @  p6 o, O5 I, r% C7 k
    9.11和9.9哪个大
      {/ U" b0 V% P$ h# i$ N0 O% r4 pChatGPT said:
    3 m  d7 C& f4 l' ^$ g0 D+ BChatGPT4 S  z9 M' {1 l! N$ e
    9.11 比 9.9 大。3 L& ]  E) |' F( g
    7 M6 j1 i/ J" h
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    % Q7 l9 I5 t) {- O( n8 ~5 x0 i. S4 {
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    : D, t) }- L+ \1 m8 w. t, w. c! \由于 1 < 9,因此需要继续看下一位。
      Q& h: z9 ?9 ^; N' \9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。. b/ x; V, Z. v1 M$ b' p9 p
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 天前
  • 签到天数: 3579 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:554 W: J0 \1 y% u8 v; M5 ?# D
    所以到底哪个更好?
    ' n3 U' n! X- ~# R3 a7 r
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-27 00:15 , Processed in 0.041052 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表