设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1556|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 4 n: l7 x. S1 w
    5 R' p1 l6 u% x$ S: z- Y
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    2 [2 Q9 {8 \% j8 U& B( Q
    5 ^4 j$ ^' v, E! g: ]最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。1 a: c: U0 M9 \1 J+ F
    4 O* Q3 d. s& j/ k& y

    ' c$ r1 \6 ^. V. L  s可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解% Q* t* U" ?/ O$ Q2 K# M
    ! r6 F" l5 D. o5 \& I. b, \5 C

    % k' m9 ]0 B, R2 I* I7 Q  u; `* i( J* B* x4 V
    9 c4 I- |, u' C' y6 c& D) T
    # k  T4 d/ S( R0 A3 e
    要么继续胡说八道。
    5 S1 C! G, ?1 Q( p
    - f) [' B+ |- X( w' K
    & L0 S6 \- x' t: }, t+ z抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    # L$ P9 a# o/ x! D4 a% f* k
    , P; K" O  F7 _- @deepseek速度快,结果也对,但是过程是不对的。: }4 k7 }8 s: v3 z' D
    9 J% j1 W/ u) d! [* S
    9 @/ ~4 R- L- Q; ]4 l; V. f* u
    豆包过程比较绕,但是基本正确,结果也是对的。; T: x4 ]3 W; o( O* u- s

    5 P' A; v: F0 R) B
    , |2 C5 t8 F- |当然,都不如人推导的哈。. Q3 I5 Z2 G% B8 |6 Y1 U  M
    9 `! c9 ?* o; L( S: i7 A
    ' u% |) o5 N7 Q4 |; {
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    5 a* d/ x( z: a
    " T# q' u! U  T  y7 _虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
      R$ o" b6 U. c* m, p) b9 p9 s1 V; {  U( T
    $ P$ A1 Z" {$ C% F  T) u( h4 Q

    # c3 ~/ R, ^, H  t
    : ~, B0 [2 F1 {3 w8 ]$ Q7 o) a" Y5 ~. O! d

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    * B5 K5 F& u$ O% M- o
    - C0 \! s0 t+ R5 f  `) A; J这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3702 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。8 m6 J7 m8 |( b; ~
    9 [6 M: {8 c& m
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    9 W0 i* J  N( A8 p; E9 A4 i" C$ X' H, A$ j) d% r2 a- E7 Q! e; ?
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI2 W* i; E# ?4 u, J  V

    6 G4 l* F3 c4 Q; h- j" {2 j# J现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;( ^5 _3 c+ @, w6 r
    另外的一个笔记本我基本上只常规使用搜。% K1 K6 T: I! s$ N: B1 d; X' I
      z! n& _" F; ^+ F1 W- K1 L9 M
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2864 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    5 a; p) [% l5 U; c我没用过花钱的AI, 但是我觉得各有优缺点吧。7 P9 `9 X8 C  W5 W$ B6 \' |( ]
    ! S  E/ U. q3 S- U$ O
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    5 u/ }! O# U2 P. t2 Q, x" L: g; Q2 K* z5 M, e8 @0 d8 J4 y
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    19 小时前
  • 签到天数: 2478 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:# X$ a+ C4 F1 }+ m: O2 q' a  r
    ; `- R) t) m, G2 ]4 P/ N7 h
    9.11和9.9哪个大
    % q6 q; w* c. B4 BChatGPT said:& m$ E( o  ]( L4 F" H. B& P/ Q
    ChatGPT+ x! V% N6 O$ A9 ~9 {$ f/ r
    9.11 比 9.9 大。
    . q- k) x" B; T$ D, R5 g" L# D( z
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:8 g/ Z9 M6 N) q+ l

    0 T! j( O3 n+ L/ H+ M9.11 的小数第一位是 1,9.9 的小数第一位是 9。/ m) A6 e- {6 q! @& J/ a" w" b
    由于 1 < 9,因此需要继续看下一位。
    + Q8 h& ~# |; @5 y1 _" C9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。2 r9 j. A, O5 \) v( ?  a+ b
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3702 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55: J; g( n- h, I. ^
    所以到底哪个更好?

    $ r5 i) m) o9 m: e$ R/ y( g说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-21 22:19 , Processed in 0.068420 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表