设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1830|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 8 K) \* \' q, V) t0 B
    ( G0 L$ }' Z3 Y
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    & K' |# {  a% C
    1 H: i' O1 Q. }- j最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    5 V& @  y" _: i: v1 T$ O! U% w% z6 y  I, [- z

    ; m8 l. l! B/ V2 }1 o可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    ! a; J% b) U" X+ S0 h# U2 I. |4 d& `$ T2 A3 D
      J0 o9 P3 Z; E( @

    3 A* _1 l, a6 s4 Q: d
    6 r* R3 n, ^, y( s; a5 U% w0 g; L9 t0 J
    要么继续胡说八道。; s5 P7 P% x( x7 @  {* Y5 [
    / s5 F' [! o4 V: `- n( q& }

    ! |+ G! C0 x" I- X7 X! J$ {( M抱着试试看的态度,把同样的问题扔给了豆包和deepseek。0 B0 i5 g. B: b! E0 s# j
    ! O+ ~  z2 r; V% c* f
    deepseek速度快,结果也对,但是过程是不对的。
    2 f# d9 r# i! ?) C5 F3 s# Q9 w! o. N% @/ a4 E
    $ z" z  e7 o- k) ~' M% T
    豆包过程比较绕,但是基本正确,结果也是对的。
    8 }0 O0 k0 ~, P( F: V# ~8 t3 Q. n2 B( g" m- I  e& K
    " ~% H) h$ E9 _* }/ X6 i# u; s2 [$ x
    当然,都不如人推导的哈。
    / m; r: H. ?6 P8 z/ `; `- D
    0 C. B- ]6 d, H% v, \
    5 O  n) _. l; ^, J  f$ T过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    0 r+ C+ U5 O& u/ a' q! m
    : j6 a: q3 q+ Q4 L4 z( r# c. n/ P1 j虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    & H+ [( v" `% \: @. b
    * Z# N( x: @' V. a! W/ e  u( u( U$ u$ ~
    1 c2 z' b& @, o% O# C) H( A5 y  M
    ( q$ I5 y2 C& h" c" B* ^
    ( A1 t# H- a  f# c/ \

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. 6 W; u, g2 ^6 u9 C2 d9 ~5 j
    9 Q& E) K( O6 t& h
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3785 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。& d) s, D7 k$ D/ G% B
    % C$ N+ S6 g% Y% a. B# s
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    ! b8 f. _9 M3 U0 u" ~. D: g
    # v2 L7 I. |$ M  I, U3 a/ I即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    * P  L, V. @, s9 s, S; b$ [; B4 Q. h/ M" ]! Q/ {0 ^
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;% _% a% u3 {+ H. B* u/ H
    另外的一个笔记本我基本上只常规使用搜。
    6 Q. W  J7 f. K- S
    / a# m: e) S4 F- d# e我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    23 小时前
  • 签到天数: 2945 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:431 O7 @# C9 d7 A3 @  v; n0 B
    我没用过花钱的AI, 但是我觉得各有优缺点吧。  L* @2 f$ V5 u; l8 Y
    . B; C/ r0 v* j) D
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ! F9 Q* n! g$ V* }; A& a& W" a

    $ k3 Q  Q9 q) D7 O所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    22 小时前
  • 签到天数: 2556 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    2 j% V8 l0 U, Q9 z; S' A" l( F: ?) v7 `% i: p; j, _8 ~
    9.11和9.9哪个大# g' m8 w! i) i
    ChatGPT said:
    7 u& z2 Z! Y  j: xChatGPT
    % g6 W6 x& I& l. Y7 N1 f! g9.11 比 9.9 大。
    7 r7 h% z. O3 x3 J. q" A: L
    $ b9 b! s" K1 a/ B* U, s原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:( @5 O  e7 I- d7 G
    & F& P/ K  C3 J1 h9 k- X
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。0 C) c6 j8 a) T/ s
    由于 1 < 9,因此需要继续看下一位。/ R* [$ n4 Z( n( z' M5 @2 [
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    2 Q5 }2 B$ k/ Z# t# J" u; t因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3785 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55$ j$ ^4 X% M" ?4 ^3 ]9 D9 e
    所以到底哪个更好?

    . P7 A, Z# \6 P* _* R0 N说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-15 23:38 , Processed in 0.058304 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表