设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1150|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    5 _* }$ y; }4 k. N# E; V& x% g4 G1 m- w' ?* l; n, w& b5 V, B
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    + O4 C2 ^& I* D& t, S. c
    - r$ }7 h# o9 N8 a! u最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    6 x4 s- T0 _* u3 A& T0 `& K# A& Y! U; e6 r- S

    # w2 ]; M# M+ _% v- F! j8 A5 \可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解7 g% K/ R- R. R' z+ W
    * r, o) N4 P1 F
    / b! W1 H! D" D- W

    - L1 W. H' d7 n3 |* M+ U5 Z8 ~' e. ]; ?1 c; I3 n; ]: O) x; x
    ' ]. K+ w  u. Z+ q- Q, f
    要么继续胡说八道。
    : n3 i+ I% V( N4 E8 g4 ]/ H  t
    & c% n, j5 t) V  R/ C0 _8 X4 `) z. U" ^1 |% \
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。! |7 r+ e3 N. n8 |0 w8 ^/ U

    / M) O! k8 Q" N- Q! }8 ]deepseek速度快,结果也对,但是过程是不对的。: [# {& H9 n  Z. i3 J+ B
    * p5 a5 `: ?* P* b) X- g
    ' H8 {, R. e* q4 B7 j* v; M
    豆包过程比较绕,但是基本正确,结果也是对的。# z5 D% y: ?: y
    + v) P' b- m# c4 q$ V+ i

    8 F3 ^/ I8 b9 C  l当然,都不如人推导的哈。
    : ^- Z# N+ r( g* V2 y6 v1 S4 |) ^! w0 A1 @! D$ l
    . E: W' G2 z& v
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。* ~8 T1 T+ X% S" r5 P

    0 E$ c# a1 e2 I' ^. x虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    + m5 O# c4 i2 \" N
    ; h  I6 p/ q  i
    - |+ P) y, k( \9 [9 {9 _( A+ u* C1 e) B
    / g0 N6 A6 w" q' i
    $ E. K* \: b! L- G$ p+ L& a/ Y1 w' n

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    $ ?% }* q  H5 s) h& g
    8 a3 K( ~' `3 K+ h这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    前天 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    1 q1 F4 I$ f6 ^( y2 P
    5 j, t& u  i9 i* T+ ]* R要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    - y, u  c! H! m  W5 Z& _0 R% q1 v" q
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI+ g2 m. N4 d; U- h: @& R- z9 ^
    ' g/ r) o; Y: d, j9 Z
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;" L* T2 a( p: E+ }. v. s
    另外的一个笔记本我基本上只常规使用搜。
    2 R3 I& @4 c, r9 A+ h5 u+ i; f, |) b! z9 y) i
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2740 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:439 c3 [3 V& g/ I% {$ b& |
    我没用过花钱的AI, 但是我觉得各有优缺点吧。" y: k/ _: L% W: S

    * u7 w$ K# r9 _" P: b要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    $ Q: t( \3 Z& Y) [+ ]/ x' ?8 {9 k9 [  }+ Q! |0 M
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    19 小时前
  • 签到天数: 2365 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:5 k' F$ C& z* }2 l! F& C
    * X" i) z$ d  C5 Q
    9.11和9.9哪个大$ V9 P2 W8 u! x2 _3 n
    ChatGPT said:1 [1 K  m0 Y! l3 g- c( ~, |
    ChatGPT( x& _& _( n) C, h4 R+ K
    9.11 比 9.9 大。; ?* g0 ]3 t; p  Q  q( U
    4 \$ V# |; r. T& v$ C( N
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    9 F7 P! Z& I+ ]' _% M0 \9 ~/ @9 `0 C5 U1 w* Y; B: t! P  }& \
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    ) M+ }& K* W8 k3 t由于 1 < 9,因此需要继续看下一位。
    $ d  a. L# u& Y9 z9 F, u9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    6 ~, j2 D+ G* g因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    前天 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    $ {/ s% E, @6 F; H+ `: Q所以到底哪个更好?
    ) K( v9 l# q7 M3 m( t
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-8 20:50 , Processed in 0.031899 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表