设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1633|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 8 N- Y" G3 u9 U- H" ]% G3 S3 s
    8 d7 W4 A1 ~9 |4 |$ I
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。4 d, U( d* p: q: g
    6 X) P2 S. s. |' b/ ]
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。& N: @+ z# V4 g
    , U0 [& V( n6 [+ V/ a! Q
    6 A  ^) K7 S; v9 s/ x# s- |
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解0 e5 v* R! y8 R7 d
    ( V' J( b* }$ ~' }, `: ~7 e$ [
    0 u% Y+ E' j# j+ X5 F
    6 Y* u- K+ Y. r7 B; x7 o$ `  \. Q7 ]+ u
    # y% X( Y3 B& e& C2 f9 ?
    2 v/ b% X' w( b0 p: O
    要么继续胡说八道。
    . b9 K% Z; E+ a' m5 k9 F- }) q/ M- |6 z9 O* I) q) g0 {6 t

    * b  l- p7 R4 ~$ d抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ; [7 r, N$ y) |9 m" c, b3 B+ G# R
    deepseek速度快,结果也对,但是过程是不对的。
    8 h* `* ^' I/ U5 M2 q  N4 z2 W0 A
    . D0 y7 d9 |+ o6 k6 d3 Q' k" l
    0 _( y0 `( E# ?0 ~豆包过程比较绕,但是基本正确,结果也是对的。" b# \4 z$ h' L8 Z; w

    - b# S1 w. \  J) H5 R
      Y! w" ?3 r# ?/ N% F) m( x, j当然,都不如人推导的哈。1 |! _  w6 V+ ]6 g6 G) e

    : C5 d% m+ o" U  C. x$ U
    6 V: }" E# z- h! i7 r# a3 H: z过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    3 V: I$ B: x6 @* X
    4 ^5 f+ C( o, h5 c5 Q虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。* k5 h( X4 ?1 p/ y& b
    % m' C  `# K* M" n; M  B+ E

    5 M' O, j! f  Z0 T
    1 y9 r; z; I/ f, Z' t" X  o1 y5 G# }. H8 b6 f

    * J& ~' m* U/ s& `3 T7 O

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    0 ^9 |8 N: O/ u
    * w9 A' P. i1 B" a/ p! L3 \这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。( o" Y; l0 b- X
    , l$ D- w- I" {% s7 h/ _
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    : ]( x2 M% \; {& V2 o/ a7 I
    * h" `! @' t# k+ B即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI. g0 b% O: t  @7 D0 t8 _
    - d( |7 }  b9 q6 |! H" O
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    . X- I  {; ?8 c9 M3 |: f# F  o另外的一个笔记本我基本上只常规使用搜。! \  O. i) k0 j7 p+ _

    $ h$ _+ F2 U/ I我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    21 小时前
  • 签到天数: 2885 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    # {' o9 O$ P* u( @, u5 U+ e3 d) Z我没用过花钱的AI, 但是我觉得各有优缺点吧。
    " P1 ?. i7 H/ m5 h
    / r! I3 M5 r; L( h* |. ?* Z% H3 I% w要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    1 _0 \! u; v) H2 A% Q+ @3 h8 N* l3 A& t
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    20 小时前
  • 签到天数: 2498 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:# J- K* g5 r- x

    5 ^& ]. X& ]# h5 v1 y2 l3 t9.11和9.9哪个大
    , X8 H: @  |/ N' J! jChatGPT said:6 S/ G5 V: J& t8 J) [, n
    ChatGPT
    1 T, Y. r& a/ J. M, R, z9.11 比 9.9 大。
    : C) C! o% e; j2 K9 b# j* e+ v% G/ v$ ^
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    0 C$ e* G% H7 q: l! U8 E( r
    " A7 F7 |# F( R7 b9.11 的小数第一位是 1,9.9 的小数第一位是 9。+ }) `$ W2 ^, q% k
    由于 1 < 9,因此需要继续看下一位。
    7 n) d, H1 C( G3 D5 S( q$ G9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。. D7 ]) u, Y) c
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3724 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    4 u, A  F  t. m0 M- I所以到底哪个更好?
    & J1 Y0 d. n5 b; Q" v# [* u  w
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-15 23:38 , Processed in 0.059273 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表