设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1990|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    8 z: b/ V4 v2 a0 N4 X1 z2 q) I" d/ T7 B1 D1 z
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。0 x3 U' l% e5 V. E8 f* x

      Z6 o& e' S3 H1 ]% e/ w5 `9 T- D* |最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。4 L% v1 p1 S( n; Z# G& x
    ) }) t7 d3 e/ m# Q- v9 A5 h

    ' f$ @/ m, A2 e可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    5 T2 E( C  e: B% O% l' c: |( c0 J3 I0 F( l# ~
    # H# C, Y' }; S5 b* b. ?
    / w( M& T  ?$ J4 s* p% g

    4 V9 L0 G/ y  q! n0 _+ z
    6 v  n8 X) x1 ]要么继续胡说八道。9 n6 w3 J3 I' B$ t2 y
    0 U  k, h6 X8 p- V/ H5 G) o
    ) @% B8 D: z! W- D  J* l8 _1 @+ _
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    3 K6 O3 X- i; _! Z
    & B8 j: ]0 m& w2 adeepseek速度快,结果也对,但是过程是不对的。
    * O3 M( A3 j! Z$ F3 N
    5 n) w  f4 o$ h: d3 {$ }6 e% ?: ?8 n% o$ s7 n1 ^$ \, B
    豆包过程比较绕,但是基本正确,结果也是对的。9 b- t9 ?& x- w) @

    6 x! K9 D0 h8 T
    ( h0 V) [8 B0 ~, n$ n+ |* H当然,都不如人推导的哈。
      r" T; ^' O0 t7 _, i$ _2 S* C0 P0 d+ I
    & u* v6 @* U! w! P6 b% P6 ^% L
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。- I2 S' R# V- x* u
    ; H- \# u. Y3 p8 w! v9 }5 x
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。' |; N6 D# L6 Q' G- ~4 k2 E

    ) }$ R" `4 z9 P3 b3 ~7 \1 |3 A( T7 C) |4 Y0 }; ~: U) P

    " i; |4 y7 }0 ?8 s. z* @4 ?& Q
    7 x# m4 @% q. `% V& P& j' x7 P$ Z% a& X

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. ' X" c) h1 v6 ?

    4 W; m4 h2 A6 {& `5 m, G这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。( k$ L, N( {! L1 F# j

    4 v- j2 d) w) u( K要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。6 y  V2 r$ i# c: F/ V
    ' w& g; u8 J+ ^* P. l2 B
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    0 B3 c, _1 c7 i% K0 J1 i3 P- h. v. `& P7 B1 t6 |) F" T9 I$ Z1 t
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;& |$ y9 I; d1 ~; Z
    另外的一个笔记本我基本上只常规使用搜。
    7 {. k: N' t5 R( o3 G% r* d, C( n
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2992 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:432 f. e4 x1 c* N
    我没用过花钱的AI, 但是我觉得各有优缺点吧。$ f/ d6 y7 S! K" [* \
    * [6 y7 s* {' Q2 t+ M9 q5 j* L
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ; K+ f8 Z* _  k1 ]% m5 S

      p; X' `7 z/ ~. v- i& Y$ O4 U所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 2593 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ( P3 I2 G$ g' @3 n  {) z2 P
    ( {1 X4 R. P; ?' t* I+ \7 k$ h9.11和9.9哪个大
    / O3 Y* ?! W. H, a7 K- E. c) jChatGPT said:
    3 x/ a% V* j( N8 S6 D  [ChatGPT
    & }" L. Y0 J* |: L. b' ?9.11 比 9.9 大。: C( W( N1 G2 P  d1 x9 Q

    : a9 ^7 ~9 K/ y' _! K1 m) S原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:, {2 a- p5 w0 @# g6 v) y$ u0 R

      a$ X* W( a4 |% \- h0 b/ {% n9.11 的小数第一位是 1,9.9 的小数第一位是 9。; E6 b( \  K+ U1 o* O
    由于 1 < 9,因此需要继续看下一位。! K( m; I; t' j; I
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。8 o) c1 U, G- S% |0 }; K* h
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3832 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    4 _4 n! G) \" Z所以到底哪个更好?
    ' _7 r/ w) n) N3 r/ [  K
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-7-1 13:17 , Processed in 0.060446 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表