设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1720|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 6 W6 w6 U, w$ k) K! o9 y# z
    , z  Y0 R# s, E% `! z
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。6 f% E6 i+ B; K9 h
    * C' Z8 v9 m0 ]' f' D. `* \8 |
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    6 G0 _% M; ~1 s5 ~- m" @9 ]3 _( u8 q/ x+ m8 G$ d# H( O+ Q; _6 h

    / J) _2 R: g$ R, X可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解- c( t9 x  t6 S# S: E, P
    ! E1 x0 @1 W( J" [

    " o" {" X, U; \$ G
    * ?  G7 J+ m6 z, a8 N" J3 _0 n3 d( f6 J+ R2 i% s. y5 l7 |2 C

    & w& x/ p  {' D9 F9 @要么继续胡说八道。/ U0 o$ H; i/ X! A
    # S0 o" Z" ?' f: i) n9 o

    - ~; |% ]( v# L抱着试试看的态度,把同样的问题扔给了豆包和deepseek。! D  D9 {; j0 \! L

    9 r$ a% C* m( m/ N7 W& B3 Vdeepseek速度快,结果也对,但是过程是不对的。' Q. A) s% R$ `- Q

    ) a# |3 Z, E/ }0 k; A$ P" Y: b  L: [
    豆包过程比较绕,但是基本正确,结果也是对的。
    + _$ C  T" e" Y4 K* T0 f0 C/ D2 L! Q1 _; r. _! F

    7 c$ k8 ?2 Y) h. m3 j: L当然,都不如人推导的哈。' d6 Z& k- P/ s' }! Q$ J

    3 [) N, V% \! n+ v! b# c. L: @" i3 z8 E7 X7 f4 k  n
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。/ R4 `2 B9 i* D
    , T+ X2 L7 R# ^+ Z0 Y0 m
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。% l# G+ D5 w# y7 I; \) k) g- m

    ) r% D9 ?6 W+ @$ X6 T" y: R: b' v% C0 V

    1 s1 o$ `7 o2 h, A# |6 j* \" J
    , w) x$ i. d5 \3 D* U2 J( ?+ o! E; o4 y" S

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    " B' e$ z  D1 b6 U" \8 @% f
    % o) m4 ~8 R2 u  G+ Y这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。  N/ Z, L! z4 D$ b! P: X
    & m) H) r  x4 P* w
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    0 x5 I5 g. {  u( k+ z- s
    : i3 r5 w0 l- H即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ! Z, h: B% ^" i- G# E
    . X: I8 W/ o9 b! ^# v* i1 ^现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    2 A$ E8 P; `( h' e另外的一个笔记本我基本上只常规使用搜。
    ) I& U. [( a7 a$ A% Y) I) U% e3 t0 J7 B( B: t& _6 }- Y( N: H, m' P! V, v. \
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2908 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    # Q6 V* J& E1 `, N% K8 Z我没用过花钱的AI, 但是我觉得各有优缺点吧。" _; @' w& a7 X- h$ {0 y

    3 h& ~1 @( V9 n* Q要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    * O9 n7 E( [" m% o% D# h: s% o' F+ z7 S" ^& U5 s- R' U
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    13 小时前
  • 签到天数: 2521 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ; A3 E) b2 ~# A9 q; s/ i( }
    / E( V4 Q; C$ ]6 ?9.11和9.9哪个大
    7 v2 B8 c- Z: H" C$ s8 @% u( NChatGPT said:. R0 Q& z% C6 R
    ChatGPT
    6 o& u/ n4 C! K/ N/ c9.11 比 9.9 大。" |) F; j* I9 i4 W6 t9 {' I) T& v4 |

    5 Y3 v/ d3 H$ [0 Z" c! B  H原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:5 M2 I5 }& {( Q
      b0 _! m* G8 C
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    ; o  W/ F" n% Q3 ?2 a; i由于 1 < 9,因此需要继续看下一位。
    ) W! y" z; V. E+ p7 F9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    " `+ c0 K/ [, V  m1 z0 t4 w! O; m因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 3747 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    0 A6 |# s( a& f* M4 y# E$ M所以到底哪个更好?

    4 ^% a4 L+ y, Q说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-7 15:18 , Processed in 0.060860 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表