设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1905|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    7 C3 j9 n- f: H  \1 F( a/ A) R7 C6 s* g) X) q: a2 I
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。3 O* F6 q, N  z8 J0 X: T. k0 C

    " N; N8 d$ {5 e( F3 d最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。7 O1 K+ b# p. m0 d9 p

    ; Q7 `0 H9 P$ z) u' n; k( R& L2 o+ G8 }
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
      j# A* I5 F! ^: J# C7 f$ _( h- P. g
    . p$ p5 j4 P( ?1 n9 k/ h. q

    " L9 J: [; @- b0 a4 O
    5 a9 w9 B3 R) J0 E: @1 N( n, `: ]3 E% @* H
    要么继续胡说八道。
    6 T2 ^- T, n, g6 Q' m1 }) E( ]6 f3 V+ A: l3 g

    " z- O* |, C' B* B/ V抱着试试看的态度,把同样的问题扔给了豆包和deepseek。* s8 E* T; ]3 o: S1 K

    ( O. r- x( e; b, I, C- ydeepseek速度快,结果也对,但是过程是不对的。, b3 Y1 E' v* [/ u* w
    % X3 ]" n8 m( B) Y
    ! N3 L' V: J$ k6 Y, c) ^5 v% b
    豆包过程比较绕,但是基本正确,结果也是对的。
    + F2 I0 j/ p) V- d$ B: z% z' Q2 ~
    " I) `& ^# R: s0 P3 T0 ]- \
    & ]& y- Q: L3 B# V1 w( k( o当然,都不如人推导的哈。- ^! [0 ?8 F3 M/ N" i
    $ R9 C9 M# A: }1 v& s$ j

    # W$ v0 ?) q1 C% j7 A" ~* v  L4 d; ^过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    6 R) F) Q  b( W  V5 \, o( }
    3 h* t' U0 ^7 z4 R3 z虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。0 R& u$ @& N1 a; A( p+ p

    , s6 g, `8 N0 ]& h
    6 l5 ^9 j1 f7 ?/ I3 {
    $ E# a! F' f* e# w( H4 m6 Y$ u. T4 {: Q) d( ^- w# z! n3 \  ^! \5 L

    * t, x7 g% X( r0 Q  {

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. * N* y) o9 h) c; z$ k. C/ C

    - g9 t% a0 v) W4 O7 n. u3 m这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3811 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
      Q. e2 ?% I. ?9 ~- G+ k! i; e  j: o1 ^
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。, Q+ J: t6 [+ G$ c' q

    0 G8 [9 b( y+ i9 l即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI: @5 t2 x/ v7 _; B2 T, G

    1 u& k$ ?( `$ F0 p& F9 H现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    0 L3 R" N1 M3 Z# V另外的一个笔记本我基本上只常规使用搜。% C$ M4 D- f; Q/ h: }
    5 S+ n. l" W) X0 x$ V; W
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2971 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    7 u- |. Q6 _  h4 K9 L0 J我没用过花钱的AI, 但是我觉得各有优缺点吧。# p/ Q( s4 F) z+ f9 A
    2 l* X' w5 W9 _, V% k
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    1 ^5 B- ]* z: q+ C! t$ T% S$ B# b% e5 o. D) n  A
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    17 小时前
  • 签到天数: 2579 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:* y% e- o# ]6 N
    7 c& B, s& R4 {4 g
    9.11和9.9哪个大
    & _3 M6 U# m6 ~8 Z) lChatGPT said:
    ( A  g* X7 X: [* A9 T# aChatGPT! O7 F% d6 C* V  B7 m! D
    9.11 比 9.9 大。* F) G; N, ?7 R, k
    1 O; B3 F/ }# y) _2 z7 K
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:/ ~- U% c7 b2 T! C% b
    * t3 |( c: i( H! }! e
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    0 l. s9 z- [) F( q/ B由于 1 < 9,因此需要继续看下一位。
    7 P. n" D% K% w: J8 Z4 r9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。- g: C. e4 Y+ m% Z* @
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3811 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    ! f( e% w4 c: h; s所以到底哪个更好?
    & T& V2 q4 |- N+ v1 s1 S" E. D$ t
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-10 18:46 , Processed in 0.071189 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表