设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 239|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 昨天 17:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    6 F; P- N3 d& D: z" ]
    % K7 k. ?! q- d  v+ A遇到一个数学问题,懒得推导了。习惯性让GPT推一下。! p. ~0 N  G+ ~$ `
    + z/ D& H) o1 V1 J9 }/ G# A
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。2 U& c% D+ b) l, E1 Q' i9 Q+ O9 d

    / Q$ \& d; H. R/ k/ p- F0 k6 q
    ) W0 ^) ?3 n. y0 Q1 p9 r可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    6 y1 I9 t( e5 _6 M
    5 T( G" W( R+ x3 H# A3 j" M- i1 c  N9 X2 S% p: C
    % f0 |2 W9 W6 {- z+ _' l

    ) n7 W& T  O  ~/ A1 B, Z: P/ i8 ?- R' v( O
    要么继续胡说八道。. A8 b0 I3 ^; \& p

    ( c/ h& F& a% m: N  [  {8 t: Y8 m! _7 y% |/ E) U
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    " H* F7 a) M  T% Y6 p+ z8 b6 J4 |& z5 l
    deepseek速度快,结果也对,但是过程是不对的。' u- h. W/ F& A  e

    " P- C$ U" E% \: i2 q# P! `
    & J/ W1 P4 K9 Q/ x; {豆包过程比较绕,但是基本正确,结果也是对的。
    & X, a# e4 O( Q6 [: E. Y0 @/ T2 L2 Y% q) p6 s

    9 P8 Y, g- _5 [( @8 ~# c6 [& |当然,都不如人推导的哈。
    2 I$ o" `1 L" d5 O
    0 y' s, w  z7 D8 k; F  Y8 e2 i6 b. v3 D. u  @
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    . W/ k- ~6 v9 W3 }7 b; t1 J7 w3 k
    4 [# b7 S$ ], Y& q1 ?' w: L4 u虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。& W6 q0 ~  i& q5 S! ]; P9 o

    . Y( U  {! l( z. X* e. k+ `5 ]+ I6 H# r! n! B" `% m. M
    ; ?5 k$ C$ T3 O  l( R6 n2 r1 W$ i

    ! L0 y) q+ r( ?6 w) {9 Y9 }- w, v
    9 f! _- f- q* @; a3 L. M

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 昨天 18:52 | 只看该作者
    个人推导错了 落了一个系数2.
    ) c$ E, [' l9 A5 S, J5 s
    $ p& D! }( |$ C' M- ]这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3344 天

    [LV.Master]无

    板凳
    发表于 昨天 22:43 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。' V7 |5 q+ U3 h# {& S  ]7 s2 w
    # [+ m# e7 l5 `4 |$ v
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    # l; I5 Z% G* N$ ~6 z
    : o/ r+ r2 Z% o即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI0 U. g: D- B' g3 [
    4 @( h! r- N' T' a+ u- B4 y
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;5 k1 T* I2 e( ?( p# P& |* E
    另外的一个笔记本我基本上只常规使用搜。
    , r" {$ b: j8 M6 o5 r* f1 N5 U: b2 s1 u3 _
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    12 小时前
  • 签到天数: 2503 天

    [LV.Master]无

    地板
    发表于 10 小时前 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ) ^2 s- L; y& b* Y; }8 v我没用过花钱的AI, 但是我觉得各有优缺点吧。
    " C) X  J4 b1 e' E
    ! d, D$ f8 @3 ~5 v6 _要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    2 b$ j: M& _. V* n3 @! m: n+ u" P
    8 i1 j! K  ]# w, e
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    9 小时前
  • 签到天数: 2197 天

    [LV.Master]无

    5#
    发表于 9 小时前 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ) f% S$ }$ E3 S/ U- o* N' q+ s$ _- Q: Z+ B! \
    9.11和9.9哪个大
    2 J8 t/ `- N9 RChatGPT said:
    3 a. g1 p+ R$ j: e9 [" C) mChatGPT
    . c7 ~6 `4 W) Y5 Q1 H6 N5 H9.11 比 9.9 大。# ~" s9 S2 P) h/ U

    0 i( y1 g( b1 L# ^% k- Z4 ^原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    8 H( I/ s% f$ R! M4 V* k' f  M; J3 o4 @5 `; `$ w( e& k3 s
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。' \6 b+ }$ {8 {" T
    由于 1 < 9,因此需要继续看下一位。
    ' u2 k! i; h8 b9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。; I/ l4 ~/ n7 Y  P( h8 H) o9 Y" P! Y
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3344 天

    [LV.Master]无

    6#
    发表于 8 小时前 | 只看该作者
    方恨少 发表于 2025-1-26 12:55# s" _  B; E3 o
    所以到底哪个更好?

    ; B- J% \+ {- A& v& z- H, j$ j说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-1-27 12:33 , Processed in 0.041358 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表