设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1635|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    6 j8 @0 V, H4 D9 p  N. ]+ z) w4 _) u! e0 }$ z
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。* W% c, `5 ~+ b& }9 T6 g2 z
    , O3 @$ I( v0 u# m5 Q" b
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    3 `' d  P. E4 z3 [, C/ E: n0 Z1 y$ r% F1 u+ J

    ; f  \% {" R! k* }, D可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
      l0 |+ X0 o6 }5 z, Z
    5 r% w( s; W: o3 [2 a* _
    ( k1 E& D  y) R9 q# n5 I/ l4 L% ^7 W3 P
    : ]/ L1 S/ \% W  K% ~6 n( Y; g1 b

    . F0 k4 U, u1 [# _( R要么继续胡说八道。+ v( Q. K: [! ]: J8 [, V/ E4 y8 V* T

    # a& l2 H4 I0 e: n; u
    3 K1 Y8 I: k  J2 g抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    0 s9 F* o+ q& l: I3 A- o2 A7 C+ X1 |% M: l! f
    deepseek速度快,结果也对,但是过程是不对的。( \0 F' a/ w5 u$ N& w
    8 b" j1 ]' q: ^0 ^/ R# T* g
    ) q6 v( @5 f  f. {; v
    豆包过程比较绕,但是基本正确,结果也是对的。
    % }: m* a, ?" Z8 t; `( [5 J& J; e6 e, g
    2 W1 P7 p2 O; {4 v6 O
    # }+ ~; k4 B, w( b当然,都不如人推导的哈。+ _$ ]) e$ K. d+ v$ b2 T4 m6 _
    ; e# K3 C/ v4 {) o2 u8 P% T

    9 h0 Q) t* `& S& L6 y  _8 u过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。2 o7 M: R1 W8 p( b

    ' t' i: R9 T" ^! B3 {) a虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    4 U& N9 R( R' S; \/ }3 d; e
    # ?& ]: S$ Z0 ^. {
    8 k& ^( ^. t$ e
    6 u! N: }8 }0 e7 w$ H# G" r$ r, N" I0 [
    * Z7 m; D# M. v* u9 I6 k% I6 p8 k- e' R( K! E

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. 7 y$ h; T3 O3 H0 v
    3 i( s0 W& ]5 N9 b8 j; X: A
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    & A/ F8 e6 I% W) O. }1 B, g9 s5 L$ c7 N8 I2 j
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。+ d. z! A* ?; V. ^! y2 t! F
    . U1 f! V( K2 s- H
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    & w$ G! h: M: t, ~0 [4 B3 m5 I+ o; [6 l6 S
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
      t+ B  M/ L% N3 I另外的一个笔记本我基本上只常规使用搜。& w3 M8 V1 _6 g1 u" O

    0 r' |% V& ?; {5 h9 Z. K我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2886 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:431 ]4 p& [, f3 E9 A7 l, l
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ! W2 e3 d$ {( e- r+ b' t- x- M, S7 I& ~% x5 q( I6 I/ _
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    3 C) E' _, e5 G0 y* A% C
    - @( ~9 Y& H) }  q5 \6 E所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    6 小时前
  • 签到天数: 2499 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:# o2 z& [, J5 k* d9 U0 D; E' P

    , m$ w- E! z# h! \0 g; W6 u' e! H0 u9.11和9.9哪个大3 D5 W, T) ^- D3 B
    ChatGPT said:. S1 M1 }/ M2 S! |
    ChatGPT+ N1 j  Y. W' N9 O( A- M
    9.11 比 9.9 大。* z7 b$ N8 V1 _/ p  J! b4 R
    5 m$ w& _* b5 K, ~0 w1 l8 z
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    : T( A1 d$ W7 `6 L/ Y! q) Y! O: F& q# T  v( c8 V
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    # y- v/ @. W! x. x' G/ T) ~$ y由于 1 < 9,因此需要继续看下一位。* s# G; ~/ @- h& ~* ^- ]
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    6 }9 j( m+ @# v/ U9 P& ]1 I+ o, M因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    + y; u3 X" ~* u5 ?7 D所以到底哪个更好?

    * X7 ~# d* _- n: Y说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-16 08:55 , Processed in 0.063398 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表