设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1480|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 7 A& \! t) A" O  R

    ) U( ]& i4 F' d& j) a+ `4 f遇到一个数学问题,懒得推导了。习惯性让GPT推一下。5 c' B* }' V  \
    1 \* p- o7 u2 K: X' u( V' `$ i
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。' s! K* H! [! `) [4 r9 S2 y& R+ H
    7 i9 D/ F" ^. M' }4 y, a
    $ x1 Z- f) l: E
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    - v5 c) d1 y) j  x! M( a  W8 _5 M2 R/ @8 d1 H, W5 u/ R

    8 Z2 s" x4 J- j+ a+ Q( ]
    , p. X+ `! J# \$ E, C, O* o
    & r; j2 |; o8 K3 W, h7 X+ w* S$ ^& h- t; M7 h) k& L
    要么继续胡说八道。
    + m* d$ |3 q$ l  u) C
    ; E! e  T% {  k3 R+ ?* q5 r- |# V( M3 X" Y* G/ C  y1 |* |: A2 V: u
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ' V: X* `: M( B/ _
    ) S! g9 X9 t' W/ W5 xdeepseek速度快,结果也对,但是过程是不对的。
    1 `5 U" W) Y0 A7 s9 Z& d. M0 J' \9 g- o+ |1 t3 z) n
    2 y2 t/ Q" `+ {3 g
    豆包过程比较绕,但是基本正确,结果也是对的。. Y! p, @1 ~2 O4 W% L5 _
    " D* b. m7 N: ], V2 ]) q8 N
    9 E- b+ k% ^& B( h. ]
    当然,都不如人推导的哈。
    - l2 w& x, a8 v& I3 w! O" x
    0 A7 {" \' F% B% w  T7 G5 p$ h; n) b, E( {8 X
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    " V; F. ~, ~1 G/ J: S* O: j5 b+ H
    " @2 Z1 t0 U/ r+ o! R# c虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    5 Q. M, F8 l0 a& _7 T3 Q
    9 _* S- ^2 s1 k" H! ]" A2 ]8 ~* m; f3 [' k' y; D$ [- S6 I4 n* U
    5 `, |# p$ {+ g, [0 w* X: T

    2 \4 r  J7 E6 E, F' P# x9 J
    ; ?, D4 }5 S/ v4 M3 C7 Y

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ( R8 \& o0 r! N1 _/ f& i' ?
    3 [5 R- L9 X3 {0 V: R) R这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3677 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    4 t' F  u; ^7 I7 U" k0 o, C6 b% a1 z% D4 f2 }" K  I
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。" r9 b" l$ k$ ~1 c

    ( }: o9 Y+ \5 h' j& i& ?2 M- z即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    + C( _- I6 t4 m
    & M% ^4 D) h  `- a, y( B/ W现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;2 ~) R. Z2 E! E6 f: N8 ~
    另外的一个笔记本我基本上只常规使用搜。
    6 I" G5 A' S$ F9 i, q/ ^" \+ F3 g$ l
    8 t" d! K. R* [* ^% `) ?我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2838 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ' ^/ s" M. N1 g% ^我没用过花钱的AI, 但是我觉得各有优缺点吧。
    / x+ d( O  h/ Y# ?: R' m, m* U
    ; x. y7 f' G- A: Z# A/ D5 c  R) s要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ) @: v% T) b$ M8 R4 E
    - Q7 y+ Y- J' g1 ?1 _
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    7 小时前
  • 签到天数: 2456 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:5 |5 M% V3 l* d* X$ `
    / ^( E+ P" e9 m! Y+ ^
    9.11和9.9哪个大- A/ m& N1 }2 g6 G5 u
    ChatGPT said:/ Y( d# F1 S5 C
    ChatGPT
    5 K" T% u8 h- i& U9.11 比 9.9 大。
    # O0 V9 n& p6 H5 J, J" J- B/ y% f" P! n7 A# F, }
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:, L& y0 V% F8 n  c- M

    $ J6 U2 O# O3 E0 ^( D2 M9.11 的小数第一位是 1,9.9 的小数第一位是 9。" |. r4 t& Q; d+ F
    由于 1 < 9,因此需要继续看下一位。+ m$ l2 a6 d6 {
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。% o/ J! V( p  p) h% E+ i: M
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3677 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55# i5 I6 T$ z# z1 I2 o8 a4 K' m
    所以到底哪个更好?

    7 {! C/ B8 B# l7 b/ @说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-26 14:16 , Processed in 0.059867 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表