设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1487|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    & h6 O$ V; N& A& _- U
    - a2 ]* k, I& J, ^" q' G( W遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    & D! ~- X, L& d$ d. X3 l( ^$ |) z) @) A# z4 i+ x8 i
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    5 c1 }* w  I0 A; [9 O# x- d& z, q
    . W3 `) `0 C# u8 E* c
    % J( |& X9 p( k; N! v% h" N可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解/ `1 t- Y9 `' A* J$ G" d) W0 \$ J
    1 R4 g/ U3 y/ ]6 {/ O7 X

    ( V  w# z8 t7 N/ X3 n2 Z
    8 r# O( k7 X! J" s& t
    4 Q; [2 t/ ]: t' K/ s- R
    , x4 q2 h3 l: G6 G% G' E要么继续胡说八道。
    3 J0 S1 c+ r: J" B8 n% m) u3 e+ R$ Q. D2 C1 @# D
    / D8 I* Y/ H* q* r, `; ?, ^; z
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    + ~9 Y" H) V1 o; w" l. Y+ f( f7 X% y
    deepseek速度快,结果也对,但是过程是不对的。1 r  P( o3 s  _1 i& W) x/ Z' z; m

    $ O1 {, F, ^* x/ I. f$ f7 b
    7 i" h4 G7 e6 \, ?豆包过程比较绕,但是基本正确,结果也是对的。) p  i* |) M( ^; u1 d# t7 V: x

    ; j. P- R) y: T" T- i! s# s
    & T9 n" y% P% Y/ Y& j8 X当然,都不如人推导的哈。8 T: ?9 }* ], u% l! G4 F
    * i% C7 ]  T6 V3 w, _

      t. Y1 {1 B; E6 ]& J8 N8 A( N过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    5 l, c* V/ p) Z. [7 g$ n( ?5 q7 m
    / J6 p5 h' B$ c3 ?# j, f虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。' Y- s9 V0 A  ^: ~5 J4 g/ U9 Z

    7 `' j9 [- P* g0 S* A
    " J2 k( u! ]7 Z/ _! K! X+ e5 `  o
    4 t# w9 K% n$ i$ e8 G' e* P) |
    6 X" [% Q9 f9 x" V/ l# q% P
    0 E: B, W* F6 p+ T

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ( I; R: f9 T# c" k/ ?0 c6 @
    , `* |1 F; H$ G# }' P4 S这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3679 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。% T. ^6 ]: j! h) ]" ?

    5 T4 {# j0 y: O/ z要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。" r8 D1 ^$ k) K4 b* F1 Z" F

    # o, m6 D0 i" I即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ' W! h: R  ^$ I9 S( m, t# z, P" ~" X# H7 ]
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;, V" f( E1 N) N4 e/ `7 G
    另外的一个笔记本我基本上只常规使用搜。
    $ x0 z, {% G1 f7 V! |0 G, c8 Z. s% ?. C% S, @& b- z+ o1 q0 k! @' E
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2840 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43/ U1 d9 a5 h2 ~% P# o
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ( W: G# O/ [! V: }# W
    ' C5 v6 l' S  b9 k/ \8 _+ m+ }要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    # V/ {' z5 Q  L) `( R; b( ?& F. o( E0 ~# b% |9 v- \6 R- U
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    20 小时前
  • 签到天数: 2458 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:  M0 K- s- w, M& _8 Z* a! M, R

    . W& f1 U* D2 U" X9 }! x$ Y: d9.11和9.9哪个大2 G& w/ n! j7 T: d
    ChatGPT said:) Z; O4 e0 U. X, J0 Y" U! M! I
    ChatGPT. ^. t$ P/ {: g9 L3 B9 Y* a6 U
    9.11 比 9.9 大。
    % n0 q; w8 A. j' w) f" v  S( k! W  Y$ s2 Z. ^
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:) u5 D  z, U+ K! ?3 G# K4 d

    / F: f9 D* g" @! m1 n( c! A9.11 的小数第一位是 1,9.9 的小数第一位是 9。  e5 d; u* r+ d
    由于 1 < 9,因此需要继续看下一位。
    / I* W6 m+ U# b" n9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。+ ^3 K, o( G$ [
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3679 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    7 w% x# H* }9 I; D! e8 v' t所以到底哪个更好?
    * D2 F/ I2 t2 }- S
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-28 20:01 , Processed in 0.056355 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表