设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1376|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 2 c: }6 o/ v& {$ }5 O

    3 Z; b* d+ t; V7 e: ^* O) ~遇到一个数学问题,懒得推导了。习惯性让GPT推一下。( }9 w) Q/ E  o6 s' i

    8 a$ \" Y2 Y/ _% {5 E最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    4 c$ j# \4 X( H9 D
    . C" `, A+ m: L0 b7 u
    5 n" v# G& S9 P' C可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    ' \5 \% o5 l1 F+ ?% B
    1 w/ c! A- g1 f/ D
    ! M9 J* h2 s. W# U! D; `
    & s) q- q9 e' `; L5 a# w9 {; b" `
      p( [2 t" P: L" }' B9 ]  l
    4 s3 c- d; L9 R6 }! `- ]要么继续胡说八道。8 p4 O2 I4 B7 s' N+ g

    3 Z+ S; S8 [* y* \+ r
    $ o. I6 C2 ^$ q0 y抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ; b- r; o( W$ D, T2 w/ K. i8 L5 r% \  B% h' @4 n( ~/ h
    deepseek速度快,结果也对,但是过程是不对的。
      v! ?( b5 l9 P' b; E& T/ K; [( p& L3 B- S2 H7 p
    : P9 h' t0 J( z
    豆包过程比较绕,但是基本正确,结果也是对的。2 `, S: w: x* `8 _3 s. E
    & p, u/ W8 T& f3 L

    4 s& _! {6 k* w; Z" ~* d当然,都不如人推导的哈。
    # e* P; ~; F1 m4 o+ R4 n1 a0 `
    % U8 }, u: ^. }+ x: ~1 Y- V9 Q+ A8 X/ ^$ X
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    ! Q8 _* z4 n: U* }) U
    # M- d5 ~6 S4 T. b$ b虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。, C" F" {2 T+ ~  a
    8 Z2 j8 o4 ]- \  E% i3 J1 Q- q
    : h& n: u) S$ d7 u. h
    4 I% B4 h( f" i8 {

    2 ^6 M7 J# \; E4 b
    , u0 T; ]! p2 M" C, q- H

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. $ f& m& f0 [: d& w
    0 |2 W2 F7 c( `# }
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3638 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。* i) ?2 q6 X3 Y6 X! W
    2 Y$ c0 w* F- A
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。+ Z" D  H0 X  y$ Y- X
    - C3 F" Y1 D3 o! g
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI* [# X7 `5 a0 z3 i; Z! k+ X# F
    3 t$ ]7 n4 V' c' {6 b" p
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    , M2 x4 @1 r2 M5 d0 X7 B$ W另外的一个笔记本我基本上只常规使用搜。, L- Y0 j: ^0 K8 v) s

    $ w" f# p3 c2 W7 p我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2800 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
      a. l* i5 H, l4 f9 W我没用过花钱的AI, 但是我觉得各有优缺点吧。# j- n2 m% b. q9 Y$ O
    8 W3 S- w6 R9 A4 k- }
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    - O% K$ `( r; y/ v1 b2 X
    ; C( s8 H6 K" k( ^所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 2424 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:- R5 Y+ H5 P( I% {
    9 L& M9 Z8 b& X7 t- }4 i
    9.11和9.9哪个大; O) }" ^  P3 A" z: r% ?
    ChatGPT said:' i7 D# W$ i( K; i0 k5 N* }
    ChatGPT. ?8 ~  C) R$ N1 ?
    9.11 比 9.9 大。# d3 v* i5 u7 P8 }) N

    6 A1 ]- j2 D/ O3 _原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:) D( `! A4 {% r! c7 g! i$ M

    ) P$ N+ ^6 u& Q2 l( d4 C, s9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    , w8 G6 F( P# {% _$ ]4 S) ~由于 1 < 9,因此需要继续看下一位。2 a: }; D" i( e6 M" z1 Y3 X+ V
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。1 o7 _6 J5 ~+ L3 Y4 G
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3638 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:558 Y$ e8 d8 Y: B% R, W3 W1 x% d7 q
    所以到底哪个更好?

    8 z6 c2 Z: C5 V( F0 a' m( M说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-18 08:00 , Processed in 0.035596 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表