设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1541|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    3 F( z9 I: _7 V/ c0 {7 v" Z' o
      v5 N5 n7 a- b4 r+ O遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    3 W- E" M: g6 R& W; e2 ~7 Q7 y: j3 Y; d' H. o) j* O
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。) x4 z5 D7 T. I$ S4 E8 t

    ! l  l( Y+ c; z  l( x/ W# h% y2 B. Y; y% e8 f; R2 v' A
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    0 N0 q' s8 l  Z7 F2 A+ b
    " G% `4 w) f: o6 y$ Q3 y4 Z- J7 x* P0 x9 \

    9 Z% f, g& q: Q7 @3 a% a; |# f; [1 }9 W" O0 N" z8 ~
    + g& Z" ^  c9 U; A. S
    要么继续胡说八道。3 k2 }5 I6 o7 E
    0 |7 h, {/ t& @3 y& I( C  ~: G7 [
    $ g2 o- o4 m2 O+ V/ t- {' w
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    0 y6 \5 e; F- s5 o+ V2 V( C  t! l& Q( E1 b/ @6 v# }& ^/ s! G6 y+ j" g* z3 Q
    deepseek速度快,结果也对,但是过程是不对的。
      f7 i$ u5 c: B8 i: K) W5 C  u4 L8 q; }6 ~6 m# V" K+ ^
    $ I$ k8 }( U- a6 U# u* S
    豆包过程比较绕,但是基本正确,结果也是对的。
    . H4 u9 D3 `; g) g. z- B- y; g& J+ T5 ?, m1 f7 L5 b. I

    : \- p, S! X- j3 Z0 D" ~当然,都不如人推导的哈。
    , G7 H$ `0 m. K, J& y" Z; ?) ~6 _! T+ u% y% l
    ' i8 g# m" q' B2 f/ Q+ l
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。$ J% }& b! p# I; @0 {" H
    6 H( u+ T2 d- r6 k8 e" G( |
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    0 @. d( g( l  s( w0 f+ L3 V" j
    , @) `$ x- N" L* Z7 U+ a2 o  w& G. m2 Y# K8 W- n
      k8 D3 ^8 C5 p$ o" Y$ x* O

    3 Q$ j- z- R( e; e9 b6 T% s+ F: J1 R1 y. ?1 D% U

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. 9 B6 s9 y! h5 o; s1 W

    % C4 g5 T6 [* y  j这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3697 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    2 _5 }: ]+ ^5 k9 t# H$ L
    $ H/ `/ Y; C6 K# [; g. H$ z要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    * U4 r0 t, a& |  o. Z$ v$ }
    ; M" b  Z* o7 R9 U即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI" U& |" Q. T0 m. `. l

    4 _1 j: G0 Y$ T% x现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
      v  y8 f+ s3 [  C# x另外的一个笔记本我基本上只常规使用搜。
    + D& L' l' Q( T( u
    3 I+ x2 o6 |/ ~, [8 m9 @" R我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2859 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ' o$ |# \: ]7 K. [( h我没用过花钱的AI, 但是我觉得各有优缺点吧。
    1 K" n& u$ E- p" T" N
    : D8 e& i' X3 K6 L# C( Q$ Y0 t要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
      C5 G' H* y$ p/ t1 ]! x; b8 x( M0 ]
    * a* O! [" k% a* A# }# ~- r1 b
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 09:45
  • 签到天数: 2475 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:9 G2 ^$ [. s" t& r
    ) s0 Y- R! L. {& E& E
    9.11和9.9哪个大
    + g" ~$ v, U( d% A0 ^ChatGPT said:
    ; b# R3 q5 x" P2 e- FChatGPT
      H2 ], K5 R3 @  ~% v+ s9.11 比 9.9 大。5 m  w' `! \) h9 v' ?$ I/ J# b% T

    . f. V( g$ i: S4 s原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    ' L; }/ \9 y# i) q# s8 u( C" ^$ @* O; R
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。" Z1 G. I& O' Q% T
    由于 1 < 9,因此需要继续看下一位。
    4 l' O& U7 U3 y2 I5 C- {1 F9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    0 x7 I) U- t# P* n5 K因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    12 小时前
  • 签到天数: 3697 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55# q- I* {0 h- ^
    所以到底哪个更好?
    : r" B' w* r5 I9 ^
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-16 12:38 , Processed in 0.063360 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表