设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1776|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑   n* I' e  @" E& \( X. ^$ D8 w1 e
    ' |" r" R6 P! ~1 l8 u
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。+ N& u1 w& f, z
    9 |: J2 K7 L" Z
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    5 {0 {; T/ Z8 m& P0 v1 c$ C6 m% q
    % I/ ]& z# W7 o+ T  R# D1 O  A8 R: ^) i' J4 l9 i" R9 {. `- Q# ~
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    4 u/ n" ]. }/ o& H2 q8 _8 G6 y) k6 v5 ?" c

    6 ?9 z8 R; Z9 B6 o: U: r3 ?  E6 o! M2 v% ^# J  h
    ' H  z1 K" `1 R
    3 d4 G2 r$ K  x& b' B1 Y: G7 R
    要么继续胡说八道。9 }- L; O6 Z8 C* A3 C# l: x& w4 S9 m6 r
    " G- x9 s) N; V1 \

    , g3 T. e. Q$ j- M, n/ W2 \8 F抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    + [+ P, i/ v# f& B
    ; |3 X& r7 X. {$ q! b$ M, [1 @7 Ndeepseek速度快,结果也对,但是过程是不对的。5 B4 H' b# Z# k6 f

      K# F; y0 e+ k/ n5 E
    " ]8 d9 j+ E% h- \5 s; `3 u/ ^! g, O豆包过程比较绕,但是基本正确,结果也是对的。* f! Z  l4 Z" z

    , W$ c0 [& _. v6 E/ E0 V/ b/ g& ]% ~3 E" L: r: u" B
    当然,都不如人推导的哈。2 f5 k# ~' h8 h# ^  c& m
    8 h6 s1 T1 H3 l" X. N) m
    3 q5 u! N' A: o& A
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。7 `. N5 m. |/ @* j9 R
    ! i' }( w# ]3 Z4 o( n- Z1 g" `
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    ; \) `3 q5 B) W: N& E* I& ?
    : G6 i/ y6 H- k! z3 e$ J& _3 s8 R- E8 G; f& {- n. T# Y+ y
    ( e. D4 f1 `+ L! C) `* Q
    3 Q7 D. {0 {* X+ O+ q$ j
    + W5 R. r. G% B2 O& Q

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ' h2 E1 {) I4 |, A1 l; G! G7 s9 N2 T6 i1 c! u% H
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。8 I* E: j# ?+ [/ m

    + d5 z. i( h. a  K/ r' q要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。  m4 ^2 a% F" V* J

    4 K2 ]! @( d7 {) D即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI  b9 L* a3 h. A* t  r

    ; O9 p" V8 C' t1 h现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    % }# K" M- T9 ]: p3 x另外的一个笔记本我基本上只常规使用搜。9 J1 s5 D0 t& E" U; B( n
      J% v/ u6 \4 [: f0 R
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    21 小时前
  • 签到天数: 2929 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:431 W- x' C/ |5 ?8 ^5 J  P
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    " F1 r+ L" u0 E4 E4 @% {5 u/ l: ~* E; a* X' q
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    9 E8 B+ _: @: A# U' u
    ' Z4 Y6 o5 M9 j2 y  A% ]% r0 m
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    21 小时前
  • 签到天数: 2540 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    0 q. z+ f1 I" n4 P' n/ V2 s, _& z5 a# z. a
    9.11和9.9哪个大' ^7 F. Z% O2 ?- D: ^
    ChatGPT said:( K$ l* M* x+ a9 p: A# `
    ChatGPT* Y7 J; l2 ?: x- [, E! e
    9.11 比 9.9 大。
    6 p! t  F+ G$ o; V. b3 p9 I  i" T
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    ! |6 q+ c0 [" q
    $ |; R: o$ S1 N8 m9.11 的小数第一位是 1,9.9 的小数第一位是 9。% N& r3 {( G* q
    由于 1 < 9,因此需要继续看下一位。) a2 B# y& d( n" a8 t
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    # a% N- u. \& {  P6 L' x因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3768 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    1 X2 i; _# D$ Q所以到底哪个更好?

    9 s# G9 v7 ^# c3 J7 l说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-28 21:58 , Processed in 0.061613 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表