设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 250|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 昨天 17:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
      _4 I! k' X* n  B+ y! d- y0 J& J- y9 }% A# i; V2 N
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    5 C# k0 t3 ]+ {3 @+ e9 Y4 q2 [% \& u5 k3 j. K
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    2 W( p6 y/ g/ z8 R0 u: B5 D0 m2 l1 ~  N
    % y: [+ N* o9 E: ?
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    " H6 ~+ ]. L  Y' r- t
    $ a( K8 f4 E8 S, ?0 J. \  B& R9 h+ L3 P2 o6 O& X* p2 q+ o

    ' g. s4 o; _/ V6 x( E: B9 l
    4 {9 L' l! W, P; |: w, t) Q7 i* p+ e  u& T5 P
    要么继续胡说八道。* O# `8 y: W1 v, D& i/ P( x/ O
    6 `; X! Q- P- E( x; B

    ( ^" x; h7 l& C. W, m" f抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    0 I/ M' o; W( N& |" S7 F" R1 v. h. I( ~" e3 R3 w, \  T  e# d4 h
    deepseek速度快,结果也对,但是过程是不对的。4 ^: ^9 x4 i5 |/ k  j% |. e; Z

    ! b# w4 \* d2 l+ g+ L! |7 }( ^" N9 z7 P9 u: g' Q; c9 l5 K" N# m+ b
    豆包过程比较绕,但是基本正确,结果也是对的。/ f$ C* K* _, I$ c
    ' B$ r2 t* H3 J9 m& U! p4 i

    9 V7 y) e: x# r& b  p! ]! u. h当然,都不如人推导的哈。
    5 c+ `0 {) O* d+ i  k
    ( t1 K9 D; n9 i# f) B3 g2 C
    0 ~$ h. m+ j, q5 I过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    0 p5 C5 W# Z7 K4 g- N
    ! l, a6 m, `, }虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    * H% [( i) i0 P% {* b& S; f
    , {: p+ N, X' k: [3 J! I; t
    % T, V' V) }" h4 l# l3 G/ Z
    : K( i  T. n9 r9 J' f) P8 ^! M$ D1 z5 B- O) M& _% F5 z# m4 `
    7 [: ]+ P( v8 q1 I+ R9 E

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 昨天 18:52 | 只看该作者
    个人推导错了 落了一个系数2.
    2 R6 H7 s0 N5 ]7 _4 H7 q* s
    * F/ C9 w  B- [, ?  n; y* z! }6 C这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3344 天

    [LV.Master]无

    板凳
    发表于 昨天 22:43 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。* v. v0 ]# z/ W) B! P

    ; F) Z7 s! ~& Y) Q要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。$ i1 o0 t2 a- x+ D) `

    " I% x+ g6 p3 {6 Q' l即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI- ^: V+ p4 O/ {, U

    * z$ W3 G8 t5 |/ J6 d现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;) Y- [- A4 z  g* g+ P
    另外的一个笔记本我基本上只常规使用搜。
    ' @# h6 Q9 C$ g5 {  z8 Z# ~2 L, _! i! A. _
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    13 小时前
  • 签到天数: 2503 天

    [LV.Master]无

    地板
    发表于 11 小时前 | 只看该作者
    马鹿 发表于 2025-1-26 22:435 U) ~6 V* y8 W0 H' Q8 c' E: Q; X0 J8 T
    我没用过花钱的AI, 但是我觉得各有优缺点吧。+ N& j! e9 H; C

    $ ]5 B( d. D  L8 D: V* y6 s" v, n# d要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

      \& s) M5 N% M% b9 a2 o  z5 O" c2 w& l3 l  r$ I& j
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    11 小时前
  • 签到天数: 2197 天

    [LV.Master]无

    5#
    发表于 10 小时前 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:/ x5 p. a2 s9 x3 @1 A3 |! r% ^
    3 d7 N+ k) c- t& h& Z
    9.11和9.9哪个大
    ! V1 p  W  E! e. h$ [( W# fChatGPT said:0 D9 n# v# C0 |3 G) `
    ChatGPT* W+ l' d6 B. Z1 {/ F4 u* I/ h
    9.11 比 9.9 大。
    3 k# k! Q: |: [/ L& q# Q& {, x2 V1 B) ^& A
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:* v" D5 [% I- H) y6 z  w& ^5 S" a
    $ U; ?: `! i, b" ~) z! n, S
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。! g8 o& L( M( s4 r% \4 z
    由于 1 < 9,因此需要继续看下一位。
    & X* q1 s+ a  d! W, [7 f+ g9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。6 T$ C  l. B! i7 W0 O) p
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3344 天

    [LV.Master]无

    6#
    发表于 10 小时前 | 只看该作者
    方恨少 发表于 2025-1-26 12:55& D9 ^* |- o6 U. M' T5 h) }2 ]& H
    所以到底哪个更好?
    1 Q) k- F& x! x
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-1-27 13:54 , Processed in 0.038088 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表