爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 3 X9 ?% A0 Y+ Y, p. l6 H
- U0 z- Y  S5 ^: m4 J* q
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。2 H% c+ O) j' L1 x; }
2 L3 V/ A: |, |* I! w# t# f
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
! i( [, a* e2 m+ X3 x# V( o: D' F$ P

+ F2 P4 L8 }- h) X" z$ h( ?可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解, K) ~# @: R( c6 g0 S1 [+ x

+ E/ r' y2 S' q1 H( s
$ q# o& |6 c9 t2 y- w- c  k9 W5 I. f& _5 i; z( N
# ^. h* b5 G4 A6 U
9 q2 r  t5 D, u4 A' ^& ?
要么继续胡说八道。
7 a3 z+ D" ~1 r8 V' G7 ~( l+ j6 B9 X  u  `( X+ _8 u$ P& y$ t
! N4 V8 ]+ C! d0 O7 c
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。2 @; a& g( v6 K! C. U. x& s

" z# A& u- a4 Z$ K! R  Cdeepseek速度快,结果也对,但是过程是不对的。3 G# V" ~% B2 H+ e( z( j) p
. s1 ]9 F( {* ^( w, @1 \8 {+ i- c
9 u. }6 A% ^7 J* H5 H
豆包过程比较绕,但是基本正确,结果也是对的。
9 A: g6 ^( d4 \' O) p7 c: l" q# t: m0 [. o0 Q2 A
" ^. V) t; K. I% u
当然,都不如人推导的哈。
2 t0 k% o$ B3 i; }
0 p1 H$ z2 U8 _1 a8 U. J  Y0 [( A, n) W3 w# R% U  D. Q
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
8 y3 W/ ?8 `  h4 q7 j/ v
  ]$ F7 f) l! Z1 f+ N9 P, x虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
! `& C" S1 [' g1 B7 c4 U" q" y
' @3 Q3 U2 z% U, d
3 }+ X* D! X2 j9 P) e" o6 N& D6 u3 x* h4 k: t  ?

( @4 W6 }0 N! `+ R
+ `! ?; H4 e% G
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
; _& l; U+ A9 v7 x4 O" K5 W5 v. m8 N7 j" h7 Z) u: L9 H# z7 Y8 F
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。# f) D) s. k/ d/ w8 i3 q3 O
! m8 P$ ]3 d4 _6 q
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。, r, x" j- r/ g
$ B$ q8 c1 l) u2 j0 x. M
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
7 ^" c/ b+ j1 E4 u6 p/ C
; M. s  D4 c9 P现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;3 o, E" O( z9 p9 h$ H
另外的一个笔记本我基本上只常规使用搜。3 e6 ?1 \* O, p! ]
- A& X& }* }4 F6 ~
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:438 g1 o; w, p3 K% o0 F& ]
我没用过花钱的AI, 但是我觉得各有优缺点吧。
5 I+ _2 T3 e" Q% w2 w' K
, A& B0 W% q+ F. T要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

; b$ K4 ~& \2 b0 h
7 E- j; p5 i1 h0 h6 Q# J& T3 A所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:3 ^- w- @6 a6 ~! R( r( J* M

0 d% L* r  ~) r9.11和9.9哪个大
) m, `/ c6 [6 B3 KChatGPT said:1 v0 M$ Y+ t0 {. \+ d7 a
ChatGPT) W4 A8 l7 G( }
9.11 比 9.9 大。% {% f7 o. ~- Z  P2 S

4 W( Z! w- z+ I1 W原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:2 w; i0 o; F) E( a

, W( e! i- Y; M9.11 的小数第一位是 1,9.9 的小数第一位是 9。
% w- D" u& c: j" t由于 1 < 9,因此需要继续看下一位。
, A: Y3 C: I$ ?' [0 H0 G9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
& ?+ E5 O/ _& j因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
" L8 h9 F; ~+ R2 C3 d1 W. m. ^所以到底哪个更好?

9 N' F- d7 h5 t$ o5 O1 G  ~2 n9 N说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2