爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 4 G2 K2 m  ~: l  @. S- i

4 T$ o: i0 [8 Z% t, J* H: d7 C遇到一个数学问题,懒得推导了。习惯性让GPT推一下。0 A; `! F$ R. [' m, P7 \, U. ^

  ]7 m' e' r9 c6 Y$ V4 u4 W) h/ ~最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。& G7 X1 V% F: w% Z
6 G) o/ ?+ y3 C6 N$ q$ ^

# ~5 j2 B6 y; M, L+ e6 m  x: u可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解, D2 q4 l( j% p. s

6 F! l" \* V( E+ z
4 @1 s* |! ]" P
8 ]- _0 ^8 B2 w) ~/ V
' @3 N0 |/ _, T: X
2 X0 G9 E  f" q  ]5 k0 a0 d要么继续胡说八道。3 z. Z; D" E+ b+ j. |! N: e

  r2 }; L4 D( n3 s* G% {# k. t- d9 ?' t5 ?: I+ ~
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
2 T' ~8 H' T5 D+ G( j
. M" {0 C! j; r* q6 C, gdeepseek速度快,结果也对,但是过程是不对的。; Y4 K: [. ^# y7 L0 ^- o

+ A$ j& X! I8 D7 C( r0 @6 k7 M+ }# g
豆包过程比较绕,但是基本正确,结果也是对的。' ?( w& j' g: k* ?  L5 u0 m/ Z; j
) Z7 O* t, S% w

# J) |! _7 Z9 v! G( h! |- c5 b7 v' D当然,都不如人推导的哈。
5 d+ {& ^, A. j+ [& G! b) v9 y5 A% M* q; t" F" Z

2 Q  z4 g( M  P( R0 E; c过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。( N! B/ G0 o- C6 o8 D

( Z& Z4 L' ]' {! H: i虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。! T' h- V/ Q1 o  R: ^

# b1 U: @7 n* V" |$ ?6 D; j9 _/ m2 t5 W& u. O' A- @

/ g& g  o& r$ @: f3 b
; w' K7 ?2 a- G$ k  ]/ q. Y6 Y! O& o, r3 ]% e6 t5 G

作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 6 Y) R9 P- f! m2 ~, H
5 j1 p* ^( W7 |$ o+ p
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。0 v, [5 Q# {+ _( x" X
; f' R9 m( q' a2 @% K/ a
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
* t* O/ E" M: C! C6 r* y' `) \3 {- Z' l* [+ s+ i' j& G' o  q
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
7 i% m  m' I- x  \" f' R" c" z7 s: o! F9 y7 J+ e+ y
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;( Q: B' V% h0 n5 v1 Q( D: P
另外的一个笔记本我基本上只常规使用搜。2 T& v& d( O8 }& P3 ^

2 q2 S! f& u) W0 M3 ?! n我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43/ J" h3 [2 K& i- V# H, l
我没用过花钱的AI, 但是我觉得各有优缺点吧。
: E9 ^" E: p" D6 C
4 H& j1 _6 y' B0 Y6 }# \; B' X6 w要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

& a+ P# E, p6 p' F+ z4 p
/ q* i2 x$ _- \; L所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
" r3 L3 z3 G. d% d  W. o+ [  R" g- p; @+ I6 ]1 k5 s/ t- u
9.11和9.9哪个大# w+ J0 T& F& n9 l, X. v
ChatGPT said:# t& u! b1 |) }# ~" C2 I9 R2 P+ b
ChatGPT
- V- ?. W8 [$ |5 ]% i9.11 比 9.9 大。
9 p$ f# }; X5 B/ l1 }; P& _6 l4 m% L/ s( T  W
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
( p0 U0 k8 ~# C! w$ r) L2 ]; L/ x' M
9.11 的小数第一位是 1,9.9 的小数第一位是 9。  @( ]  j' h& ?4 @
由于 1 < 9,因此需要继续看下一位。
3 d( `. W1 g* z+ z1 j! y9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。% i/ }) z+ t' R9 D3 G1 |& }
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
6 R) U. Y) y; s) i* W% |所以到底哪个更好?
% r& G0 a8 x! \; z/ j2 c
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2