爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 * D9 O  ?; R+ m4 s8 Z! l
5 F0 K5 q0 k0 p3 W
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
3 {* y, f' J- Y# i9 q8 |) |3 f+ p
5 B, E9 v$ S+ c5 d+ ~- a# X最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。8 L1 T2 j# ^+ d0 l4 K+ N
; e; d% |2 x5 @4 o  W8 a+ d
( Z3 s) F/ _2 b: G: J' b% x; B
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
' B# R8 r  A. X5 q/ j
9 Y1 ]$ Z7 |; V6 o2 N# ~* c: z6 X

. p/ V& p9 d- t( q5 [0 u1 k8 G5 `# A8 q
- a1 t: o/ @  E$ ]6 ]! {+ S7 P: g- P; R
要么继续胡说八道。2 F# o& L' o: N+ O: q% W

" E& T2 |4 X9 i% s3 K* A
0 }) `+ J0 E6 i4 x; F6 y" A# ^6 B抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
, d  d: q# F3 k' J
4 \( R2 m! Q8 T$ N3 Fdeepseek速度快,结果也对,但是过程是不对的。( v' R: A: Z& @1 M6 \8 w3 H$ r
+ x2 f9 K: X2 G. n5 O
7 ]; q9 H; B5 c& g, C# z! @
豆包过程比较绕,但是基本正确,结果也是对的。
2 I( L* B$ z( G8 w" g* t# ?" I
8 z9 a3 c; m$ a" z
1 y/ z# c; `/ H6 k8 B当然,都不如人推导的哈。; c+ B5 i( A: \$ P% q3 ?

  {0 o+ z0 G7 _1 z/ G5 e
, x# Q8 G1 u& ?6 ?1 h过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。; u. v" `; j( q# @+ J& Q
- P2 R2 L9 A. o; y7 Y, q  ~* R% A
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
) n, m, ~' @) J+ q7 Q0 K+ k  Z0 q6 a* y  u" F4 S9 y9 `* w
* [9 @; z: E$ Y% G3 ?* D
7 w; s* x7 @; x; H- ~! P

$ W3 K2 a  h( H9 \* L8 `
. `/ Z6 v" f5 Z" U6 ^6 x' y$ |
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. ) E7 J+ z1 l/ m. G+ w# R1 u/ H7 w
0 q) \2 w, B! z( @
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。! i- c0 Q* G& E# G' J

- J. t1 j6 B& T  o要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。5 _2 D) h8 ~  L1 B8 N

' o5 y, L0 K: `; j即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI* h4 ?" d4 A$ [4 r; J9 E

) ~. W8 c+ v# T/ e4 U: L* _现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;& B. Z! W8 E0 ^& Y6 c6 X
另外的一个笔记本我基本上只常规使用搜。8 ]2 h  X9 t& T$ P" a
  e) ]/ Z+ _& Z2 ~7 h' b
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43& U) z  c: A9 [/ |# Q/ A
我没用过花钱的AI, 但是我觉得各有优缺点吧。
& K1 m: d* U3 S* i4 V# A
3 [2 |! U6 v' F$ G1 x. v要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
( c- p7 {$ C0 _2 i  ?* }8 _- i' ]- l
' \( p6 m$ A) }9 s" J/ f( W
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:) t9 \6 w0 o  O
! Z! h# F/ t6 Z1 t
9.11和9.9哪个大+ w- Z" m9 L7 X& ?4 k7 y  A
ChatGPT said:
3 N$ x' a( u9 y8 `/ W3 y0 lChatGPT3 [# v' {  V8 C8 U+ b. f
9.11 比 9.9 大。1 R, |5 k; H4 k; h# E  n  j

& N5 F# l8 E. E原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
3 C3 f* m* k$ m. Z, o- S0 o( V2 \( U! Z+ e2 ]  I% I7 q( @
9.11 的小数第一位是 1,9.9 的小数第一位是 9。4 p) m3 C, h8 S
由于 1 < 9,因此需要继续看下一位。
# o; C: H1 ?0 l: }3 J9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。4 G/ ~( y7 [( x
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
; Q! y) @' b/ |所以到底哪个更好?

, r) f/ z2 E1 |& Z. R1 A& \2 u# r! n说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2