爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 , j+ c# L& c) _) o! \- s
1 r2 e1 \* C% g& @! C, r
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
/ l) A3 x& v0 a
! F5 Q9 _0 S' Z% ]( H最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
0 ?* w& ?, c. v& h; \! @0 i2 H& _

# A7 L( A4 k) I! c9 G* W可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解& D5 j, ]& b' o" v

, v' l. z/ O+ N- o' O
  ?4 _0 }- D, d# i7 [) g( e/ @
$ g0 j+ a* C' S* a! d" H, M! a) n' {0 M! J6 e

$ Z2 X" C' B4 P7 ~: T/ z要么继续胡说八道。! V% l9 d2 m; J4 ?; Y3 [# [

2 ?; J0 `2 L& H4 }& v$ W$ j, F
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。, J/ \% W6 S) s! e

- `8 ]4 A7 M2 g5 Y0 X2 ?: Rdeepseek速度快,结果也对,但是过程是不对的。
: K$ y/ L2 ~4 _- k/ |; Q2 N+ p3 T
1 k2 E& I, m1 c4 |  O5 u
  `1 k0 p4 H" y6 {6 Z豆包过程比较绕,但是基本正确,结果也是对的。
8 T7 T/ Z5 i0 _" [* o  ^# n* f. K2 g6 @$ ]( x2 A8 c7 l" u& ?6 D

' o( I2 g; A7 S& {' d当然,都不如人推导的哈。
' l! u& r& |# w6 A, w  }8 n
) R2 x7 Q$ ]% J. b6 f1 g2 t5 _8 ?6 q' j" i8 x, T
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
# j5 u* s  g' b! T' @" ]  ]! q
* c) `5 E, P. F% `虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。/ _7 ?1 }, B# j, e* [' K! a
4 p- d! B$ o7 e  b% J  n
2 C+ D) o" G" ], `5 f( ~

) v& d; f- P# t" f' X
6 h, l) L- L8 z$ ^, M; B. h$ `' `& l
% A  ^* [% p5 ^- d0 X3 ~6 t" U
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
4 i4 j  ?  n( O" K  B$ h3 P# n. `# }; O+ [. r1 h; l
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
& i# O/ c; [; {9 f0 ]0 o& W6 X7 G0 ^' k2 ~
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
  h' e7 H! n& M" T0 {+ B( a! J, E9 B/ |" t: ~1 W+ T9 v% D* X
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI4 L: k; C7 D/ Z" m! p  L7 C) {

6 _4 ^% m4 a, a9 I. C现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
/ n, e4 W. h3 a( I另外的一个笔记本我基本上只常规使用搜。* z% Z* \  Z! G; H: T& {  O

6 J& S6 k+ y- U. ]* S$ ^0 I3 e9 H我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43$ [! [% Q% s+ a( p) W
我没用过花钱的AI, 但是我觉得各有优缺点吧。
" }( {- `5 u# s
6 `8 ~$ x3 d  ^要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

% B+ J3 R, m8 n" v) W# e0 m; R/ m
! {8 r  P& }7 y) d6 ~! s所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
* z% L0 K" s7 K: F% b* C) m4 S! O9 q$ u, f5 ~" \
9.11和9.9哪个大
. M; Q+ ~' M. |ChatGPT said:
  j0 f' A9 c) a4 IChatGPT2 g5 [; ^1 n6 J6 h2 c. l
9.11 比 9.9 大。. P& k0 ~7 R2 O" z, s

) l7 K4 n- _4 S原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:2 R4 H  ?3 A* w; x6 v6 j+ n7 M9 e

' ]. `1 ]1 d9 U2 f& @9.11 的小数第一位是 1,9.9 的小数第一位是 9。
- B7 T( F# A9 a7 z由于 1 < 9,因此需要继续看下一位。2 f+ e3 Q3 j5 t- A8 h1 I$ T
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
' \' ^; R; i2 W7 C因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55  [% d8 b; J+ \! G6 E
所以到底哪个更好?
( r' ]; J  V! {+ M' p" t
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2