爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
, e, Y8 d. j) W1 s" g0 A6 y, O: w* K
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。. }2 i& S/ {6 o7 Z" [5 j6 \
- v" ]5 d: Q, X. [
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。9 f# @( u0 V- ~  u  {

6 d& A% n7 k; p3 \  O
% y7 B0 t) [: j, a; x, C  L, c可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
5 R& K6 e! m* ?0 Z3 O% H- A2 Q
7 \2 n' Z" f& P; Q( o8 D6 r* k! K6 j$ Q( v$ O# v& D. B! {
* c; k9 c3 c" y+ E" u4 e

( B3 g, T6 f( }( ~5 H
$ u- W! z$ N" Q% x) `2 Z3 a1 D要么继续胡说八道。" `: B2 y3 m6 s  Q9 b' e5 _% Z
, j0 z! [# ~2 u& Y9 T

* o2 d$ d$ L  w2 S/ e抱着试试看的态度,把同样的问题扔给了豆包和deepseek。; ?+ ]  Z6 _2 [% X

8 T, V$ _* h" I3 tdeepseek速度快,结果也对,但是过程是不对的。% M& T$ z# O9 n- F# D/ p9 k

* x' c/ w! u1 x9 z8 m# q% Z" ~3 _; K
豆包过程比较绕,但是基本正确,结果也是对的。
0 L% q) X0 z% H5 G8 a' V( k
% P0 K9 G& v) V" j, U7 i6 Y, F% y; r6 l# j6 a- c9 X# e4 A! U
当然,都不如人推导的哈。; N% m# J$ n2 W' R
& {$ |# E6 U+ x* I& V8 i& F
1 x9 O$ F' X* `; e" I3 t" x
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
4 i0 K* u1 e: ]" [" X8 O6 b
! S$ u, x. S( R( _7 O9 X  B; w虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
* n7 @8 U+ n2 L3 V* b' Q; x; f; h' v6 c
+ p1 b) P: U9 Q# d. k* `

7 w' [' ?' i' y. N5 H, n) G; j+ U- u

7 `( ^! a; X/ w0 i5 B; X4 g. R2 X2 K
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
1 C6 X! d" A) T# d: F8 z' x
, l, o9 ]) |) ~9 Y* ]5 C6 i这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
  a8 N. _) Q& d- p$ b; _' ^
2 C4 L# z2 ~+ b: V) B8 p' @/ t4 {要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
' G6 t9 B% e( s& s' m1 F6 S' D: o- h/ p) c1 P) D! F5 W
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
: k5 g, e: R) T) g, N. M7 R- x  u
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;. \, ~4 Z9 ?3 t: i% i' s" y
另外的一个笔记本我基本上只常规使用搜。
, P* U9 ?+ F9 U- g; |. l/ e2 j* T. x( T* C7 |" m
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
5 P  @, B3 a% j8 g我没用过花钱的AI, 但是我觉得各有优缺点吧。
6 {, D  n* v" }: y3 v& n% n8 w3 p8 B
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

% z3 O/ P# P! v' E
' [% b1 l6 ^5 |" e- B所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:, a- t" Q7 X/ q9 J" g
8 g8 Z$ C) {0 e7 E0 e. w& K
9.11和9.9哪个大
) r! y! w; s) A; U0 SChatGPT said:
0 Z( F% r; ^$ k( b# n# |" jChatGPT5 |  g6 I$ W6 @% q. I9 e" L- m8 K
9.11 比 9.9 大。/ W% @/ |( n; L! F
4 G2 E' u0 q) x7 Z
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:: ?) m/ D# y0 |; _

# U/ t( c: ~% O8 |2 S# c# e; I9.11 的小数第一位是 1,9.9 的小数第一位是 9。  |( N' g/ i. ?& ^: s! h/ O
由于 1 < 9,因此需要继续看下一位。
# F' o/ e+ L9 b) M9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
4 X( h/ L$ i/ k0 \9 z- D; z因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
5 _; a, k: `: A8 K, H' T! n" g所以到底哪个更好?
2 N( e- c2 i- F2 h$ a& J
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2