爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
4 G) A3 O' r/ F4 a5 Q+ C
. L3 O& R4 K" w1 \遇到一个数学问题,懒得推导了。习惯性让GPT推一下。' \$ u) S& d$ n5 _3 ^, A2 s2 j2 X% e

6 u5 ]! e  ^0 }6 _$ D, M8 Y最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
! g  Q- S9 J% x- V: X) s- ]  U8 U" u

0 _! V* F; l2 L. c) Y1 y3 R可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解9 L9 l$ p' ^* P6 y
8 h2 F) l! j4 |
, p! U7 j6 Q' o; N7 U" |9 \
/ ]. U, Q7 N* \( W8 _5 {
  y" T4 N- S2 E# d- t
' |& ?3 W2 ^2 K# {8 Z$ b( @
要么继续胡说八道。6 q5 [1 Q3 Q6 J: W" y+ M
" r0 U* h) u" m) c  U

8 A4 ?6 A6 Y: `6 {抱着试试看的态度,把同样的问题扔给了豆包和deepseek。' p7 v. `5 M6 X. b; h, @
1 H. F1 U) f$ B% O2 n
deepseek速度快,结果也对,但是过程是不对的。+ l* h3 ~8 f5 E( }0 g
4 Y0 ^6 @9 G, X

4 y7 O7 o: o( \' I$ o" Y豆包过程比较绕,但是基本正确,结果也是对的。# q% z- c9 x4 ^# c6 Z6 j4 E

3 {3 ]( B  O8 G; A( y2 j. m5 G: Y8 M( }3 S& u
当然,都不如人推导的哈。
- `. w$ s: ?) x% C8 q
- d% Z; `( E- B( E6 p' N* v' _8 T
+ P  `& a0 e3 _7 J过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
, ?/ y) m- v, d; R/ `9 Q( ^* `! a# E; |: I
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
0 }7 d' t0 `! V9 @3 |$ c8 {- x4 S
8 @9 N7 E5 I( H9 _0 O, O9 S
8 U- ?- `' D, _
* K, h/ d* e6 c) l

" b# C4 c! O5 _% [. a/ b6 ?5 F
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. # H- R- X6 w* w  F2 G
2 D( ~5 L' W5 k
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。' e! U1 W  O' |' \6 @
2 ~* G2 K  I# f1 D8 W# W8 X# B
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
9 |/ K# c: o( l8 I' X7 ?6 N
, [7 W* q! ^7 R0 T3 F( w9 Z- u即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI0 ?6 t# t! |( }
3 ~4 G* S0 G. f' z& i" J; Q, }
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;4 j& \, h8 S  y
另外的一个笔记本我基本上只常规使用搜。- U$ K; u* n8 X1 t

9 ]/ b% P7 Y/ ]% L5 C我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
# r' |* Y; e1 [; H我没用过花钱的AI, 但是我觉得各有优缺点吧。
6 |! d+ C2 m) d. p, m7 ]/ b5 y$ T; O7 [! q) Z
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
8 l$ Q) T6 H7 x/ S$ ^2 ?$ g

  U( Q+ ^7 l  L  r0 w所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
0 {3 R4 n! m' @" k0 z# d+ C: v  h: Y' n* W% W$ K& g
9.11和9.9哪个大
% i! \6 k& G8 f. y( \ChatGPT said:- Z/ Q0 d6 V8 W) G/ Y
ChatGPT) z1 w3 p4 F- r
9.11 比 9.9 大。
% N8 I% T" p$ O+ s; ~& l  \; G* i, u& b% D
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:) T8 G  A3 A, `" p- \. c
1 F& w9 M4 e3 A3 ?, d9 H2 B
9.11 的小数第一位是 1,9.9 的小数第一位是 9。
/ [) t8 z* a0 P9 ]) R. w6 M* n6 s由于 1 < 9,因此需要继续看下一位。# E1 Z! F' [# X
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
, k3 h8 O+ @& e7 A, m5 O2 Z0 c因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55) u8 n( \* ^* R9 ~' E
所以到底哪个更好?

$ c5 q0 h% l' C2 M1 r; Z说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2