爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 前天 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 & X; c( w% u4 J* U
( y) W: k) ~4 z) z4 M. _- c. x* R
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。* s7 a6 z' e) \7 X9 O) N

& b9 s0 ~5 n$ |8 F( ]- r" J+ S最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
+ w! g' M" I; ~& [% s
8 d0 \' Q4 _* {5 x+ `
2 L3 z+ N5 {4 W$ i4 R可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
0 V9 L) S$ p0 g
2 {2 ]3 B8 t  Q$ n2 d0 Q
7 l" x* `# Z! X
: h+ m/ \0 w3 Z! _4 {' [: u% R& }  R% Q5 O% K

8 B) ~, [% P5 s7 A( u, ~6 m. k要么继续胡说八道。+ c6 x% x0 g. Q8 \& q6 B
" s/ [8 s' [9 w$ d

$ N" C9 |; n) ?  l抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
" F5 N6 N, K4 U8 l
& q; O2 W! Z  f" M, U9 e3 ]deepseek速度快,结果也对,但是过程是不对的。
+ @7 x$ \1 |, w. v7 P! n# ]% ^2 t, y: L, P! }+ O" V

  L% E- H! G9 Q! F* {# O豆包过程比较绕,但是基本正确,结果也是对的。! H/ _( m' A6 V0 f0 j) R

+ d. V  t# |5 F0 x& ]7 B% b6 Q% l( |$ T8 D1 \
当然,都不如人推导的哈。* l. g" C. @7 S' L' U3 D
2 N+ E% N* ?/ e) R- o) i

7 X  H* O; [1 d2 _过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。5 c9 h0 `  ~; H, [8 o% S
! o# ?) ?9 o. \- T: b
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
- n' ^; x9 e6 P# W5 @0 T1 |" @2 s4 S  a: U& I* a
  I9 C! D4 i$ H% f; \
' z' e* o+ p) y' c

! x' T$ F# ]$ b3 V8 l# V0 ?; h8 C+ }2 m7 E

作者: 可梦之    时间: 前天 18:52
个人推导错了 落了一个系数2.
# C/ P- V. Q$ P: \' Z( p, E' K/ f! l/ ?$ w( g
这也是我们需要AI的原因啊
作者: 马鹿    时间: 前天 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。1 g7 x$ D' Q8 Z) \: t
- _5 T2 g: L4 y; q& e3 Z
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。: S5 h, e5 a7 {- @% L0 A
* h! }2 l/ K6 x0 @/ w2 }  i
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
- J1 w0 m) z8 x7 W0 e7 h; P$ Q. o) N- ~* {" ^  G
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;- H( X) ?; d; m3 s, l
另外的一个笔记本我基本上只常规使用搜。. E: o1 u, t" e6 G2 W- F
  c  y$ M; [: L. e$ P' x
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 昨天 01:55
马鹿 发表于 2025-1-26 22:438 Z; H% T- C$ d8 J5 U8 S) h7 |. J! T. L
我没用过花钱的AI, 但是我觉得各有优缺点吧。; V( I5 u$ F4 S3 ^% b9 J( P

- h( W+ @7 w. }( U0 t. H要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

  E# [: B" h9 c$ c4 U
/ N; j0 B6 W1 u" q2 a所以到底哪个更好?
作者: 松叶牡丹    时间: 昨天 03:30
Chatgpt数学非常不行。以下是个典型例子:  D2 Q9 z9 ^4 w& I7 d* q6 P

1 n6 ?; g+ ?* w6 e8 X# M9.11和9.9哪个大1 N* b5 a9 n! |( _4 p: [0 b
ChatGPT said:
2 j$ j0 u( i4 [' B: S: ?  W! QChatGPT
% D' c, @, F1 }" f9.11 比 9.9 大。
7 f! S$ e) n8 i2 Q+ y) T. Z! X: U; }* C3 z2 i
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:* {/ s, V9 N* v0 t( {3 G$ W. c

* Y; ?7 Y: X' Z! `+ X  [2 C9.11 的小数第一位是 1,9.9 的小数第一位是 9。! S4 ]/ p3 u) ^* D$ n* c0 b: i$ Z) h
由于 1 < 9,因此需要继续看下一位。; }6 \$ m9 M4 i* b) u2 I* r
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
- J6 E/ s# {! |: O8 I$ S) E0 G因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 昨天 03:44
方恨少 发表于 2025-1-26 12:555 u: O/ m( u0 r9 h
所以到底哪个更好?
4 u9 @- f9 q) `9 z1 V) i$ _
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2