爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
9 u% a. Y) m+ P' I; M
1 I) W+ q- u* T! T遇到一个数学问题,懒得推导了。习惯性让GPT推一下。9 e2 b5 V# V# X! O% ?

: B  \; ^; z9 L/ S最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。9 j6 d) Z% _) a- V. T) V& N

; X$ U6 P# m: }* ]9 B4 N: L
$ J- Z2 [7 i# j/ {+ E4 Y! ~% G可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解: y7 a. f$ m  [1 |
6 S; t5 r0 O  ]+ {( P
$ G% U2 s. ^. C0 G: g- n

. W6 a, ]& g! S3 m; F5 G( @. Z, f. c/ o; _% M

( x5 h. N+ l3 m要么继续胡说八道。
! O3 D# j/ ~0 g, p0 Z" L+ ?" P0 q# G+ @  |& G! I  p$ l; X

; \: A3 P( Z. {# y抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
. {- l0 {! D, \' Z0 ~2 u. \0 N6 ~' Q# d
deepseek速度快,结果也对,但是过程是不对的。8 S- j! J8 H! q! ~

. W  M9 t! @, N9 \$ D& o
6 C+ H6 p& b: O7 Y. [$ C2 G! a) B3 _豆包过程比较绕,但是基本正确,结果也是对的。. u/ U) W& E* d0 Q  Z

+ i, s8 |. [2 J* t" c
4 g3 Y. D1 B# ]$ l" L& I/ e! u3 X. X当然,都不如人推导的哈。
2 z6 @1 R+ H' v0 h2 i, [# J8 }# z0 B: z' X0 O, h

5 a1 z8 p/ C& B7 T6 O3 }过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。) @3 F4 O; Q( r4 D1 ~
. {' W) ]& O; H6 ?; o  L
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。, E9 S# l. S5 s- @3 K( ^4 n

4 D& D0 v1 P- t4 `1 `2 Z3 a
6 b) f5 Y& q' Y- U8 {$ l4 ?
7 ^$ s% x  R6 N+ o2 }* }& A# s% b- @5 D+ b  e& j

: l& A7 A1 \9 E. z% Z) [* D$ p3 B8 u
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. " o8 T2 O" r1 m6 _- I& J) a. X/ x

+ p6 }' g7 K# r0 \6 e* y这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。( C5 `* k2 m/ _* |
3 ^7 e; H3 V( l) ~6 u
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
, x: y3 w% q8 J; G  m6 R. g: K0 f! _7 K3 D9 m% y
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI. v9 V' p$ l* ?( i) u3 o) P

' _3 r$ d4 u  W# v4 C- ?现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;$ a$ K) q% r- E, k1 ]: ^( ^
另外的一个笔记本我基本上只常规使用搜。
" c7 s# x* p) x6 g) e9 W" [
. X6 X# Y2 c" \4 m. ~! n" Y: W8 f我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43* |$ y1 q2 n  F& ^
我没用过花钱的AI, 但是我觉得各有优缺点吧。: g$ |! [+ j) E
) K- u  K+ X5 t: j5 J  i
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

) Z" ^5 x9 ?+ M9 w. z* K7 }+ q( U: ?' a
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
7 g; G* \+ [" ]7 U$ P% a( ~! t/ \* y9 D% j1 A
9.11和9.9哪个大) I3 K3 T2 g/ ]* F' K$ Z
ChatGPT said:
- s  u' s: s+ }# {5 ]6 R; VChatGPT
2 Y+ o& d; T( F9.11 比 9.9 大。
$ M% T* [  H2 `- U9 H, v/ P4 [' \% ?, x  h5 C. Q7 V/ v) }% D
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:4 ?( D4 v" ^0 X4 n; u& W
( j: W! c, P5 u4 d; t
9.11 的小数第一位是 1,9.9 的小数第一位是 9。, J4 t$ E0 V1 G1 p, M
由于 1 < 9,因此需要继续看下一位。7 q( U* {' e" e( [, K0 j$ M: G
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
4 ~6 l0 l- _* J* ]/ U) r因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:556 n% H  K" A! n" u
所以到底哪个更好?
7 j+ e* [$ L) M
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2