爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
3 ?. y& [; _" j  N% v0 ?  X! g  H- N6 m: p: Z# X! \* H
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。/ `" e) W) D: T6 ^, ]) R# r
0 ]2 B0 b+ S6 v# Q$ W, U- a
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
' S' b* p4 Z4 `( e0 Z
7 k1 r( O+ ~, X; B8 c- s, x; |+ h! k3 _" ?
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解6 r5 T3 ~% D. w& D4 @0 z

* M, L% U( ^6 x9 w# w' k/ s9 i1 m7 d1 o$ s% x- \; d+ G# D8 U# u
) p' ]5 ]! L% A6 |3 `- l' n

% L2 z5 E" w- n% B4 H3 y' k1 d& O! G6 L. N- ~
要么继续胡说八道。0 {% I8 d; P6 {  C+ w: j
/ h- C; j1 Y' s! C: ^6 x0 ^$ j: ~

" Y% J/ g# v7 Y7 I抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
  A+ g4 \0 r4 Z/ q/ C
, H1 ^: F6 K3 M1 s1 @& B7 ^! N7 x6 N! |deepseek速度快,结果也对,但是过程是不对的。9 ~0 B5 n5 c& D1 ~" M3 ^
# V' \8 j; k5 z
' S5 p' s  L. p- h
豆包过程比较绕,但是基本正确,结果也是对的。# w( `( T/ I( @$ P9 s* \
, r+ c( S9 p! h. S6 A

' N- F/ e/ u+ L$ t/ M) `当然,都不如人推导的哈。% p! m8 L) U+ e5 i4 k

7 D. ^. r% P# Q- j& g4 H# @0 p; e8 \
6 `  N, Y8 @0 Q" ~过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
8 G5 ^; P  d9 G6 |5 O; d
, I2 S7 B0 D& W7 W2 `" m虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。4 Z: C' |& r/ H4 X
, ~5 {& h3 S2 P, Z% m
9 ?5 Y$ ]1 s) u* a
. P/ N  E8 z, F' t  G

5 o5 O% L% ]' P% F' z& y/ c! {( b) u, q, ]! q. A5 c

作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 6 y; w$ o& L2 L2 N. s+ k8 M
+ e* |  }4 m* w: t7 ]9 b
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。1 x- k- W3 s+ u2 ]2 A" Y3 ]. A

* m) a# q) c8 f9 G+ O& H; |要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。2 m3 g' g7 _" K  Y+ D

" q, G7 }/ I. s; U! E$ o# X即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI# {. [1 T/ V1 H% R
$ G4 o9 x9 x- D( r; I
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;2 j. h* m4 Y9 F  x% G8 n! Q, k
另外的一个笔记本我基本上只常规使用搜。0 Q8 q0 s& {1 Q2 W. b4 b
: G' e0 o3 \. Q) T
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
8 X2 T% @# _1 D, F( _我没用过花钱的AI, 但是我觉得各有优缺点吧。
: c) k8 y6 G% r" ?) e+ x& |$ s5 {5 X- l: Z
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
/ k2 d& U/ r* Q2 D. T2 z
7 p' l) l8 w7 g+ @$ r
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
8 Z* B. Q+ J5 t& |& `  r8 m  u
8 H" d3 W, [% w9.11和9.9哪个大. D4 B2 k& o4 R4 y! x+ ^
ChatGPT said:( q/ X5 \7 d% y8 T+ _% ~2 K
ChatGPT
! ^0 V0 {5 D3 F% T# Y+ \& s# L9.11 比 9.9 大。
; o# D. M6 Y% W4 }2 X) b) @0 J+ Q* c; k
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:6 A( x" X5 W9 ~; A/ q3 t" X
! L7 J1 J/ V& i. e$ P
9.11 的小数第一位是 1,9.9 的小数第一位是 9。) U! v; t4 s1 i' ?6 ~+ Y
由于 1 < 9,因此需要继续看下一位。
% `! U- l; l& l2 {( W9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
3 X, r7 Q6 B- h$ w, Z, U因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55/ i  S; g: n8 l/ D) V
所以到底哪个更好?

. T0 L# z1 u! u4 H. B: F7 b说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2