设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1833|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    & Y# j, J5 x; u$ z- X
    " w6 O% y/ W+ _: @# n- {遇到一个数学问题,懒得推导了。习惯性让GPT推一下。3 s. t! O5 L8 N/ `( o& H3 G' D
    0 T+ d5 p; n2 o+ g8 ]. T$ z6 a
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。* c- a9 y6 A0 N. h) c- K
    % P1 V) I- e7 I9 V& S# `7 w% _
    . z6 Y6 Y' U! r& s2 o  n, x5 R
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解+ V, B' D" N8 L& S+ U5 V

    * E# P4 @! s1 s" \3 ~* ^8 I+ T* h& N" X, y0 d

    ( W" }5 E0 ^5 W; F: O
    ; l! A% \5 M( J' K) v6 x3 k$ D: R1 U7 I2 H/ V5 s
    要么继续胡说八道。
    1 v5 i6 U$ ~7 ]/ j3 ^8 y1 L2 t
    * r4 i* S  I- U9 ]7 C" s& k+ S3 \- }/ B
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    / G, Z  N+ T* N( G* U8 {; O  M/ X8 l8 M7 E2 c7 [6 E
    deepseek速度快,结果也对,但是过程是不对的。
    ) N5 U- w; W8 v% d2 j9 j  W
    $ R, E2 J* J2 Y  t9 _5 L3 G+ }8 L  T" A6 m
    豆包过程比较绕,但是基本正确,结果也是对的。
    $ L4 O+ D' L; E! `2 |' ^
    ) W* W" |! v! ^; Z, f6 A( F6 f0 F% S1 |
    当然,都不如人推导的哈。0 P* X5 d" l* B1 p/ q, o/ I1 V4 c) `

    $ B' A$ f$ g  n: ^) F
    8 L& g+ K  h& |: l( V4 W过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。2 [0 R0 M$ L& I+ H
    5 j5 O" W/ P" x/ {6 r
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    3 z; R5 h0 F; M; X- K( }! H8 \  O' O; m$ \; M9 P
    & d' P4 T1 i$ I

    + n  y/ ]. T. d! p! O* S2 k5 A/ D: _( A: r; s) Z  M& B* F

    6 t) a0 f: D: @% n( L, u. T) }

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. - f2 [  f! t4 B1 l5 B
    + f9 g. a4 ]/ y5 w
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3786 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。! }! a, h  P; M/ {; G1 }: P
    ' h' s0 i' L4 L; [" t3 d, H( J# ^% O
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。! |( ?( `/ [* v" \
    ' ^1 n( m; W. T6 c# s% ?
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI) q" S, c# f. {/ n  a

    2 z' W1 D7 j) g" T# y' U) }; C现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;# k. e, A. N8 C7 c) P( D
    另外的一个笔记本我基本上只常规使用搜。
    % W4 C7 l7 B) ]5 s7 E0 m. u( O
    # ^: e2 u; x* Y. P2 ?/ R我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2946 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43$ J, D; K& e2 A
    我没用过花钱的AI, 但是我觉得各有优缺点吧。, D# ^9 \* |1 D# P

    3 ?% u6 S1 s( y0 C2 z6 L要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    ) [  f4 v; U1 M# x5 f0 A, H7 v. h5 _) \3 \/ z8 j9 J% l
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 01:20
  • 签到天数: 2556 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:$ G0 L$ a1 W% e7 h9 J' P

    ' v. ~" H9 u; m' |2 g9.11和9.9哪个大% v5 b7 K) _# G. b, C/ A4 K
    ChatGPT said:
    # d8 L, K% Y$ n# w$ J% K, f0 VChatGPT; r  O6 N+ C( g, [) y6 k6 `
    9.11 比 9.9 大。9 `: q3 p. M1 d  A1 ^
    / l2 N' D7 @1 f* h% v
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    4 |" {+ I$ D/ Q5 R  f- M; b' G% Q; R- y$ o4 ~' o
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。9 a6 h/ x3 V3 f% }
    由于 1 < 9,因此需要继续看下一位。" e9 G0 ~- f9 A
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    + t2 u. y1 F& d$ a8 X1 y% }# j因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3786 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55: G; Y0 ~1 U9 O+ G) _" p. ~/ l' Q
    所以到底哪个更好?

    1 i  C& s! |3 ~说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-16 11:50 , Processed in 0.062549 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表