爱吱声

标题: 附议xiejin77兄:大模型加海量数据只是超级刷题大师 [打印本页]

作者: 晨枫    时间: 2024-10-17 12:15
标题: 附议xiejin77兄:大模型加海量数据只是超级刷题大师
多谢xiejin77兄好文(http://www.aswetalk.net/bbs/foru ... read&tid=160739)。想了一下,有点感想,请不吝赐教。
% C2 r; c% e& Z; y& h; W3 b& P# `% A  O( x9 M3 C( J
个人认为,大模型没有奥秘,还是靠模型参数之多来更好地“捕捉”现有知识的量变,而不是产生智慧的质变。知识依然来自海量的数据,也就是人类世界的现有认知。2 [! y! D- i- j" ~
  G1 ~0 u& a- R+ R4 t2 l0 q
大模型加海量数据依然在本质上是超级刷题大师。比“查表”式的直接找答案要高级,能填补现有数据之间的空隙,但不能跳出现有数据所代表的知识的框架。在本质上,刷题能解决的,大模型最终都能解决。刷题解决不了的,大模型最终也解决不了。刷题也不是直接照搬解题,还是要判别题型不是嘛。
; _6 U0 \- u4 \- y& T0 T: _
8 S# g# e4 l& S3 o, z世界上的“题”已经够多,所以海量刷题是能刷到很恐怖的“智能水平”的。但依然只是超级刷题大师。沿着这条路走下去,不可能走出创造智慧、具有独立判断的“强人工智能”的。大模型“有创造力”的印象来自吟诗作画,但不是还有“熟读唐诗三百首,不会写诗也会诌”吗?画画也是一个意思,只是从文字介质换成图像介质。* `4 q* T4 E; C7 _4 P: \4 G

2 E6 s; `* B* E3 C% @用围棋规则自我训练是另一个问题。那是有限空间里确定解的问题,是极大规模的最优化问题。在本质上,这与“深蓝”早年打败卡斯帕罗夫相似,只是算力极大提高了,算法极大改进了。
" B' N- Z" C) o% o; n- P
# f0 ^/ D+ u' ~* r这对中美的AI大赛意味着什么呢?
* I5 X# ^& P# R  E: J  G+ V$ ?/ |9 B
AI的最终用武之地是在应用,应用型的AI的厉害来自数据,实践才出数据。
0 ]- f# ]8 }1 C
5 t2 v, g8 F) `, w# ~& w) V1 H在军事、艺术这些方面,美国有足够的实践,美国AI会很厉害,可能超过中国。必须说,中国军队打仗没有美国多,中国影视没有好莱坞能折腾,音乐、美术等也是一样。* j9 ~1 i# K# j& Q% p
& b' S/ S% i5 _4 \' {
但中国人在制造、建设、物流这些实体方面的实践更多,数据丰富得多。社交媒体和广义通信方面,抖音、微信出现在中国也不是偶然的。个人认为,这些与经济和社会相关的AI应用可能中国会领先,如果不是已经领先的话。
/ y. X4 b5 P' V  O2 v5 h# v
. X0 X0 l) d$ S' e  ^) K; |( a美国式AI训练凭借算力和算法优势,把天下所有圣贤书、垃圾书统统海灌进去,希望“良币最终压倒劣币”,也因为搞AI建模的人没有能力筛选圣贤书、垃圾书。他们需要的是“通用人工智能”,而没人是能在所有方面都成为专家的。: i7 @2 E" y7 o4 m* b% L& J2 d
# _( S6 B" |& v2 T6 o% [8 ^
中国式AI训练在算力方面吃亏,算法再厉害也输在起跑线上。但中国人有有用的专业知识积累,中国AI也聚焦专业AI,专家参加训练,所以大模型训练时只灌圣贤书,不灌垃圾书,最后在形成有用但专业AI应用方面成绩斐然。& {8 L- G% A% u) }
) Z4 e' g. i, {4 |3 n' D% a+ K
最终,算法、芯片这些都不足以决定性地改变中美AI的走势。
作者: 宝特勤    时间: 2024-10-17 20:29
回晨大牛的话。4 v, @9 Y  p& A& R7 l- y$ n
$ B/ D5 O: _8 V7 V- V: c
我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。- ~, G, v+ r% a
2 X# ~5 [. U$ j; C" l$ ^
我下面引用他们的话。我先声明我不同意他们的话。; t7 [9 j5 u) s$ ~" d7 W4 F

& e4 I2 F8 g6 Y3 V. i他们的反向信息是中文网络材料。作为唯利是图的美国商人他们对政治不感兴趣。他们这么做的理由是中文网络充满逻辑错误和事实错误。+ z0 O# ~& x$ y: p% r  g0 y
: }; M1 l2 [& t* A$ g+ @: }1 M8 X
逻辑错误和事实错误是不可避免的。但是多了不好。咱从自己做起,用事实证明他们走了弯路。
作者: 赫然    时间: 2024-10-17 23:16
宝特勤 发表于 2024-10-17 07:29
2 h, U' A) v2 U% k# H$ M7 x7 x回晨大牛的话。
/ T- q" f( R$ H
+ [8 e! ?4 w) G1 ~. ^/ e4 T3 b/ D我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。
0 m. S% m: \. k( i1 G
咋感觉你的朋友在缘木求鱼呢。
: y8 ~4 S, \8 A4 P+ {( h. N众所周知,中文网络的信息量相当小,宽度和深度都不行。这个在几年前就有广泛的讨论。过去几年某种程度上更加是倒退的。掌握中文信息最多是中国政府,第二是国内那些互联网大厂。所以,你的朋友在中文互联网上找内容,感觉完全是门外汉的做法。; w( }2 g7 S$ t  i- x

+ g0 `0 ]* W' m4 m- P9 ?这种封闭带来了信息垄断。其好处显然被美国互联网大厂也看到了。于是,过去几年里信息越来越闭塞,爬虫能去的地方也越来越少了,大量信息开始从英文互联网上消失了。这个其实成为堵塞AI后发企业的秘籍。这点上,感觉美帝在向中国学习了。
) |& s9 v, S/ Z% Q  U. G' [7 Y/ V
作者: 宝特勤    时间: 2024-10-17 23:29
赫然 发表于 2024-10-17 23:16/ o, w% D3 B1 ^( j, Q; Z& y/ R9 A1 Q2 t
咋感觉你的朋友在缘木求鱼呢。* k9 Y: r- O: Z$ ]
众所周知,中文网络的信息量相当小,宽度和深度都不行。这个在几年 ...
  \, U' u; I# L: Z
赫大说得对啊。我朋友不是在中文网上找学习的内容,而是找反面教材。和赫大的观察是一致的。
作者: 征久仁    时间: 2024-10-17 23:30
宝特勤 发表于 2024-10-17 20:29) G) `; |& [/ B, v: O. e5 f  J: j
回晨大牛的话。
8 [( X+ l8 l3 M! V* O% C1 U1 W/ W5 F" z
我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。

, T) p. @8 h( T7 o& ?, u以我大美利坚为例,Truth Social , X, Reddit和TikTok 同主流媒体的区别,让我有了一种平行时空的感觉。
2 [  b1 T, }9 X+ p8 S5 @9 c8 G6 a0 I, |/ y% R+ M
回到中国,小红书抖音快手,知乎网易豆瓣,同官媒,也肯定不在一个层面上。
. w& @) r1 L3 Q! B5 w! S- B
; ~) v6 O: y4 S. J# D1 a- T所以逻辑错误或者认知完全不一样都很正常,不宜轻易下结论。
作者: 征久仁    时间: 2024-10-17 23:32
AI在总结现有数据上先天性强于人类,但将AI用于开拓新领域必须小心求证。7 N. O1 d" Z" y% x) ^6 o

4 U2 V  ?/ t+ a1 J! \# d8 x: Z我天天用ChatGPT改邮件和论文,但我不相信ChatGPT写的论文。
作者: 晨枫    时间: 2024-10-17 23:39
征久仁 发表于 2024-10-17 09:32
% I2 H9 {. e/ y4 `' E8 p& ?  t! `AI在总结现有数据上先天性强于人类,但将AI用于开拓新领域必须小心求证。) K* H* `/ f& i3 b! M) }: e: s$ T
2 g3 W0 s/ [- L: P0 E; Y1 x
我天天用ChatGPT改邮件和论文, ...

  x( g8 }7 x# p" J7 G3 JAI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道比人类多太多了,运算速度也爆棚,要刷题,人类是不能拼得过AI的。谁要是无聊到开动AI狂写诗,乾隆都要羞愧。但事实还是一样的:乾隆不是真诗人,AI也不是真诗人。
作者: 赫然    时间: 2024-10-17 23:47
晨枫 发表于 2024-10-17 10:39, h$ v4 s: j/ U
AI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道 ...
- G8 h: @. T3 s5 \$ O/ a2 q3 n
感觉AI遇到理论瓶颈了。。。辛顿老先生害怕的超过人类的AI看来暂时还没有影子呢。
/ N& O9 ^4 a5 N+ \" ^) C3 C+ q2 l" a: C4 n. I
好在AI现在还在进步,等几年看看最后能落地什么。
作者: yanei    时间: 2024-10-18 01:24
宝特勤 发表于 2024-10-17 20:29. ], x; t8 ?% Y* D: p
回晨大牛的话。
* A" G/ w8 y$ B5 E" R; B5 j  s' a1 E
我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。
* U1 V# `) w; w/ N
行啊,他们高兴就好。再说他们软件能读得懂多少有高中大学水平的中文?
作者: dopplermaxgamil    时间: 2024-10-18 02:02
宝特勤 发表于 2024-10-17 20:292 @5 t8 S1 n, s+ s3 E& o
回晨大牛的话。
" g: s6 E( v, U! ?
& f8 J' n: J7 O6 J& e, T' K9 |7 a我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。

; S: S, u7 d$ O不知道你出于什么动机不停的阴阳攻击楼主,也许楼主在别处的罪过你?) y- `, Q, {/ C* V4 M. f, e
一个整天自诩大公司高管的ID,不停在每个楼里秀你的小肚鸡肠,说怪话,整得像个怨妇似的。) ~# C/ A3 G  Y& c4 t$ a+ i

+ Q4 ~: O0 T/ c3 D* f$ [% _' D3 ^+ N' w劝你呀,还是集中精力cosplay忙总,深度创作傻白甜的职场小作文。那才是蓝海的网络赛道呢。% L$ r3 s/ ?! M9 {' q
( B  m  l7 t3 e, v
你在西西河cosplay忙总,用力过猛,已经被扒的裤衩都不剩了。又跑到爱坛碰瓷晨枫,好不容易积累了一点人设,这么快就要败光了,何苦呢!
作者: 宝特勤    时间: 2024-10-18 02:04
yanei 发表于 2024-10-18 01:246 Z% s5 [' z; K4 _
行啊,他们高兴就好。再说他们软件能读得懂多少有高中大学水平的中文? ...
6 \, |8 |/ A- h% |
回yanei 坛友的话。他们软件有中国大学内容啊。我随便问了一下 ChatGPT.
1 E1 g; ~. [0 n7 x0 P9 Z# B! ?- p9 d7 k2 ~' m; n: s

作者: 征久仁    时间: 2024-10-18 02:38
晨枫 发表于 2024-10-17 23:39  p. f8 s+ I( S. o
AI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道 ...

. U; C5 h& L* I9 y* ^, N) ~最后一句绝杀了,太牛了
作者: 孟词宗    时间: 2024-10-18 04:13
征久仁 发表于 2024-10-18 02:388 W5 p) R$ Y2 s$ j
最后一句绝杀了,太牛了
, }3 c' _+ J6 F" L  Y) p' i
乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天一首,总量相当于《全唐诗》共四万三千多首,强烈怀疑他是带着 AI 穿越的。
7 G! W) @& P) }: |
, k, P- K3 X& A5 D* k乾隆诗作虽然总体水平不高,但也不乏上品的,毕竟量变还是会带来一点质变的。例如:
4 C$ O4 t+ q  A6 o+ J& y1 q) Z% O, b( o
谁氏园林择胜开,山环抱复水瀠洄。' U) X  X$ q3 ^: X6 L  c
川横桥喜路不断,岸转船如峰自回。
( J9 h8 q) g0 k( i, d意入敞亭趣有永,目游高阁望无埃。* I% Z. p8 ]. p
分明层叠浅深处,欲问丹青能是哉?
; y# x/ p9 Z$ u! e5 c& e
2 f% Q# R% n8 d还有这首:
  q! p" B1 V" e0 F7 u2 Q三秋别忽尔,一晌奠酸然。7 Y' s) \0 z* D6 }
追忆居中阃,深宜称孝贤。5 o# U# ]- q- Z, g$ \8 o
平生难尽述,百岁妄希延。
: }) u9 @; m" e$ U% S% e6 q8 p- o' q夏日冬之夜,远期只廿年。
* ?% o. k+ J5 A1 P1 i& m: Y" U$ @$ n
这是乾隆思念亡妻所作,平铺直叙,但情深意切。如果把赋也作为散文体的诗来看的化,乾隆的《述悲赋》也是很好的。
作者: xiejin77    时间: 2024-10-18 11:01
感谢晨大翻牌子。
7 [3 Z7 N' x0 R0 x
$ f) I( ~+ e) g: b; ]! v+ e我是金融科技从业者,大模型领域的进化不得不长时间的持续跟进,同时也不得不面对非技术背景的人的询问。甚至是有些德高望重的前辈。
% L6 v  W7 I; E! E* R& [# M; M( V) \! }5 |) A; g+ y, k
AI这个领域的发展,虽然常有一些意外,但还是跳不出唯物辩证法认识世界的基本观点。
* _6 ]. t. R) l9 u
9 n% C% l  K1 u晨大的论断,很有一点战略的味道。其实教员同志当年的实践论,矛盾论都是可以拿来理解这些现象的利器。但是国内没有这样的舆论来讲这些话。领域内的只想搞大新闻或者闷声发大财,也米有一个权威来讲讲这些战略上的东西,而用官话套话说这些又显得格格不入。
6 q8 q1 C- s' T2 U, _" d$ P! J2 e& g
所以,舆论的阵地,如果我们不占领,就会被人占领。
作者: xiejin77    时间: 2024-10-18 11:03
孟词宗 发表于 2024-10-18 04:13( n) T- L+ x. w  V8 _
乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天 ...

1 ?; c! W) N4 J3 k) }6 G孟老师可以移步诗梦小轩,看看俺的这篇解读http://www.aswetalk.net/bbs/foru ... read&tid=160605) g  e) D( g$ M" ^6 v+ c9 I

2 d! V8 Z. q* B1 C8 h作为一个长期有写近体诗习惯的入门者,俺对于AI的近体诗还是有一些体会的。
作者: 征久仁    时间: 2024-10-18 21:22
孟词宗 发表于 2024-10-18 04:13
, S' ~1 k& b# `5 s- k乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天 ...
0 L" b7 i8 @$ m7 o
很多字我不认识
作者: 潜水员    时间: 2024-10-19 00:01
做中文专家AI系统确实是个好主意。通用AI如果是基于中文互联网确实太难了,污染得太厉害,到处是海量重复和不加甄别的信息,无效甚至有害。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2