|
|
本帖最后由 晨枫 于 2026-4-10 19:44 编辑 . f E2 u) d6 u' Q0 u9 y
# @8 J7 A5 C; W! m" S2 ~4 w, C$ u谁都知道,AI会挖坑。但AI不是有意挖坑,因为AI没有那么“意”。坑了你,AI也不觉得得意或者惭愧。AI根本没有情感。但AI确实会坑你。
! N! V/ U6 ]$ {. k7 ~5 U' G" t
) o- z# C& a9 Z; a- rAI挖坑的机制并不清楚,以下只是一个猜想。
6 R& U/ |0 f0 n/ Y0 o$ H/ }$ ?4 ~6 P
哪怕是生成式AI,AI并不“发明”知识或者数据。AI的“生成”只是根据已有的知识、数据“揉和”出来的。比如说,“用印象派技法画一张慈禧太后像”,印象派技法是现有知识,尽管数据化需要很多功夫;慈禧太后的形象则有历史图片。这是人类也做得到的,在艺术上是原创,但谈不上创造发明。同样,“用印象派技法画一张杨贵妃像”,由于没有杨贵妃的画像,只能凭有限的文字描述,画出来像不像,那就天知道了,和警方根据真人描述画嫌疑人像其实一个意思。凭空捏造则本来就是AI不应该做的。
( s: U+ n, W+ U& x# X) Z' t( o# {5 x, k: o/ J, t* T
人类早就会编农历,然后根据农历,就知道大致什么时候天气会怎么样,该干什么农活了。在中国叫农历,外国也有,换一个叫法而已。埃及人的农历的最大用处就是用来预测尼罗河水泛滥的。6 `4 d C" o" b/ e9 {7 \) j$ ^
5 C0 L5 Q) d$ j这是查表法。根据经验或者观察或者计算,编制成表,使用的时候根据当前情况查表找结果。在数学上,这叫非参数方法,最大好处是不需要定义有多少参数、什么模型结构。什么样的数据集都能100%精确地使用查表法。最大的坏处是在数据点之间,需要内插。中小学里学的是线性内插,比如查表可知,输入为1的时候,输出为2,输入为2的时候,输出为3,那么,输入为1.5的时候,输出在表上没有,但“毛估估”就应该是2.5。这就是线性内插。
r8 F) L1 s: [! o r2 `+ V" L/ \! p: T9 S1 y/ }
数学上还有其他的内插方法。
- P1 `2 {: P9 J! N$ o* F& c
, J! ?- N' E7 U# C: A7 A* X/ t+ U( ]与内插相对应的是外推。如果数据集的最后两点是(10,11)和(11,12),那输入为12的时候,数据集里已经超过界限了,没有数据,但输出“毛估估”起来就“应该”为13,这就是外推,而且是线性外推。
5 W# ~+ ^1 F. j$ c# F
$ @% H i e& T" ~( @内插和外推已经不是100%精确了,因为在内插和外推的地方,原本没有数据点,内插准不准,一要靠一点运气,二要取决于数据点相对密集,中间需要内插的空隙不大。越是靠近数据点,内插越精确。外推更加“玄”,只有在接近数据集端点的地方,才有一点准头,更远就是开盲盒了。/ i* y" x C& v5 U$ l* ^8 F5 c8 y/ P" m
( u& j* p& a4 [5 ^& W" _! u
不过人类文明发展就是动态的。根据已有观察构成的数据集永远只能解决已有的问题,新问题在不断出现,需要不断解决。有些新问题是在已有问题“之间”,这需要某种内插;更多新问题在以后问题“之外”,需要某种外推。1 X) x0 V9 O( `8 Z. k; X; W
" ~2 Z2 F: K2 x: |' r L0 w单输入、单输出的数据集构成二维表格,用起来方便,内插也好理解。多个输入、多个输出的数据集就构成高维表格,看是没法看了,内插也不再直观,但道理是一样的。% n6 J' @2 B8 @8 e: \ `: a
o- `2 u2 T1 m5 A% i" m从表格法进一步,就是参数方法。也就是说,假定一个模型结构,假定一些模型参数,然后用这个模型去“套”数据集,通过模型参数的不断调整,使得模型输出与数据集尽量符合。在达到一定的精度要求后,就认为模型可以代表数据集,而模型就“自然”可以代替内插和外推,在整个参数范围内无间隙地计算输入-输出关系。
! f. \. t$ S0 N7 Y1 I, |+ C. ^2 T" H$ S: T8 q4 J( V2 _
模型就是数学公式,简单点就是线性的,如y=ax+b,复杂的就“上不封顶”了。
/ V2 C4 a: W. p* |
( U: J4 `8 {' h/ n" z' y0 ^0 _模型法的好处是紧凑。一个好的模型就那么简简单单一个公式,而且具有抽象的优点,超脱于具体的问题。牛顿的F=ma就是经典。要用表格表述,那需要对各种问题各种场景统统列表了。这是不可能的。- o$ ?6 T7 e! [% {
5 G6 ?+ Z$ m7 H q8 K
模型法的坏处是必须对问题的本质有精确、深刻的理解。模型结构必须反映现象的本质,足和履天然就珠联璧合,否则用再多的参数去“套”,总有出纰漏的一天,因为削足适履了。
- k* ?# R' M. s& v$ ]7 B3 c: I7 r
6 p& j; y# X" a! |* X$ v这些问题在AI时代之前就知道,AI其实没有改变问题的本质,只是模型结构高度复杂了。) v) j; u$ v x! q
6 @ V. s( V, Z( r+ r% }4 f) e3 M. I& ZAI在最底层就是神经元,这是sigmoid函数,呈S型。简单sigmoid函数有两个参数,增广sigmoid函数有4个参数,其他变形当然还可以有更多参数。
9 x4 i9 F' @' L8 X) X7 j
. M8 o, Y# H9 y/ S' C, Q5 K: i通过参数的调整,可以“拉长”成接近线性的函数,用于描述连续的数值变化;或者“压扁”呈接近阶跃的开关函数的样子,用于描述断续的逻辑状态。把一个个sigmoid函数并排,就是一层神经元,一层层神经元叠起来,就是一个神经元网络,这就是基本的AI模型。由于sigmoid函数可以同时模拟数值特性和逻辑特性,神经元网络可以复现非常复杂的特性。
3 N2 e6 [; I3 X f- z- {) S. G, W, @* n T2 q+ q8 o# o. p
大模型就是高度复杂的AI模型,每一层都可以有非常多的神经元,可以有非常多的层,还可以有比简单的层叠更加复杂的拓扑结构,以提供更加复杂的数据行为,并用海量参数适配高度复杂的数据集,参数数量可以从几百万个到上万亿个。这是现代大模型的基础。
* _0 o& @# m" x* w8 \6 `& |) E+ J+ H' U
4 x. o4 s( u7 a4 h2 F从“套”数据、模型拟合的角度来说,就是可以通过高度过参数化(overparameterization)避开传统的模型结构和参数选择难题,相当完美地“捕捉”几乎所有数据点。换句话说,传统拟合要是“模型形状”与“数据形状”高度符合,拟合才有意义。在此基础上,用最少的模型参数避免数值计算问题。但用神经元网络模型后,什么奇形怪状的数据集都可以拟合,而且符合度相当高,而参数数量随着算力的急剧增加和算法的高度优化,也不再是个问题。
. f% f6 }* m* N$ c! I5 \* q) \( ^5 q
问题是,神经元网络用过参数化的方式绕过模型结构问题,出来混总是要还的。还债的地方就在内插和外推的地方。由于神经元模型几乎无限的“柔性”,在数据点之间的行为高度不可测。比如说,线性内插的结果总是在两个端点之间,好比一根棍子架在两点之间。但神经元就不一定了,可以是一根纱线搭在两点之间,内插值偏离很远。由于神经元的行为(纱线形状)高度不可测,什么时候偏离还根本不知道。
" j5 A& M5 h% w8 l
7 U: {2 s N" b+ L" h. q. C+ t0 L6 H外推也是一样,线性或者一般外推是根据端点附近的趋势加以延伸,但神经元可以一过端点就突然飙升或者断崖式下降,同样没有多少预警。" x9 S* G% ~+ N
! A- U% C8 r7 i6 |6 M# C& u和“古典建模”一样,数据集很密集,内插问题就不大;避免远离边界,外推问题也较小。但这都是可遇而不可求的。
5 {8 p5 `5 m) w) Q
1 b+ L% h- @) h- }) R, ]一个办法是对“数据行为”规范化,比如把数据排成具有明显的上升、下降趋势,避免曲里拐弯。但大模型的数据集浩如烟海,除了有限的“主要数据”,这样的排序在实际上不可能。而且输入、输出关系高度复杂,对一个变量排好了,可能对另一个变量就是曲里拐弯了。最终还是只能“有什么吃什么”。5 j! C7 L5 t' _5 d0 b7 w6 B8 n, P
4 l/ o- ?6 Y; X& _: p& a简单做法是对数据点之间和端点之外的行为加以约束,比如规定一个“走廊”,不能跑到外面去,但这其实就是对模型结构化了,有违非结构化的初衷。而且模型一复杂,有那么多地方需要“划线”、“定调”,顾不过来,但遗漏就可能是坑,而且不到踩上还不知道这里有坑。. T0 k) p; D: M# i+ Z/ f4 j8 @& `
3 @7 I% G- k7 l) d% O. ?; }
大模型对于数据点上的数据相当精确,比如要问一个yes or no的问题,或者什么东西多少钱、哪国什么时候GDP多少之类的事实问题,一般比较可靠。但要是数据集里不存在这个数据点,那就要难说了。
8 W! |) e0 Z3 T! v8 b8 k; x& {* V( R `; t" p* E
好在世上大模型有很多,各家的“纱线”不同,同样的数据点之间的行为也因此而不同。' D0 } u+ p- k2 V; ]1 W" I4 w2 u" n
% l; j9 \: ~- {5 V0 ?: t/ A有人拿不同的大模型互相“拷问”,最后得出较为靠谱的结论。这个方法不错,但依然不能绝对保证。毕竟这好比有限次数的试错法,踩中了坑就能发现,没踩中还是不知道。 |
评分
-
查看全部评分
|