|
本帖最后由 晨枫 于 2025-7-5 13:28 编辑 / P6 y$ b1 h) X! d2 x, t
6 n& _8 d1 I1 B' D# b# ~6 b3 ^8 _ ~4 i据说中国东北和贵州在发展数据工业,很有意思。这会成为中国的新兴经济增长点吗?
7 r9 f5 a6 D) k; G! f6 _5 y
, L. T u* T6 NAI是未来科技增长点之一,发展前景不可限量。但在可预见的将来,AI还是数据驱动型的。也就是说,从人类活动的已有数据训练的“归纳型”AI大模型为主,而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个:# b" C0 W; L6 X* U" g
6 Q, Z% V. V5 p& I1、人类活动积累了海量数据,能做到“模仿人类、有限推理”已经是非常大的突破,就可预见的将来,天花板之高目视不可见,根本不用担心触顶5 h; F6 y+ `9 O' X. N* E' E6 @
2、人们对人类推理机制并未有足够深刻的理解,模仿深入不下去,让机器推理独立于人类推理独立发展有太大的失控危险,步子不敢迈得太快' D/ w! S4 }8 w$ I: l% |
2 t9 g9 ]8 I, C+ w/ g5 E% HChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”,网络数据鱼龙混杂,还有因果混淆的问题。比如说,到底是观点带动舆论,还是舆论凝聚成观点,这个因果性不搞清楚而不分青红皂白喂进模型训练的话,训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据,他们自己根本没法AI化,但专业公司也有局限。
" d U' g, i* t' {/ e, ~
/ h4 Y( V2 z/ }专业公司对AI模型的技术细节熟悉,熟谙训练中的各种技巧,但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地,甚至邪压过正,那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉,但总是教鹦鹉脏话,鹦鹉就肯定脏话连篇,因为鹦鹉是不知道好话、脏话的,学什么就说什么。AI专业公司就是那只鹦鹉。
/ z" X- `# P' M8 w/ {9 D
& E# \& O$ C& ]7 i" Q& E, A其实没有“好数据”、“坏数据”,关键是什么数据都要标注明白这是在什么情况下得到的,然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用,因为不仅知道正常时候该是什么行为,在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上,已知异常包括产品转产、设备开停车、检修(还要分清检修类型)等等,真正需要“抓出来”提出警示的是不属于已知的意外情况,以为正常或者处在已知异常状态,实际上跑偏到不知道什么地方去了,这才是要特别注意的。意外跑偏大多是坏事,但也可能是好事。商务数据分析里,发现意外跑偏就是抓住新苗头的开始。4 A% J5 a1 D/ r+ ^# K+ {; a
7 C8 H! B- ~% c8 ?5 b0 t但专业公司的人对于具体行业数据里正常、已知异常不懂,行业里的人来做数据预处理最好,但实际上他们根本没有这个时间。这又不是他们的主业,人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。
( B! l$ {( k/ P D& o6 ]* z Y$ g8 ?
中国现在每年毕业约1000万大学生,其中理工科不知道具体比例,假设一半吧,这也是500万。现在找工作不容易,每年这500万中有100万人找不到工作的话,就是很大的社会问题。
Y2 r- H2 E, i+ T+ i3 b! B0 k
但是换一个角度,他们受过基本的理工科训练,从事数据工业的话,具体项目知识由用户公司集训2-4个星期,在很多情况下就可以胜任基本的数据分类、标注工作,然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家,这人家应该乐意配合。这样,大量的行业数据需要大量的理工科人手从事数据预处理,
8 ?, o+ C* o* I2 c$ ]" e; h8 X0 ^. N4 q( z2 P; E! s
这些理工科人手不需要太专深的专业知识,只需要对相关工业有足够的一般了解,并得到具体问题的集训提高。还要坐得住,耐得住寂寞,因为他们的工作结果是别人的开始,他们自己是看不到结果的。但这是“劳动力密集”产业,需要的初级理工科人手不是三五百、三五千、三五万,随着AI工业的发展,这可能是几十万、几百万人的大规模,而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量,中国还有海量的私域数据。由于数据安全和不得出境,这活还只有中国人干得了。当然,同样的理由,外国的私域数据中国人也接触不到。
0 L$ g! E6 `. [( J' N6 k9 @
! h5 i! k s, {; ?. E# O( O几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据,还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具,还有自然语言输入工具,但驾驭这些工具依然需要理工科人手。同样,不需要太专深的理论基础和经验,但不能是“理工盲”。( i6 l, R* w) H
b' R3 F; w; u! [, Q& B数据工业的数据集可以来自具体项目和具体公司,也可以是广泛收集的行业共享数据。有的时候,行业成员有动力共享技术和商业数据,供跨越具体业界公司的行业测评(benchmarking)公司使用。一种做法是只公布最后统计分析的结果,这样谁都可以自己和行业标杆相比较,比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司,就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司,同样抹去具体公司信息,供成员公司进行自己的分析。
1 _: ]5 w+ D9 r1 n$ ]: R$ i. Z. Z m" @7 H9 M/ @% V- |
类似的做法可供AI-数据工业借鉴。9 W5 {* |2 S B& @: z( t) l% N
% ]# n. ]/ M; f/ B' h这只是在“进”的一头。AI模型训练完毕,还需要模型测评,确保如何实际。这里,再次需要大量初级理工科人手,他们甚至可以来自数据预处理的同一批人。
7 ]" D, v9 j# [3 d6 ^' U# B+ c
" I! b, X4 ?5 a% Y6 S( @# h- K+ d对于中国来说,发展AI-数据工业还有一个好处:无所谓地理条件和自然资源,不需要多少基础设施,有电,有网,有吃,有住,就够了。传统工业陷入瓶颈的老工业城市,水电交通发展起来但还是缺乏增长点的三四线小城镇,都是适合数据工业发展的好地方。老少边穷没问题,东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心,但这只是数据仓库,存储大量“数据矿石”。数据工业好比冶炼厂、化工厂,把矿产和资源转化为中间体,供最终制成品工厂使用。
0 Z1 M. O6 h- D$ L' [
& g& [$ t9 |+ s3 {9 s) j% \数据工厂那里能吸引足够的年轻人吗?哪里都有足够的年轻人,愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业,但比排队考公不会差。
/ t! K( T! |5 V5 E$ _1 G( i' s) K* b* k: N
入门门槛不太高,不是非985、211不可,入门后还适合自己拉出来单干,客户大小公司咸宜,适合远程和网络化办公,发展天花板很高,发展潜力和速度很大,还等什么?
; m" a1 S( `, i( Y, E* O A9 Z3 E6 a& g7 Z
当然,滥竽充数是不行的,糊弄事害人害己,但认真做,这是值得重视的新赛道。 |
评分
-
查看全部评分
|