|
|
本帖最后由 晨枫 于 2025-7-5 13:28 编辑 ( V4 k5 S( N. U. W5 w6 W$ j0 x
9 W* y' U9 r$ Q' o据说中国东北和贵州在发展数据工业,很有意思。这会成为中国的新兴经济增长点吗?
/ e" e- Z5 U4 ~* N8 @4 S" C5 u2 X/ v( k
AI是未来科技增长点之一,发展前景不可限量。但在可预见的将来,AI还是数据驱动型的。也就是说,从人类活动的已有数据训练的“归纳型”AI大模型为主,而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个:
' c* K. C# I' R1 }6 \! N5 @
5 H! r, w( _' U$ l+ f0 V1、人类活动积累了海量数据,能做到“模仿人类、有限推理”已经是非常大的突破,就可预见的将来,天花板之高目视不可见,根本不用担心触顶5 M ?9 }, T8 J3 x- _# p9 y
2、人们对人类推理机制并未有足够深刻的理解,模仿深入不下去,让机器推理独立于人类推理独立发展有太大的失控危险,步子不敢迈得太快1 d" K7 u& v9 F" y: @: V* n
# i7 A+ N+ ~2 B' L) U! w1 |) m. e' sChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”,网络数据鱼龙混杂,还有因果混淆的问题。比如说,到底是观点带动舆论,还是舆论凝聚成观点,这个因果性不搞清楚而不分青红皂白喂进模型训练的话,训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据,他们自己根本没法AI化,但专业公司也有局限。4 L2 a1 M' @9 g: z3 V- w. l
& ^% z; L0 Y3 T. E5 A! m+ ~8 s& v专业公司对AI模型的技术细节熟悉,熟谙训练中的各种技巧,但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地,甚至邪压过正,那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉,但总是教鹦鹉脏话,鹦鹉就肯定脏话连篇,因为鹦鹉是不知道好话、脏话的,学什么就说什么。AI专业公司就是那只鹦鹉。+ {/ H+ p8 k* k) d6 m) ^2 n
& k, H, P( c) d c- H$ w; o, e
其实没有“好数据”、“坏数据”,关键是什么数据都要标注明白这是在什么情况下得到的,然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用,因为不仅知道正常时候该是什么行为,在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上,已知异常包括产品转产、设备开停车、检修(还要分清检修类型)等等,真正需要“抓出来”提出警示的是不属于已知的意外情况,以为正常或者处在已知异常状态,实际上跑偏到不知道什么地方去了,这才是要特别注意的。意外跑偏大多是坏事,但也可能是好事。商务数据分析里,发现意外跑偏就是抓住新苗头的开始。
* ~4 r6 Y1 M* H8 C: j
" b' x1 h5 v% m2 Y a但专业公司的人对于具体行业数据里正常、已知异常不懂,行业里的人来做数据预处理最好,但实际上他们根本没有这个时间。这又不是他们的主业,人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。
6 \2 e8 ~ {( V& o4 x
$ |' ~+ {3 v$ x% d" `中国现在每年毕业约1000万大学生,其中理工科不知道具体比例,假设一半吧,这也是500万。现在找工作不容易,每年这500万中有100万人找不到工作的话,就是很大的社会问题。
% P8 H- }1 K& l9 k# u
' D9 @( W% _2 m但是换一个角度,他们受过基本的理工科训练,从事数据工业的话,具体项目知识由用户公司集训2-4个星期,在很多情况下就可以胜任基本的数据分类、标注工作,然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家,这人家应该乐意配合。这样,大量的行业数据需要大量的理工科人手从事数据预处理,
0 E+ X) ] s6 m. I5 }) s( g& D
3 I" D. W% `9 m2 D; p这些理工科人手不需要太专深的专业知识,只需要对相关工业有足够的一般了解,并得到具体问题的集训提高。还要坐得住,耐得住寂寞,因为他们的工作结果是别人的开始,他们自己是看不到结果的。但这是“劳动力密集”产业,需要的初级理工科人手不是三五百、三五千、三五万,随着AI工业的发展,这可能是几十万、几百万人的大规模,而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量,中国还有海量的私域数据。由于数据安全和不得出境,这活还只有中国人干得了。当然,同样的理由,外国的私域数据中国人也接触不到。
3 p$ P! i. J# O8 F- I2 @( n3 j a0 S2 T7 ]
几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据,还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具,还有自然语言输入工具,但驾驭这些工具依然需要理工科人手。同样,不需要太专深的理论基础和经验,但不能是“理工盲”。) P, m2 p* C9 s. z- k
* O! s2 x3 J% F6 ^- C0 _
数据工业的数据集可以来自具体项目和具体公司,也可以是广泛收集的行业共享数据。有的时候,行业成员有动力共享技术和商业数据,供跨越具体业界公司的行业测评(benchmarking)公司使用。一种做法是只公布最后统计分析的结果,这样谁都可以自己和行业标杆相比较,比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司,就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司,同样抹去具体公司信息,供成员公司进行自己的分析。9 W( [2 G" _; n! z
0 I# l9 r- k" l9 R# U5 l类似的做法可供AI-数据工业借鉴。. |6 x+ k0 j u( a- Y% S; y
& ^4 ^# ], w5 Y/ E1 ]% l
这只是在“进”的一头。AI模型训练完毕,还需要模型测评,确保如何实际。这里,再次需要大量初级理工科人手,他们甚至可以来自数据预处理的同一批人。5 m4 b; t7 r$ l+ i) b9 V' Y
6 J K3 D, F2 b( t, g对于中国来说,发展AI-数据工业还有一个好处:无所谓地理条件和自然资源,不需要多少基础设施,有电,有网,有吃,有住,就够了。传统工业陷入瓶颈的老工业城市,水电交通发展起来但还是缺乏增长点的三四线小城镇,都是适合数据工业发展的好地方。老少边穷没问题,东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心,但这只是数据仓库,存储大量“数据矿石”。数据工业好比冶炼厂、化工厂,把矿产和资源转化为中间体,供最终制成品工厂使用。
# l( U6 G# D9 h/ B- j* O$ Q9 v; _: @/ H/ k
数据工厂那里能吸引足够的年轻人吗?哪里都有足够的年轻人,愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业,但比排队考公不会差。, \2 X6 b- g* X2 v2 y2 g
2 v$ _8 X2 @7 {7 ?4 X
入门门槛不太高,不是非985、211不可,入门后还适合自己拉出来单干,客户大小公司咸宜,适合远程和网络化办公,发展天花板很高,发展潜力和速度很大,还等什么?: P& G/ u( s$ k; U+ ?: h
( ~! l6 _* T: X- B8 x( p% a
当然,滥竽充数是不行的,糊弄事害人害己,但认真做,这是值得重视的新赛道。 |
评分
-
查看全部评分
|