故意选择了一个歧义的标题,

。这句话从嘲讽不屑的语气是一个意思,从认真分析一件事物的角度是另一个意思。
从上面第一个语气继续往前走,确实,DeepSeek没有什么稀罕的,它还开源了它的项目,从理论创新的角度,DeepSeek似乎也没有重大的进展,但这个低成本大模型方案,却使雄心万丈的硅谷科技界心头一紧,今天的美国科技股跌了一个踉跄。
DeepSeek的进步确实没有什么稀罕的,不管美国人工智能学者和中国人工智能学者,都明白通用人工智能(AGI)三大要素:算法-算力-大数据。大数据一般而言,是人类历史上知识、数据的综合集成,占绝大多数的应该是开源数据,包括互联网上的精确数据和公开出版的历史数据。这一点中美双方应该没有太大的差别,一般而言,美国会偏向于英语素材多些,中国偏向汉语语料多些,但数据足够大后,这两者表达的内涵通过类似Transformer等算法的分解,可能已经区分不大了。假设1万本英语素材使得大模型学习后生成的英语问答分析已经比较完美,譬如正确率达到95%,10万本英语素材能够使得英语问答分析完善的更好一点,譬如正确率到97%,100万本英文素材会使得英语问答分析边际效应急剧下降,正确率能够到97.5或98%。中文训练大致也是如此,所以有科学家坦率表示:大模型可训练的数据集已经接近极限,人类从历史到现在产生的知识已经被目前的大模型咀嚼到极限,大模型的知识进化即将进入源知识增长极其缓慢的状态。当然这是一小批人工智能学家个人的观点,仅供参考。
下面是中美AGI研究的重要分野:美国AGI研究者更重视算力的作用,不管是OpenAI,还是最近所谓的Stargate,中心思想就是尽量扩大美国的算力规模,限制中国算力快速增长,从而成就美国的人工智能霸权。用
美国洛克希德战术战斗机系统分部前项目经理巴特·奥斯本的名言就是“只要推力大,板砖也能飞上天”(力大砖飞),只要算力强,大模型性能必然强大。而中国被算力限制后,一方面另辟蹊径,自主发展自己的算力平台,更重要的是把重点放到算法研究上,包括模型的创新,模型内各种算法的优化,试图用软件的改善克服硬件的不足,前一阵子我们坛里讨论递归算法的故事,也是我们关注算法的一个小插曲嘛,
。终于,我们在算法上对AGI扳回了一局。
不能绝对地说,美国就不重视算法,同样也不能说中国就不重视算力。只是在目前的环境下,大家在发力AGI时外界条件不同,采取了不同的策略重点,中国这支技术路线暂时取得了很大的成功,使得美国对利用算力压制中国AGI的发展产生了些许怀疑。
然而,为什么不是财大气粗的大厂如字节跳动的豆包大模型,也不是学术基础扎实来自清华的智谱大模型,而是幻方量化的DeepSeek大模型呢?我事先声明:不认识这个团队的任何一个人,下列猜测基于我个人的观察和联想。幻方量化的前身是做股市的全自动量化交易的,我这方面的知识并不强,只知道量化交易特点是利用计算机软硬件的极限性能进行高频交易,譬如说1小时1亿次交易,即使每次交易只挣1分钱,但因为频率高,1小时内也可挣1百万。当年量化交易被股民称为股市的毒瘤,迫使证监会出手对全自动量化交易重新设计规则,增加高频交易的成本等措施,...这里略过。股市那边看得紧了,使得幻方量化从股市转向科技创新AGI。量化交易最重要的能力就是硬件固定下充分挖掘算法的优化,这样才能使得量化交易达到最优性能。所以,幻方量化从量化交易转到大模型战场,产生算法优势就有了非常好的基础,从而达到了一鸣惊人的效果。
DeepSeek的成功,给中国人工智能界树立了一个良好的榜样,算力只是AGI的一个重要因素,而不是唯一因素,在大数据收集、标注、清理等方面说不定还有潜力,模型设计和算法研究更有广阔天地,一个梁文锋的出现,意味着一大批王文锋、李文锋在开拓的路上,我们再在算力上进行突破,在应用上百花齐放,中国人工智能发展的前景灿烂无比!