日志

DeepSeek有啥值得稀罕的？

热度 51已有 827 次阅读2025-1-28 00:07 |个人分类:it

故意选择了一个歧义的标题，

。这句话从嘲讽不屑的语气是一个意思，从认真分析一件事物的角度是另一个意思。

从上面第一个语气继续往前走，确实，DeepSeek没有什么稀罕的，它还开源了它的项目，从理论创新的角度，DeepSeek似乎也没有重大的进展，但这个低成本大模型方案，却使雄心万丈的硅谷科技界心头一紧，今天的美国科技股跌了一个踉跄。

DeepSeek的进步确实没有什么稀罕的，不管美国人工智能学者和中国人工智能学者，都明白通用人工智能(AGI)三大要素：算法-算力-大数据。大数据一般而言，是人类历史上知识、数据的综合集成，占绝大多数的应该是开源数据，包括互联网上的精确数据和公开出版的历史数据。这一点中美双方应该没有太大的差别，一般而言，美国会偏向于英语素材多些，中国偏向汉语语料多些，但数据足够大后，这两者表达的内涵通过类似Transformer等算法的分解，可能已经区分不大了。假设1万本英语素材使得大模型学习后生成的英语问答分析已经比较完美，譬如正确率达到95%，10万本英语素材能够使得英语问答分析完善的更好一点，譬如正确率到97%，100万本英文素材会使得英语问答分析边际效应急剧下降，正确率能够到97.5或98%。中文训练大致也是如此，所以有科学家坦率表示：大模型可训练的数据集已经接近极限，人类从历史到现在产生的知识已经被目前的大模型咀嚼到极限，大模型的知识进化即将进入源知识增长极其缓慢的状态。当然这是一小批人工智能学家个人的观点，仅供参考。

下面是中美AGI研究的重要分野：美国AGI研究者更重视算力的作用，不管是OpenAI，还是最近所谓的Stargate，中心思想就是尽量扩大美国的算力规模，限制中国算力快速增长，从而成就美国的人工智能霸权。用美国洛克希德战术战斗机系统分部前项目经理巴特·奥斯本的名言就是“只要推力大，板砖也能飞上天”（力大砖飞），只要算力强，大模型性能必然强大。而中国被算力限制后，一方面另辟蹊径，自主发展自己的算力平台，更重要的是把重点放到算法研究上，包括模型的创新，模型内各种算法的优化，试图用软件的改善克服硬件的不足，前一阵子我们坛里讨论递归算法的故事，也是我们关注算法的一个小插曲嘛，

。终于，我们在算法上对AGI扳回了一局。

不能绝对地说，美国就不重视算法，同样也不能说中国就不重视算力。只是在目前的环境下，大家在发力AGI时外界条件不同，采取了不同的策略重点，中国这支技术路线暂时取得了很大的成功，使得美国对利用算力压制中国AGI的发展产生了些许怀疑。

然而，为什么不是财大气粗的大厂如字节跳动的豆包大模型，也不是学术基础扎实来自清华的智谱大模型，而是幻方量化的DeepSeek大模型呢？我事先声明：不认识这个团队的任何一个人，下列猜测基于我个人的观察和联想。幻方量化的前身是做股市的全自动量化交易的，我这方面的知识并不强，只知道量化交易特点是利用计算机软硬件的极限性能进行高频交易，譬如说1小时1亿次交易，即使每次交易只挣1分钱，但因为频率高，1小时内也可挣1百万。当年量化交易被股民称为股市的毒瘤，迫使证监会出手对全自动量化交易重新设计规则，增加高频交易的成本等措施，...这里略过。股市那边看得紧了，使得幻方量化从股市转向科技创新AGI。量化交易最重要的能力就是硬件固定下充分挖掘算法的优化，这样才能使得量化交易达到最优性能。所以，幻方量化从量化交易转到大模型战场，产生算法优势就有了非常好的基础，从而达到了一鸣惊人的效果。

DeepSeek的成功，给中国人工智能界树立了一个良好的榜样，算力只是AGI的一个重要因素，而不是唯一因素，在大数据收集、标注、清理等方面说不定还有潜力，模型设计和算法研究更有广阔天地，一个梁文锋的出现，意味着一大批王文锋、李文锋在开拓的路上，我们再在算力上进行突破，在应用上百花齐放，中国人工智能发展的前景灿烂无比！

膜拜

鸡蛋

鲜花

路过

雷人

开心

感动

难过

刚表态过的朋友 (45 人)

收藏分享邀请举报

全部作者的其他最新日志

发表评论评论 (11 个评论)

回复赫然 2025-1-28 00:57: 重要的是改变规则了。。。影响巨大，尤其是商业上。。。

回复潜水员 2025-1-28 03:59: 虽然……但是，我真的有同学叫李文锋，哈哈。

回复晨枫 2025-1-28 04:46: 虽然……但是……几年前，Eric Smidt拉起一帮人发表长篇报告，接连是：中国在数据和应用上领先，美国在算力和算法上领先。
才没几年，中国在算法上扳回一局了！

回复 holycow 2025-1-28 09:00: 主要是山姆凹凸曼想云上AI收租的逻辑基本寄了。DS这条路证明能走通后，只要当年有财力实施SAP的公司现在都有财力自己搞个私有大模型，自己行业里够用，通用领域不及GPT谁在乎。有好多公司其实很担心私有信息被凹凸曼吸走了，但要搞私有模型又烧不起钱。这下好了，可以用合理成本实现了，谁还去交租

回复 holycow 2025-1-28 09:16: 这是一个典型的工程上和商业上的90/10案例。最后10%的性能耗去了90%的成本; 90%的应用案例并不需要那10%的性能。所以老黄的高鍴芯片卖出90%以上的毛利率，可是现在为什么每家还要老黄的高端芯片呢，为什么呢?

回复松叶牡丹 2025-1-28 09:45: holycow: 主要是山姆凹凸曼想云上AI收租的逻辑基本寄了。DS这条路证明能走通后，只要当年有财力实施SAP的公司现在都有财力自己搞个私有大模型，自己行业里够用，通用领域 ...
神牛大哥说的太对了，Palantir想低价卖AI模型给本司就是想撬动本行业运营几十年的珍贵数据，说是说在本地训练模型，不会把数据拿走，但是上面还是有顾虑。最后CTO叫停了，感觉是想自己搞，不打算冒数据可能被泄露的风险。

回复 holycow 2025-1-28 10:00: 松叶牡丹: 神牛大哥说的太对了，Palantir想低价卖AI模型给本司就是想撬动本行业运营几十年的珍贵数据，说是说在本地训练模型，不会把数据拿走，但是上面还是有顾虑。最后CT ...
Palantir 就是CIA啊，CIA保证不拿你数据，谁信

回复有牙老虎 2025-1-28 10:15: 俺咋看着这篇文章是用ds生成的呢？

回复孟词宗 2025-1-29 04:30: holycow: 这是一个典型的工程上和商业上的90/10案例。最后10%的性能耗去了90%的成本; 90%的应用案例并不需要那10%的性能。所以老黄的高鍴芯片卖出90%以上的毛利率，可是现 ...
这个其实就和每几年大家就要升级电脑一样。虽然原来的CPU和GPU的性能完全够用，但架不住大家想买新的对吧？只不过老黄现在只能走普通升级路线，不能再卖高溢价了。另外，完全同意各大公司可以较低成本搞自己的专业AI了。