注册 登录
爱吱声 返回首页

testjhy的个人空间 http://aswetalk.net/bbs/?4473 [收藏] [复制] [分享] [RSS]

日志

DeepSeek有啥值得稀罕的?

热度 51已有 827 次阅读2025-1-28 00:07 |个人分类:it

故意选择了一个歧义的标题,。这句话从嘲讽不屑的语气是一个意思,从认真分析一件事物的角度是另一个意思。
从上面第一个语气继续往前走,确实,DeepSeek没有什么稀罕的,它还开源了它的项目,从理论创新的角度,DeepSeek似乎也没有重大的进展,但这个低成本大模型方案,却使雄心万丈的硅谷科技界心头一紧,今天的美国科技股跌了一个踉跄。
DeepSeek的进步确实没有什么稀罕的,不管美国人工智能学者和中国人工智能学者,都明白通用人工智能(AGI)三大要素:算法-算力-大数据。大数据一般而言,是人类历史上知识、数据的综合集成,占绝大多数的应该是开源数据,包括互联网上的精确数据和公开出版的历史数据。这一点中美双方应该没有太大的差别,一般而言,美国会偏向于英语素材多些,中国偏向汉语语料多些,但数据足够大后,这两者表达的内涵通过类似Transformer等算法的分解,可能已经区分不大了。假设1万本英语素材使得大模型学习后生成的英语问答分析已经比较完美,譬如正确率达到95%,10万本英语素材能够使得英语问答分析完善的更好一点,譬如正确率到97%,100万本英文素材会使得英语问答分析边际效应急剧下降,正确率能够到97.5或98%。中文训练大致也是如此,所以有科学家坦率表示:大模型可训练的数据集已经接近极限,人类从历史到现在产生的知识已经被目前的大模型咀嚼到极限,大模型的知识进化即将进入源知识增长极其缓慢的状态。当然这是一小批人工智能学家个人的观点,仅供参考。
下面是中美AGI研究的重要分野:美国AGI研究者更重视算力的作用,不管是OpenAI,还是最近所谓的Stargate,中心思想就是尽量扩大美国的算力规模,限制中国算力快速增长,从而成就美国的人工智能霸权。用美国洛克希德战术战斗机系统分部前项目经理巴特·奥斯本的名言就是“只要推力大,板砖也能飞上天”(力大砖飞),只要算力强,大模型性能必然强大。而中国被算力限制后,一方面另辟蹊径,自主发展自己的算力平台,更重要的是把重点放到算法研究上,包括模型的创新,模型内各种算法的优化,试图用软件的改善克服硬件的不足,前一阵子我们坛里讨论递归算法的故事,也是我们关注算法的一个小插曲嘛,。终于,我们在算法上对AGI扳回了一局。
不能绝对地说,美国就不重视算法,同样也不能说中国就不重视算力。只是在目前的环境下,大家在发力AGI时外界条件不同,采取了不同的策略重点,中国这支技术路线暂时取得了很大的成功,使得美国对利用算力压制中国AGI的发展产生了些许怀疑。
然而,为什么不是财大气粗的大厂如字节跳动的豆包大模型,也不是学术基础扎实来自清华的智谱大模型,而是幻方量化的DeepSeek大模型呢?我事先声明:不认识这个团队的任何一个人,下列猜测基于我个人的观察和联想。幻方量化的前身是做股市的全自动量化交易的,我这方面的知识并不强,只知道量化交易特点是利用计算机软硬件的极限性能进行高频交易,譬如说1小时1亿次交易,即使每次交易只挣1分钱,但因为频率高,1小时内也可挣1百万。当年量化交易被股民称为股市的毒瘤,迫使证监会出手对全自动量化交易重新设计规则,增加高频交易的成本等措施,...这里略过。股市那边看得紧了,使得幻方量化从股市转向科技创新AGI。量化交易最重要的能力就是硬件固定下充分挖掘算法的优化,这样才能使得量化交易达到最优性能。所以,幻方量化从量化交易转到大模型战场,产生算法优势就有了非常好的基础,从而达到了一鸣惊人的效果。
DeepSeek的成功,给中国人工智能界树立了一个良好的榜样,算力只是AGI的一个重要因素,而不是唯一因素,在大数据收集、标注、清理等方面说不定还有潜力,模型设计和算法研究更有广阔天地,一个梁文锋的出现,意味着一大批王文锋、李文锋在开拓的路上,我们再在算力上进行突破,在应用上百花齐放,中国人工智能发展的前景灿烂无比!


膜拜

鸡蛋
41

鲜花

路过

雷人
2

开心
2

感动

难过

刚表态过的朋友 (45 人)

发表评论 评论 (11 个评论)

回复 赫然 2025-1-28 00:57
重要的是改变规则了。。。影响巨大,尤其是商业上。。。
回复 潜水员 2025-1-28 03:59
虽然……但是,我真的有同学叫李文锋,哈哈。
回复 晨枫 2025-1-28 04:46
虽然……但是……几年前,Eric Smidt拉起一帮人发表长篇报告,接连是:中国在数据和应用上领先,美国在算力和算法上领先。
才没几年,中国在算法上扳回一局了!
回复 holycow 2025-1-28 09:00
主要是山姆凹凸曼想云上AI收租的逻辑基本寄了。DS这条路证明能走通后,只要当年有财力实施SAP的公司现在都有财力自己搞个私有大模型,自己行业里够用,通用领域不及GPT谁在乎。有好多公司其实很担心私有信息被凹凸曼吸走了,但要搞私有模型又烧不起钱。这下好了,可以用合理成本实现了,谁还去交租
回复 holycow 2025-1-28 09:16
这是一个典型的工程上和商业上的90/10案例。最后10%的性能耗去了90%的成本; 90%的应用案例并不需要那10%的性能。所以老黄的高鍴芯片卖出90%以上的毛利率,可是现在为什么每家还要老黄的高端芯片呢,为什么呢?
回复 松叶牡丹 2025-1-28 09:45
holycow: 主要是山姆凹凸曼想云上AI收租的逻辑基本寄了。DS这条路证明能走通后,只要当年有财力实施SAP的公司现在都有财力自己搞个私有大模型,自己行业里够用,通用领域 ...
神牛大哥说的太对了,Palantir想低价卖AI模型给本司就是想撬动本行业运营几十年的珍贵数据,说是说在本地训练模型,不会把数据拿走,但是上面还是有顾虑。最后CTO叫停了,感觉是想自己搞,不打算冒数据可能被泄露的风险。
回复 holycow 2025-1-28 10:00
松叶牡丹: 神牛大哥说的太对了,Palantir想低价卖AI模型给本司就是想撬动本行业运营几十年的珍贵数据,说是说在本地训练模型,不会把数据拿走,但是上面还是有顾虑。最后CT ...
Palantir 就是CIA啊,CIA保证不拿你数据,谁信
回复 有牙老虎 2025-1-28 10:15
俺咋看着这篇文章是用ds生成的呢?
回复 孟词宗 2025-1-29 04:30
holycow: 这是一个典型的工程上和商业上的90/10案例。最后10%的性能耗去了90%的成本; 90%的应用案例并不需要那10%的性能。所以老黄的高鍴芯片卖出90%以上的毛利率,可是现 ...
这个其实就和每几年大家就要升级电脑一样。虽然原来的CPU和GPU的性能完全够用,但架不住大家想买新的对吧?只不过老黄现在只能走普通升级路线,不能再卖高溢价了。另外,完全同意各大公司可以较低成本搞自己的专业AI了。
回复 nukearchie 2025-1-30 08:49
感觉我这种engineer 危险了,我司必然搞个小GPT啊
回复 nanimarcus 2025-2-2 13:53
架个私有的全功能的 deepseek R1 ,全部用GPU VRAM, 不过十万美元,据说是15个token的水平,可以了。
如果用家用显卡,得20块,钱不是问题,问题上哪里有主板带 20 块显卡。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-3-4 01:31 , Processed in 0.026488 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部