& B% \' S2 l i6 x0 a0 A附录 ; x3 }0 v$ v/ @7 X对于NVlink,DeepSeek的研究人员是边用边骂: 9 l0 \. @) X: M 0 v, P( C: j1 G R& Q3 @; TB. Discussion about NVLink Technology Choices4 q% c2 K6 I! X
; l( w4 h/ f( G0 v
Initially, we did not use NVLink to avoid extra costs and maintain stability, as HFReduce was sufficient for training requirements at that time. However, as the demand for LLMs increased, we added NVLink specifically for LLM training purposes. The decision to install NVLink should be based on actual needs due to its potential drawbacks。4 ~# _- v! L7 ?" H
9 W8 M1 Y, x+ a) _. P; T# a n还在附录里列出了关键的典型错误:" `" @% }" a0 x, b5 \/ k! F
4 J/ Z8 c4 }6 Z$ ]! {
IB网络也被吐槽的体无完肤,这也许是之前英伟达股票狂跌的原因之一吧 ! y( _ j2 @* s: q, s, a" }* U* t/ L. Z- {" H
而且仔细想一想,结合后面DeepSeek V3的论文中专门强调了对于内存读写和网络框架及驱动的优化内容(甚至用了PTX),并且被误解为要取代CUDA。就知道他们是在踩坑的同时填坑,填完了坑才有了这种软硬件一体化设计的论文公开。, u) O( Q a( E: U9 g4 l5 c
: l5 @. O1 E1 t0 G9 M" Y
参考论文: arXiv:2408.14158v2 [cs.DC] 31 Aug 2024( I* D& N$ l. @
* D; B' G2 m! S F$ A原文链接 # g6 D( |, J8 \) q& [* W9 f4 Z. \
有图片都在原文里,有兴趣的可以看看。作者: WiFi 时间: 4 天前
我从来没有称呼过没有教过我的人老师。看完后,我尊尊敬敬的称一声:谢谢,谢老师。解惑了。4 c6 d3 W) V3 p- L/ d% _% l
同时也让我对喷DS只是蒸馏了OpenAI的人及其不屑。作者: 晨枫 时间: 4 天前 本帖最后由 晨枫 于 2025-2-7 20:57 编辑 * I9 L2 ?' y p& M0 G9 g _8 z
# D( p" n. I5 U/ O' Z2 d4 ?) `我也从来没有称呼过没有教过我的人老师。看完后,我尊尊敬敬的称一声:谢谢,谢老师。不过没有解惑,因为没看懂。隔行如隔山,也就不勉强弄懂了。还是要多谢解释。 " F# J% G- {9 N$ L" B9 K! Y # I6 v8 f, c8 z' v8 [6 V( B问题: ]+ w, \- ?" f1 {8 h& l 0 u: W( p& L* m! i这里提到的A100,和英伟达的A100卡不是一回事吧?2 m9 \. m" @2 O
* Z* K0 d' ?% n0 K
最大的问题:这样的做法在scalability和transportability方面有什么长处、短处?因为没有看懂,所以还是没有解答最初的疑问:如果换GPU,换模型架构,或者极大增大模型尺寸,这套架构需要推倒重来吗? - ~4 @% J- {. m/ d. J 8 h' ?3 N4 N1 ?5 z这是case by case optimization,还是scalable and transportable framework not only in terms of concept but also toolset?作者: xiejin77 时间: 4 天前