WiFi 发表于 2025-2-3 11:15: T- o. H+ O& u& p# ?* S# G
应该是用的H800,不是H20
晨枫 发表于 2025-2-4 01:35" g( {' z/ r7 Z( N- h
两个说法都看到过,我都糊涂了。哪一个更弱?
xiejin77 发表于 2025-2-4 23:58" z1 n; o1 w; z+ D5 b; n0 N0 C
相比于绕开cuda的突破,其实ds自己设计的Fire-Flyer AI-HPC框架,更值得自豪。
在训练的尝试中有意绕开了 ...
晨枫 发表于 2025-2-5 14:13
这个能展开说说吗?
xiejin77 发表于 2025-2-5 00:21* a" B' n/ j U# a7 [- V. g9 S
ds自己有篇论文,我找时间专门解读一下吧
WiFi 发表于 2025-2-4 01:156 `$ R9 q8 w/ o7 s
应该是用的H800,不是H20
In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition
20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2)
IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps. The! O h# x$ E, Q$ c
number of warps allocated to each communication task is dynamically adjusted according to the
actual workload across all SMs. Similarly, during the combining process, (1) NVLink sending,7 l9 N r: P' ]9 `; v7 K9 ~' q
(2) NVLink-to-IB forwarding and accumulation, and (3) IB receiving and accumulation are also' G# \, A! O2 z4 o# X3 F& N
handled by dynamically adjusted warps. In addition, both dispatching and combining kernels1 m. }9 I6 J/ l- _* }* F
overlap with the computation stream, so we also consider their impact on other SM computation
kernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions and
auto-tune the communication chunk size, which significantly reduces the use of the L2 cache
and the interference to other SMs.
xiejin77 发表于 2025-2-5 15:08
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
6 b: m& T: x. a% ]+ H2 v6 |9 U
Parallel th ...
xiejin77 发表于 2025-2-5 01:08
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。8 j6 ~8 `2 F, |
Parallel th ...
晨枫 发表于 2025-2-6 02:133 ]! C+ Y9 {" x: R$ V( j2 E
PTX是不是本来就chip specific?有可能利用大模型反过来把PTX写的东西反过来生成伪码,再针对新芯片的相 ...
xiejin77 发表于 2025-2-5 18:428 m m' y( @' X3 q4 j* c
晨大好。+ x6 t. x3 L8 Y1 c4 _+ i
6 J6 |) L! n- z/ Z! v
我的理解,类asm的语言都是和硬件架构和芯片的指令集深度绑定的。
晨枫 发表于 2025-2-6 08:50) R4 q1 h0 F0 r% t3 |3 Q; y
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
晨枫 发表于 2025-2-6 08:50, _. V5 t2 Y d) g( D( w) E" E4 Y" c
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
唐家山 发表于 2025-2-5 19:511 D A3 T# Y, u# r4 J
应该是性能的原因。打个比方吧,操作系统内核一般都是用C语言写的,但是一些关键部分会用汇编语言来写。 ...
晨枫 发表于 2025-2-6 09:533 r6 ^; p: E* G, h, D+ j+ V
多谢解释。
5 L$ _! I2 a: Y; n0 P
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
晨枫 发表于 2025-2-6 09:532 @) q% o7 X7 \7 r
多谢解释。
: S+ J- b" Z& F, H5 M0 Z3 H! A
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
xiejin77 发表于 2025-2-5 19:58
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
唐家山 发表于 2025-2-5 19:59% m) q- ]' A# {2 J9 C K
确实需要重写。不过重写软件的代价并不像外界想象的那么高。显卡(计算卡)的硬件架构比较简单,上面用的 ...
晨枫 发表于 2025-2-6 10:04+ d8 b- F/ h2 M' _! z4 Z# z
多谢解释。
8 m; S, v# N8 `3 }
我用过的语言不多,除了常用的科学计算语言,工控语言用的比较多,各厂家之间基本上无法移植 ...
xiejin77 发表于 2025-2-6 09:58- m6 M6 H/ E) D; _$ g( R; D
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
大黑蚊子 发表于 2025-2-6 10:43- o6 q5 q5 W8 _0 x, Y# Z
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说
DS自己也买了很多华为的910B,事 ...
晨枫 发表于 2025-2-7 00:593 h0 Z+ n1 W. E2 e
长期看来还是得上国产卡啊。/ p% E, B& K0 x: Q5 F. ^
' F0 J$ }8 X( E
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了 ...
大黑蚊子 发表于 2025-2-7 01:03
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了1 |/ _8 S, R! i0 b1 _5 o7 z
910B的单芯片性能据说跟H800差不多,但是多芯 ...
xiejin77 发表于 2025-2-7 09:312 g7 k6 G9 w, x+ Y( p" D
蚊行的知识面是真全面。
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中 ...
| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |