WiFi 发表于 2025-2-3 11:154 W5 @- B% \8 M3 N- _1 R+ d g, `: }
应该是用的H800,不是H20
晨枫 发表于 2025-2-4 01:35
两个说法都看到过,我都糊涂了。哪一个更弱?
xiejin77 发表于 2025-2-4 23:58
相比于绕开cuda的突破,其实ds自己设计的Fire-Flyer AI-HPC框架,更值得自豪。6 D4 g5 U9 c7 E/ g
在训练的尝试中有意绕开了 ...
晨枫 发表于 2025-2-5 14:13$ t1 g' o; s S+ P3 D
这个能展开说说吗?
xiejin77 发表于 2025-2-5 00:21" w9 g; H. u e+ J8 r* M
ds自己有篇论文,我找时间专门解读一下吧
WiFi 发表于 2025-2-4 01:15
应该是用的H800,不是H20
In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition
20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2)
IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps. The
number of warps allocated to each communication task is dynamically adjusted according to the
actual workload across all SMs. Similarly, during the combining process, (1) NVLink sending,
(2) NVLink-to-IB forwarding and accumulation, and (3) IB receiving and accumulation are also( V I A$ W3 p8 A
handled by dynamically adjusted warps. In addition, both dispatching and combining kernels/ f% R7 |. W" C7 L
overlap with the computation stream, so we also consider their impact on other SM computation
kernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions and8 p2 v; d( I% p
auto-tune the communication chunk size, which significantly reduces the use of the L2 cache
and the interference to other SMs.
xiejin77 发表于 2025-2-5 15:08- F) Z2 d8 @3 i- l" B
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
Parallel th ...
xiejin77 发表于 2025-2-5 01:08
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
& B# S: E( t+ }
Parallel th ...
晨枫 发表于 2025-2-6 02:13# c7 h& g" D, q- e. E
PTX是不是本来就chip specific?有可能利用大模型反过来把PTX写的东西反过来生成伪码,再针对新芯片的相 ...
xiejin77 发表于 2025-2-5 18:42
晨大好。
/ P' C: s W' Z+ D8 T4 O
我的理解,类asm的语言都是和硬件架构和芯片的指令集深度绑定的。
晨枫 发表于 2025-2-6 08:50
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
晨枫 发表于 2025-2-6 08:50
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
唐家山 发表于 2025-2-5 19:51
应该是性能的原因。打个比方吧,操作系统内核一般都是用C语言写的,但是一些关键部分会用汇编语言来写。 ...
晨枫 发表于 2025-2-6 09:53
多谢解释。
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
晨枫 发表于 2025-2-6 09:53
多谢解释。
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
xiejin77 发表于 2025-2-5 19:58, q- ]8 o* ]" u6 j
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
唐家山 发表于 2025-2-5 19:59
确实需要重写。不过重写软件的代价并不像外界想象的那么高。显卡(计算卡)的硬件架构比较简单,上面用的 ...
晨枫 发表于 2025-2-6 10:04' W: L0 {/ o% ^8 r
多谢解释。
2 Y6 `3 W4 }" }! g7 l! ^
我用过的语言不多,除了常用的科学计算语言,工控语言用的比较多,各厂家之间基本上无法移植 ...
xiejin77 发表于 2025-2-6 09:58
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
大黑蚊子 发表于 2025-2-6 10:43+ W) E# C( r) Y" K
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说- z8 ?) a; s' G4 y% d, j0 _3 M% U* p7 j
DS自己也买了很多华为的910B,事 ...
晨枫 发表于 2025-2-7 00:59
长期看来还是得上国产卡啊。) K6 N v7 r+ |1 b
& [5 {4 `$ P5 C1 {: M5 y. s1 X
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了 ...
大黑蚊子 发表于 2025-2-7 01:03% C% r* E9 r: U* I
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了
910B的单芯片性能据说跟H800差不多,但是多芯 ...
xiejin77 发表于 2025-2-7 09:31
蚊行的知识面是真全面。
1 x. d }# P7 Q) g
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中 ...
欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |