晨枫 发表于 2025-2-6 10:04
多谢解释。
我用过的语言不多,除了常用的科学计算语言,工控语言用的比较多,各厂家之间基本上无法移植 ...
刚才查了一下。各个厂家的GPU指令集在架构设计、编程模型上差别还是挺大的,是我想当然了。另外,早期的显卡上的操作比较简单,现在的显卡(计算卡)的操作已经相当复杂了。以后还得学习之后再发言,否则就闹笑话了。 xiejin77 发表于 2025-2-6 09:58
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说
DS自己也买了很多华为的910B,事实上国内大厂(阿里、腾讯、字节啥的)都大量在买华为的910系列用于训练
买H100以及GB200那些不是不行,涉及到制裁和转运,内部合规都很难,实际采购量很少
至于特供中国的H20,这货做训练不行,做推理也不行,卖的相当不行,之前WSJ还是谁来着吹说中国要买100万张狗屎H20,后来被证明纯属YY,可能实际采购量连这个数的5%都不到
nVidia一直以来的政策,是消费级显卡不能用来商用,也就是说4090不能用来搞训练啥的。之前各家大厂因为还要从老黄那里买卡,也就捏着鼻子认了买高价货,结果老美一刀切之后,反正特么以后也没生意做,干脆掀桌子,鼓捣出用4090芯片+3090PCB板+魔改48G显存的4090ProMax商用版,一块不到3万人民币,用来跑推理性价比高得出奇。
于是在市场上就出现了二手4090一万六秒收(这货刚上市的时候卖1万3,用了2年多白嫖还能挣几千块),然后PDD上大把一百块一套的4090手办(4090PCB+全套散热,就是没有芯片和显存,本来是垃圾不值钱,所以能卖多少卖多少) 大黑蚊子 发表于 2025-2-6 10:43
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说
DS自己也买了很多华为的910B,事 ...
长期看来还是得上国产卡啊。
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了,防也防不住。 晨枫 发表于 2025-2-7 00:59
长期看来还是得上国产卡啊。
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了 ...
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了
910B的单芯片性能据说跟H800差不多,但是多芯片及多卡协同效率不太行,只有60%左右,估计还需要不少路要走
之前nVidia被制裁的那个高速网卡子公司的独门秘籍就是以太网数据超高速传输
大黑蚊子 发表于 2025-2-7 01:03
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了
910B的单芯片性能据说跟H800差不多,但是多芯 ...
蚊行的知识面是真全面。
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中Marvell是收购的Qlogic品牌,Mellanox被英伟达收购。国内做这个的,巨头是华为。上海有一家还不错的企业,我去年年底的时候跟他们聊过。但我的印象里Mellanox的口碑最好。
但RDMA网卡不是单独发挥作用的,多卡间需要路由器支持。主要的方案是roce2和IB,IB是纯血,搭配SXM的nvlink封装芯片,可以跑满。我印象里,roce2和IB之间有这大约一倍以上的带宽差距。 xiejin77 发表于 2025-2-7 09:31
蚊行的知识面是真全面。
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中 ...
Mellanox的产品好像是nVidia钦定,意思是只有用他们的方案才能达到数据中心卡间互联的预设效率
因为这个,中国商务部指责nVidia在收购Mellanox的时候给出的承诺不实
页:
1
[2]