爱吱声

标题: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版 [打印本页]

作者: 孟词宗 时间: 2025-5-17 11:34
标题: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版
本帖最后由孟词宗于 2025-5-19 06:56 编辑

上回发了《再说 AI 本地部署》后，@数值分析同学问：

正在考虑自己买硬件在家搞，有两个问题请教（都不需要精确的答案，有个大概的概念就好）：
1.如果搞512G内存的纯cpu方案，完全不用gpu，和gpu相比速度大概能差多少？
2.硬件的需求发展的速度大概能有多快？这个问题是看到4个cpu的过时惠普服务器才卖1000多刀，还慢的无法忍受，如果真的买了堆硬件自己在家搞，会不会不几年就不堪用也卖不出价，得扔了重新再买？

俺的回答是对速度不要抱太大的希望。对于平行处理要求高的大模型，放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然，这只是 inference 的效率，输出本身并没有那么快。直观上来说，不用显卡，只用内存时，回答显示得比较慢。尺寸小的模型还能达到一秒七八个字，基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快，超过在线版本的反应和显示速度。另外压缩的尺度越大，速度越快。例如问 QwQ-32B 全尺寸和Q8版同样的问题，Q8 比全尺寸快了一倍左右。

俺一直是主张使用云服务来解决硬件不足问题的。当时俺的结论是：

AI 大模型的发展其实是产生了对于硬件的新要求。这解决了长期以来的硬件算力过剩的问题。但 AI 大模型的尺寸成了制约其在个人级别硬件的应用。硬件的摩尔定律在现在的主流技术构架下近乎失效了。如果只是要让全尺寸万亿参数模型跑起来而不追求速度和精度，那么用 Cluster 的方案或者那个1万5千美元的工作站方案都行。但如果想要速度和精度，那么就得上真正的server了。

至于用过时的服务器。前面说过了，如果家里完全没有基础，从头搞一个服务器机房的投资远远超过你被家里批准的一千多美元

不论用哪种方案，从投资角度来说，这肯定不会是一次性投资。就像买显卡，要么你一次性投资一个顶级显卡然后用十年，要么你买个便宜的但每两年就换个新的。

所以与其自己搞一大堆硬件，不如租个云端服务器。这样可以随时根据软件需求来升级硬件。

@大黑蚊子同学的 Mac Studio 512GB 不知道入手了没有。很想知道实际速度如何。从网上的反馈来说，似乎速度也就十几个 Token 每秒。虽然看上去速度不错。也就和阅读速度持平最多了。

那么如果不讲究速度，我们只想把 @大黑蚊子同学心心念念的 DeepSeek R1 671B Q4 版本跑起来，而且还要求成本控制在 @数值分析同学要求的一千美元左右是不是有可能性呢？

那位买了人家退役的Dell R930 Server 的播主倒是也提供了一个一千美刀的解决方案。视频如下：https://www.youtube.com/watch?v=RMidGvCZc4g

在这个视频里，这位播主利用了一个旧的 HP Z440 加上一张英伟达 RTX 3090 24GB 的显卡。

另外，如果不用 RTX 3090, 那么就只要 $500, 视频如下： https://www.youtube.com/watch?v=t_hh2-KG6Bw

播主还给出了价格清单和测试结果：
$1000 美元（带 RTX 3090): https://digitalspaceport.com/100 ... mark-z440-and-3090/
$500 美元： https://digitalspaceport.com/500 ... 1b-local-ai-server/

问题是，现在通货膨胀得利害，虽然视频才发布了一两个月，那个 HP Z440 的价格已经翻番了。而 RTX 3090 的价格更是炒上了天。ebay 上最便宜的矿卡也得$650+运费。

而且这位播主玩了个花样。他列出的 HP Z440 一百美元的价格其实是光板机。要搞到 512GB 内存，你还得花 $500 。这样加起来至少得$1,600 左右才能搞定他视频里的那个机器。

当然，这还是比花一万美元的 Mac Pro 512GB RAM 要便宜了七倍。

那么还有没有更便宜的做法呢？一个方法是不要用那个播主的显卡 RTX 3090 24 GB。前一阵英伟达的 H20 被禁止向中国出口了。结果市场上突然冒出了大量的 RTX 5060 。这些显卡经各大权威鉴定玩游戏性能很差，但搞 AI 效果出乎意料的好。因此可以买一个 RTX 5060 TI 16 GB 作为代替。
[attach]117570[/attach]
这个卡在Amazon 最近卖$479 （ GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card）

这样价格就回落到一千美刀左右，而且肯定可以跑 DeepSeek R1 671B Q4 版本了。

如果不喜欢用旧电脑，那么另一个方案则是自己造一台。闲来无事就自己实验了一把：
主板：Huananzhi x99 F8D Plus
[attach]117571[/attach]
阿里巴巴售价 $120

刚看到 Huananzhi 这个牌子，俺习惯性得误读为“淮南子”，心想人家这商标起得有水平，老板肯定是个文化人。后来发现其实是俺拼音不好念错了。人家的中文商标是“华南金牌”。Huananzhi 估计对应的是“华南智”。这是一家专门生产翻新主板的企业。啥教翻新主板？并不是主板是旧的，而是主板用的元器件都是别人处理掉的过时或剩余物资。在中国装机界，又称为“丐版”。

实际上，“丐版”并不“丐”。除了支持双路 Xeon CPU，还有双路 2.5 GB 网络。最重要的是它支持每 CPU 4通道 DDR4 内存。这样两个 CPU 理论上就有 8 通道。这对于我们来说就很重要了。服务器现在的主流还是 DDR4 内存。而一般家用电脑已经是 DDR5 了。但是，家用电脑一般只有 2 通道。目前流行的 DDR5 4800，理论上在 2 通道下可以跑到 9600, 而DDR4 2400 在 4 通道下则也是 9600。双 CPU 8 通道则还要快一倍，达到 19200。虽然仍然比不上显卡显存的带宽，却也勉强可用了。

这是个双路 Xeon CPU 服务器版。厂家号称最高支持 512 GB。这比一般家用主板高多了。最主要的是有了 512 GB我们就达到了跑 DeepSeek R1 671B Q4 的最低要求了。

CPU： Intel Xeon E5-2695 V4 18-core
[attach]117572[/attach]
阿里巴巴售价$30一个，两个$60

E5-2695 V4实际可以支持最高1.5TB的内存，两个就是3TB。但主板并不支持3TB。

内存：64GB 4DRx4 2400 Mhz DDR4 PC4-2400T-LD1 LRDIMM Server RAM x8
阿里巴巴售价 $15一条，8条$120

当然，如果不想等，也可以在美国买： A-Tech 512GB Kit (8 x 64GB) 4Rx4 DDR4-2400 PC4-19200L LRDIMM ECC Load Reduced 1.2V 288-Pin Server Memory RAM 512 GB的 Kit $399

SSD: 1TB NVME Pcie 4.0x4
这个在美国买就行。一般$50左右就搞定了。

CPU Cooler：COOLSERVER R64 Server CPU Cooler 180w 4 Heatpipes Workstation Radiator PWM 4PIN Cooling Fan for Intel LGA2011
[attach]117573[/attach]
阿里巴巴售价$14.5 一个，两个$29

机箱: E-ATX SNOWMAN CS017 EATX ITX PC Case ATX Gaming Computer Desktop Mid Tower Dual Tempered Glass Mesh Face Reversed with 6ARGB Fans
阿里巴巴售价 $15.78

电源：850W 以上。
这个在美国买就行，一般 $69 左右。

显卡：Xeon E5 是没有核显的。如果想要利用最新的英伟达技术，那么可以买前面推荐的 RTX 5060 TI 16 GB
[attach]117570[/attach]
这个卡在Amazon 最近卖$479 （ GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card）

如果要买任何30xx以上的英伟达显卡，都不要去阿里巴巴买。原因是阿里巴巴的卡大多是假货。即使是真的，英伟达销往中国的显卡也是阉割版。而且价格比美国还高。

如果有预算考虑，那么也可以买一个翻新的 AMD RX 580. 这卡在阿里上特别便宜, 8GB 版本才$48 。

总计：
方案一：用英伟达 GeForce RTX 5060 Ti 16 GB
[attach]117574[/attach]

方案二：用翻新的 AMD RX 580
[attach]117575[/attach]

当然这些价格没有计算运费和川总要收的关税以及在美加各地的销售税。大家如果有兴趣可以自己调节。大致如果全部都在美国买的话，方案一会上涨到$1,200 左右，而方案二会上涨为$830 左右。

装起来之后进行测试，不但可以跑 DeepSeek R1 671B Q4 版本，也可以跑 DeepSeek R1 671B Q5 版本。更可以跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。当然，跑起来的速度都不快。即使是方案一，也就和那个播主的3090机器基本持平。而方案二的 RX580 由于没有被各大 AI 软件优化过，不但不是助力，反而会造成不少问题。因此在运行时要禁用 GPU，只跑 CPU。这时候双 CPU 36 核（72 逻辑核）的威力就显现出来了，居然能跑 0.62 个 token 每秒（笑），first token 69 秒。

不过，九百多美元的方案一，五百美元出头的方案二，也就不要指望啥性能了。这个速度干正经事是不行的。但用来娱乐一下还是不错的。领导就调侃俺说，这是你的成年人LEGO。

既然不追求速度，俺还实验了在本地部署 fp16 全尺寸的 DeepSeek R1 671B 。当然，fp16 版是无法用这些不到一千的方案部署的。预算起码要三千以上。俺入手了一个翻新的 HP Z8 工作站，把内存扩展到 1.5 TB，换了显卡。现在啥大模型的 fp16 版都可以跑了。速度慢点，但娱乐性很高。而且这个实验说明不需要那个播主推荐的 Dell R930 Server ，只需要 HP Z8 工作站就行了。

顺便说一句，用这些家庭版本地部署方案的时候，模型越大，加载时间越长。Q5 版本有近 500 GB，不论什么机器都需要近 30 分钟才能加载到内存中。而 fp16 的 DeepSeek R1 671B 有 1.3 TB，需要一个多小时才能加载完毕。对很多人来说，玩本地部署 AI 吐字慢不算大问题，但加载慢可能很多人就受不了了。

这篇算是对这段时间玩 AI 本地部署的小结。下一步仍然完成那个 Mini PC 的 cluster。到时候叕说 AI 本地部署吧。

作者: 怎这样呢 时间: 2025-5-19 05:25
x99主板的正确打开方式是用E5V3CPU打鸡血BIOS

作者: 孟词宗 时间: 2025-5-19 06:19

怎这样呢发表于 2025-5-19 05:25
x99主板的正确打开方式是用E5V3CPU打鸡血BIOS

E5V3虽然便宜，但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来说也没有多大优势，V3 和 V4 差几美元而已。

鸡血 BIOS 超频却很少能全CPU锁频，真跑大模型的时候没啥用处。

Xeon 作为服务器 CPU，它的目的不是给发烧友超频，而是要求稳定性。有些所谓的鸡血 BIOS 其实就是厂家的对该主板的后续 BIOS，修正了出厂 BIOS 的一些漏洞，在性能上有所提高。这时候更新到最新版本的 BIOS 的确能提高性能。而另外一些鸡血 BIOS 以牺牲稳定性为代价就不值得了。尤其是 Xeon, 官方不支持超频。即使你强行超频了，稳定性下降，性能反而没有提升，得不偿失。

另外，很多鸡血 BIOS 的所谓“性能提升”，例如玩游戏的时候 FPS 翻了一倍之类的，其实是优化了的CPU和GPU的数据传输。我们的这两个方案中，家用 GPU 基本分担不了多少负载，除非你上企业级的多个 GPU 联合组群，软件还得是专门优化过的。绝大多数负载还是在 CPU 上跑，尤其是方案二。BIOS 在这种情况下对 CPU 性能提升微乎其微。

如果不是用来玩游戏，把BIOS更新到最新的厂家正式BIOS也就可以了。

作者: 雷声 时间: 2025-5-19 07:51
上个月买了5070TI，AUD1800，美刀大概1160，当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸好限购就只买了一个，插上机器之后发现虽然有两个卡槽，但是显卡太宽，真插满两个的话一个问题是GPU之间几乎没有空隙，对散热不利，还有一个是几乎占了所有插槽，插NVME的卡就没位置了。总之现在只有一个卡，先玩玩吧。两块5070估计也没有什么本质改善。

作者: 孟词宗 时间: 2025-5-19 08:19
本帖最后由孟词宗于 2025-5-19 08:25 编辑

雷声发表于 2025-5-19 07:51
上个月买了5070TI，AUD1800，美刀大概1160，当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸 ...

如果不玩游戏，俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 180瓦低多了，更是只有5070 ti 的300瓦的40%。$350-$500美刀的主板一般会有3个以上的PCIe x16 插槽。可以插好几个。目前美国的价格是$1,279。虽然这卡相当于 4070 Ti, 但架不住性价比好，显存多。在本地跑 AI，尤其是大模型，显存容量比GPU速度更重要。

现在5060 Ti 16GB 出来了。倒是又能玩游戏，又能玩 AI。从目前趋势看。这个“低端”卡还会继续降价。毕竟官方指导价是 $429。5060 Ti 是众英伟达显卡中少有的价格持续走低的卡，现在只比官方指导价高$50了。至于沙特签的那个大单，谁都知道沙特在沙漠里挖出了阳澄湖

而 H20 这种阉割版，王爷肯定是不要的。而黄皮衣宣布要继续阉割 H20 以图合规出口中国。俺都不知道中国会有多傻才会不要大闸蟹而要小螃鲚。预计5060 Ti的价格还会持续走低。

作者: 大黑蚊子 时间: 2025-5-19 09:23

雷声发表于 2025-5-19 07:51
上个月买了5070TI，AUD1800，美刀大概1160，当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸 ...

两块5070没有啥用吧，又没有nvlink

作者: 大黑蚊子 时间: 2025-5-19 09:26
老兄你牛，我...我是言语的巨人行动的矮子

主要问题还是家里太小了，放个服务器估计全家变机场得被老婆骂死...

还有就是前段时间钻空子搞了个google one的账号，能用Gemini 2.5 Pro，且先这么着吧

作者: 雷声 时间: 2025-5-19 09:52

孟词宗发表于 2025-5-19 08:19
如果不玩游戏，俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 1 ...

是的，我在4000和5070之间犹豫了很长时间。最终败给了预算。 4000还是贵不少，而且单卡慢一些。刚好手上有个前前老板给的一个小项目要做目标检出的training。游戏是自从结婚之后就没玩了。上上周给儿子买了个新的游戏本（他自己用的是个用了5年的破二手笔记本，键盘都按碎了一个），沾沾自喜地跟他说这个玩游戏很好的。他很茫然地说啊。。。谢谢。我就很挫败。不知道现在的小崽子们喜欢干啥。

作者: 雷声 时间: 2025-5-19 09:53

大黑蚊子发表于 2025-5-19 09:23
两块5070没有啥用吧，又没有nvlink

训练快一倍，而且刚好卡住预算上限。做大模型的话。。。应该也能快一点吧。

作者: 大黑蚊子 时间: 2025-5-19 10:06

雷声发表于 2025-5-19 09:52
是的，我在4000和5070之间犹豫了很长时间。最终败给了预算。 4000还是贵不少，而且单卡慢一些。刚好手上 ...

如果是搞Ktransfomer的话，他们在传Intel有一个B60要出来，24G的，估计会更适合，而且成本可控
但就不知道能不能面向零售市场

作者: 孟词宗 时间: 2025-5-19 10:06

大黑蚊子发表于 2025-5-19 09:23
两块5070没有啥用吧，又没有nvlink

虽然5070不支持 nvlink, 但插两张卡以上的时候，主板支持的话，是会在 nVidia control panel 里显示 SLI configuration 的。把 SLI 设定为 “Maximize 3D Performance”。虽然不会像 nvlink 那样显示为一张卡并合并显存，但可以在 CUDA 层面上协同。而 Ollama, LM Studio 之类支持 Multiple GPU。加了 SLI 之后性能会更好一些，可以分配更多的 Model Layer 到 GPU 上。这样速度一般会更快。

所以俺以前推荐 RTX 4000 Ada。一般好的主板能塞三四个。功耗单卡才130瓦，三个加起来也就才相当于一个3090。而三个卡加起来 60 GB，Ollama 可以跑很多 LLM 了。如果你要搞训练（俗称炼丹）的话，三个卡会让你体会到为啥这是最受欢迎的工作站卡的。

作者: 大黑蚊子 时间: 2025-5-19 10:08

孟词宗发表于 2025-5-19 10:06
虽然5070不支持 nvlink, 但插两张卡以上的时候，主板支持的话，是会在 nVidia control panel 里显示 SLI ...

赞，受教了

作者: 怎这样呢 时间: 2025-5-19 10:47

孟词宗发表于 2025-5-19 06:19
E5V3虽然便宜，但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来 ...

扫了眼ebay，两者的价格其实是倒挂的，18核的2696v3跟20核的2698v4都是65刀上下，而同为18核的2697v4只需要35刀，从垃圾佬的角度来看v3显然还是更受欢迎的。

我的理解鸡血bios不是超频，而主要是把全核睿频提高到跟单核一个水平，稳定性肯定有损失。不过这个玩法能够广为流传，可玩性应该还不错的。另外要说那个年代的DDR3和DDR4，恐怕没有太大的差别，v4最高支持2133还是多少来着？刨去更高的延迟，不见得好过DDR3 1866

作者: 孟词宗 时间: 2025-5-19 11:38

怎这样呢发表于 2025-5-19 10:47
扫了眼ebay，两者的价格其实是倒挂的，18核的2696v3跟20核的2698v4都是65刀上下，而同为18核的2697v4只需 ...

V4 最高支持 DDR4 2666。DDR3 一般只有 1866。另外，价格是说同型号的不同版本，例如2697v3 (最低 $20)和 2697v4 (最低 $25)。但并不是说不同序列的 v3 和 v4 价格相近。虽然都是 Xeon，但有些型号的 v3 的性能比其他型号的v4 更好，或更受欢迎一点。

内存也不是光看延迟。在服务器或工作站环境下，多通道对提升内存速度影响更大。例如前面举的那个8通道。用DDR4 2400, 八通道可达19200, 而1866就只有14928。虽然相差倍数没变，但互相之间的差值增加了。好比多年前房价一万一平米，工资一千一个月，差十倍。现在十万一平米，工资一万一个月，仍然差十倍，但差值从九千涨到了九万。

至于鸡血 BIOS，俺不是说了"很少能全CPU锁频，真跑大模型的时候没啥用处。"? 说穿了，就是把 CPU 一直放在类似于 Turbo Mode 上跑。这对稳定性伤害很大。玩游戏无所谓。这些老旧 Xeon 以前最大的用处就是用来玩游戏。说实在的，Xeon 就不是用来干这个的。只不过大家觉得一个 Xeon 的价格是家用 CPU 的十倍甚至百倍，自然性能是绝对好的。实际上则类似于半挂大卡价格比家用轿贵的多，但最高时速、加速度、拐弯和操控都未必比得过家用汽车一样。现在有 LLM 了，这些老旧 Xeon 才算又有新的用途了。倒不是说它们的性能更适合跑 LLM，而是它们支持的内存远远大于家用 CPU，可以用低价达到大模型要求的内存标准罢了。

作者: 大黑蚊子 时间: 2025-5-19 21:26

孟词宗发表于 2025-5-19 10:06
虽然5070不支持 nvlink, 但插两张卡以上的时候，主板支持的话，是会在 nVidia control panel 里显示 SLI ...

Intel 今天在computex上发布了B60 24G的显卡，KTransformers已经发文说新版本支持了（单Xeon 5+DDR5+A770能够跑到7.5tokens每秒

更神的是MaxSun（铭瑄）发布了Dual B60 pro 48G，就是俩B60芯片放一张卡上，再加48G显存

小道消息说新品上市不会超过1000刀，估计有爆卖的潜力

作者: 孟词宗 时间: 2025-5-19 21:58

大黑蚊子发表于 2025-5-19 21:26
Intel 今天在computex上发布了B60 24G的显卡，KTransformers已经发文说新版本支持了（单Xeon 5+DDR5+A770 ...

Intel 官网也宣布了 B60 pro 48G。铭瑄这个Dual B60 pro 48G 应该就是具体实施版。如果价格低于一千美刀的确很有吸引力。

速度来说 B60 pro 才 197 TOPS （394 TOPS INT 8），大致相当于英伟达 RTX 3060。

俺最看重的是它的功耗比较低（120-200W），而且可以插到8张卡，这样就有384GB显存。

KTransformers 支持的是上一代的 A770。Intel 的 OneAPI 没有像 CUDA 那样形成生态环境。而且和 AMD 的 Rocm 一样东一榔头，西一棒槌。技术支持不好。能跑 A770 未必在 B60上跑的一样好。不过这就要看 KTransformers, Ollama, LM Studio 这些软件开发的力度了。

作者: 大黑蚊子 时间: 2025-5-19 23:35

孟词宗发表于 2025-5-19 21:58
Intel 官网也宣布了 B60 pro 48G。铭瑄这个Dual B60 pro 48G 应该就是具体实施版。如果价格低于一千美刀 ...

这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持

所以KT支持Intel架构的力度应该也不会差就是了

作者: 孟词宗 时间: 2025-5-20 02:18
本帖最后由孟词宗于 2025-5-20 02:22 编辑

大黑蚊子发表于 2025-5-19 23:35
这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持
所以KT支持Intel架构的力度 ...

B50 16G 官方指导价$299。B60 24G 官方指导价格据说是$500。B60 48G 估计到不了一千，$799 到 $899 最多了。官网的性能参照对象是 RTX A1000，B50 16GB 是 RTX A1000 8GB 的1.5倍。也就是说相当于 RTX 3060 的水平（RTX A1000 相当于 RTX 3050）。B60 48G 性能相当于 RTX A4000 但显存相当于 RTX A6000。

[attach]117590[/attach]

性价比来说 RTX1000 现在一般要$399。所以B50 16G 是冲着低端市场去的。RTX A4000 现在是一千左右。B60 24G便宜一半。B60 48G 如果是 $799 到 $899, 冲着大容量显存是有人买的。但也是 DIY 和低端工作站。毕竟 RTX 5060 ti 16GB 官方指导价才$429 (市场价$479），而 RTX 5060 ti 16GB 能跑出 759 AI TOPS，是 B60 24G 的三倍还多。

实测的话，RTX 5060 ti 16GB 跑 32B 或 70B 应当和 B60 48G 持平。

作者: 孟词宗 时间: 2025-5-20 02:43

大黑蚊子发表于 2025-5-19 23:35
这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持
所以KT支持Intel架构的力度 ...

刚说了 RTX 5060 Ti 16GB 的价格下行。结果今天就跌破官方指导价的$429了。

MSI Gaming RTX 5060 Ti 16G Gaming OC 只要 $339

https://www.amazon.com/MSI-Graph ... 435179338&psc=1

看起来 Intel Arc B50 对黄皮衣的冲击不小。AI 现在不论是硬件还是软件都是华人华裔内卷内战

作者: 孟词宗 时间: 2025-5-20 04:18

雷声发表于 2025-5-19 09:52
是的，我在4000和5070之间犹豫了很长时间。最终败给了预算。 4000还是贵不少，而且单卡慢一些。刚好手上 ...

俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说现在不太玩游戏了。那个机器足够用，还不用换。

但问题是他不玩游戏，却收藏游戏。Steam 上几百个游戏，基本都只玩过几小时。有些才几分钟。俺和领导商量，必须得找个媳妇管钱包了。否则钱倒是赚得不少，一分钱都存不下来。

作者: 大黑蚊子 时间: 2025-5-20 09:12

孟词宗发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

什么？
游戏买了不就是买了么？
还要玩？
那我买什么游戏？

估计不少是steam送的

作者: 伯威 时间: 2025-5-20 11:29
学习了，除了NV显卡，其他真便宜啊，垃圾佬威武【牛】。搜了下，这种一般都是用ollama部署吗？

作者: 孟词宗 时间: 2025-5-20 13:09

伯威发表于 2025-5-20 11:29
学习了，除了NV显卡，其他真便宜啊，垃圾佬威武【牛】。搜了下，这种一般都是用ollama部署吗？ ...

LM Studio，Ollama， Jan，都可以用。如果 OS 是Windows，推荐 LM Studio，简单易用。如果是 Linux，Ollama 安装起来容易一些。当然 LM Studio 也不难就是了。KTransformers 现在只有 Linux 上还支持。初学的话不推荐这个，设置起来太麻烦，安装说明也写得一塌糊涂。

以前还有个 GPT4ALL，不过已经3个月没更新过了。

作者: 怎这样呢 时间: 2025-5-20 22:29

孟词宗发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

年纪轻轻就是喜加一党了

作者: cindia 时间: 2025-5-22 01:37

怎这样呢发表于 2025-5-20 22:29
年纪轻轻就是喜加一党了

如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话(当然是有关这些文章的). 应该如何操作?大致预算? 谢谢.

作者: 孟词宗 时间: 2025-5-23 04:30
本帖最后由孟词宗于 2025-5-25 00:37 编辑

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

看你准备怎么弄。也就是说你要达到具体什么性能指标，预算是多少。如果只是个人使用，最低标准就是我文章里的那个一千美元的 512GB RAM 丐版工作站。那个方案里的 NVME 只有 1TB。由于你要在本地储存大量供阅读的文章，有可能你要扩展到 2TB 到 4TB甚至更多。个人级别加硬盘储存并不贵，最多加几百美元。

如果你准备搞多用户，那就要上真正的企业级服务器了。如果是准备跑 DeepSeek R-1 671b fp16 版或者 DeepSeek V3 0324 671b fp16 版或类似尺寸的（例如 Llama 3.1 405b fp16) , 一般需要 8块 H100 或 H800, 或至少要 H20 。H100 每块的零售价$27,500, H800 反而更贵要$33,800, H20 市面上现在没货。服务器本身不贵，双路或四路 CPU，但加上1.5 TB 到 2 TB 内存就要3到5万美元了。这样加起来，不算乱七八糟的附件，自己组装的话，硬件本身需要 25万到30万美元的样子。

要继续压缩成本也行。一是换成上代的 A100 每块市价也要$16,000左右。这样硬件成本可以降到 15万美元左右。另一个办法则是不用服务器级别的显卡，改用工作站级别的，例如英伟达已经宣布但还没有上市的 RTX Pro 6000 Blackwell Max Q 96GB。这个卡现在预定价格只要$8,500 一张。这样成本可以进一步下降到$96,000美元左右。

下面这个网站可以定制服务器和工作站，当然价格比自己造要贵的多。但至少让客户有个直观的不同配置的价格变:
工作站配置器： https://bizon-tech.com/deep-learning-ai-workstation
服务器配置器: https://bizon-tech.com/deep-learning-nvidia-gpu-servers

英伟达有配好的服务器，下面是某个代理商的网站，仅供参考，俺没有从他那里买过东西，不保证其信誉：https://marketplace.uvation.com/ ... EAQYAyABEgL9zfD_BwE

另外，英伟达已经官宣了 NVIDIA DGX Station （https://www.nvidia.com/en-us/products/workstations/dgx-station/）。这是个用 coherent memory 的工作站，可达 748 GB。两个串联起来也足够跑 DeepSeek 671b fp16 版了。但现在还不知道量产版价格是多少。

如果你不需要跑 fp-16 版本，那么硬件选择就很多了，价格也会随着配置而变化。例如你如果选择跑 DS-R1 671b 的 Q4 版，而且同时在线用户少于5个的话，可以入手四个串联的英伟达 DGX Spark 有总共 512GB. 这东西 $3,999 一个。ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西，只不过换了个壳。而且价格比英伟达低大概四分之一。四个连配件大概 $13,000 左右。

如果你不是非要跑 DeepSeek 671b 的话，512GB 足够跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。

如果你进一步降低对大模型参数尺寸的要求，那么 30b 级别的大模型的fp-16版只有 60 GB 左右，70b 级别的则是 140 GB。你弄两张 RTX Pro 6000 Blackwell Max Q 96GB 或四张 RTX 6000 Ada 48GB 都能跑。这样成本就只有3万到5万美元。

同时在线用户少于5个的话，理论上还有一个方法是买三个 Mac Studio 512GB 串联起来组成 Cluster 共 1.5 TB内存/显存。连配件加起来是 $35,000 美元左右。理论上也可以跑 DS-R1 671b fp16 版。如果你只要跑 DS-R1 671b Q4 版或 Qwen3 -235B-A22B 的fp16 全尺寸版, 那么买一个 Mac Studio 512GB，一万美元出头就搞定了。不过俺没有玩过新的 Mac Studio，具体效果存疑。

软件的话，单人使用 LM Studio 或 Ollama 或 GPT4ALL 之类的都行。多用户，多服务器就需要 VLLM 之类的软件了。

作者: xiejin77 时间: 2025-5-23 06:09

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

国内的话，现在一体机铺天盖地；你要是有兴趣私信我，我找对应的厂商给你

作者: cindia 时间: 2025-5-23 07:38

xiejin77 发表于 2025-5-23 06:09
国内的话，现在一体机铺天盖地；你要是有兴趣私信我，我找对应的厂商给你 ...

遗憾在美国

作者: 大黑蚊子 时间: 2025-5-23 15:53

cindia 发表于 2025-5-23 07:38
遗憾在美国

看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话怎么优化

作者: 司马梦求 时间: 2025-5-24 23:38

大黑蚊子发表于 2025-5-23 02:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

确实Mac studio 512G这款最合适，而且方便公司走账

作者: 孟词宗 时间: 2025-5-25 00:34
本帖最后由孟词宗于 2025-5-25 00:36 编辑

大黑蚊子发表于 2025-5-23 15:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

现代CPU，尤其是服务器级别的 CPU 跑大模型理论上是没有问题的。相比 CPU， GPU有更多的内核，可以进行更好的平行处理。但服务器级别的 CPU 的内核其实也不少，基本也够用。实际操作的问题在于内存的带宽跟不上处理速度，结果造成所谓的 Memory Wall。这成为主要瓶颈，所以苹果和英伟达要用 unified/coherent memory 。举例来说，5年前出品的两代前入门级别的 RTX 3060 的带宽可达 360 GBps 。而DDR5-5600 的带宽只有 44.8 GBps。只有 RTX-3060 的九分之一。而最新的入门级 RTX 5060 带宽可达 448 GBps, 正好是 DDR5-5600 的十倍。

解决方案就是增加通道。例如那个丐版双路 Xeon E5 可达八通道。如果是跑 DDR-5600 就基本接近 RTX 3060 的带宽了。但由于其最高只支持 DDR4-2400, 八通道只能达到 RTX 3060 的一半不到。俺入手的那个 HP Z8 是双路 Xeon Gold 61xx。可支持最高 12 通道，DDR4-2666, 这就达到 RTX 3060 的60% 左右了，再换上两张 RTX 4000 Ada 20GB 显卡，速度也就不错了。如果要降低成本，现在新出的 RTX 5060 ti 16GB 也不错。

如果预算更充足的话，可以上 AMD 的 EPYC 9005 系列 CPU。这个 CPU 支持12通道。如果是双路就是24通道。大多数主板每路可支持 614 GBps。这样单路 CPU 就远远超过 RTX 5060，相当于 RTX 5070 的 672 GBps了。双路可达 1228 GBps。相当于RTX 5080（960 GBps）的1.3倍。四路48通道的话就是2456 GBps，超过 RTX 5090 （1792 GBps）1.37倍。

预算在1万5千美元到2万美元之间的话可以考虑这个方案。不过先说明，这只是理论方案，仅供参考，俺没有实际装过，实际效果怎样不保证。

CPU： EPYC 9115 16-core 现在才$659 美元，两个 $1,318。
https://www.newegg.com/amd-epyc- ... tem=N82E16819113865

主板（GIGABYTE MZ73-LM0 Rev. 3.x ) $1,196。
https://www.newegg.com/gigabyte- ... VsHSGZnHb2Rx-yPaXNl

内存： DDR5-5600 1.5 TB
A-Tech 512GB (8x64GB) 2Rx4 PC5-44800R DDR5 5600 MHz EC8 RDIMM ECC Registered DIMM 288-Pin Dual Rank x4 Server & Workstation RAM Memory Upgrade Kit
512GB 的 kit 一套 $2,559 ，三套就是 $7677

SSD 硬盘： NVME 4TB PCIe 4.0x4，这个随便在美国买，价钱都差不多，$200 左右。

CPU Cooler：Dynatron J12 AMD Genoa Socket SP5 Copper Heatsink and Active Cooler, 320W x2 https://mitxpc.com/products/j12?gQT=2 , $60 一个，两个$120

电源：1800 W 到 2000 W，美国买的话$600 左右。

机箱：e-ATX Tower, $300 左右。

GPU：RTX Pro 6000 96GB Max-Q $8,500

共计：$19,791

如果预算宽裕的话，CPU可以升级到 EPYC 9335 (https://www.newegg.com/amd-epyc- ... -from-price-options) 单价 $2,768 , 两个$5,536。

总计上升到 $24,009。

网上有卖 CPU+主板+内存套装的。例如下面这个：
https://spwindustrial.com/amd-ep ... Xapnwevz7fnOXQvDf1A

这个用的是上一代的 AMD EPYC™ 9654。单路带宽只有 460 GBps 相当于RTX 5060，但内核更多, 有96个内核共192逻辑内核。

这个卖家的套装价格是 $17,851.99。加上其他配件总计在 $25,000 到 $27,000 左右。

不过俺也没有从他那里买过东西，仅供参考，不保证其质量和信誉。

作者: 司马梦求 时间: 2025-6-17 11:55
本帖最后由司马梦求于 2025-6-16 23:13 编辑

楼上那个公款买没问题，个人搞有点小贵，最近在B站上看到一个配置不错：EPYC SP3主板为国内品牌，双路7624 CPU, 1TB DDR4内存，RTX3090, 加电源机箱什么的一套共2万8千人民币，跑DeepSeek R1 0528 FP8满血版也有5.5t/s，Q4能跑12/s，嫌R1呱噪可以上V3 0324 这个对于个人来说相当可用了

作者: 孟词宗 时间: 2025-6-17 20:25

司马梦求发表于 2025-6-17 11:55
楼上那个公款买没问题，个人搞有点小贵，最近在B站上看到一个配置不错：EPYC SP3主板为国内品牌，双路7624 ...

这个不错。EPYC 7003 有8通道单路带宽最高可达 204.8 GBps。双路就有409.6 GBps 了。相当于 RTX 5060。可惜一般主板最多只能插16个内存条，而64GB以上的内存条价格指数上升，所以经济条件下最多只能插 1TB，只能跑 R1 Q8 版了。

作者: 司马梦求 时间: 2025-6-17 21:23

孟词宗发表于 2025-6-17 07:25
这个不错。EPYC 7003 有8通道单路带宽最高可达 204.8 GBps。双路就有409.6 GBps 了。相当于 RTX 5060。 ...

视频里的不是unsloth 那些bf16,q8的路子，而是原版700gb的FP8

作者: 孟词宗 时间: 2025-6-17 22:51

司马梦求发表于 2025-6-17 21:23
视频里的不是unsloth 那些bf16,q8的路子，而是原版700gb的FP8

是的。FP8 700GB 正好在 1TB 的RAM容量之内。Unsloth 的版本只在更低的 Q1 - Q4 有实际意义，尤其是他家的 1.5-bit 量化版。

作者: 孟词宗 时间: 2025-6-20 11:09

大黑蚊子发表于 2025-5-19 09:26
老兄你牛，我...我是言语的巨人行动的矮子

主要问题还是家里太小了，放个服务器估计全家变机场得被老婆骂 ...

玩了一下最新MacBook Pro M4 Max with 128GB unified RAM。结果发现一个奇怪的现象。理论上这东西能把内存当显存用。实际上跑 30 GB大小的模型还有15 Token每秒，但一旦上了 50 GB就跑不动了，速度一下降低到只有0.6 Token 每秒。

俺用来测试的是最新的几个30B 模型的 fp16版和 Q8 版。结果在 4096 content 下，Q8 跑出了15 Token每秒，而fp16则只有0.6 Token 每秒。

这个速度还不如俺的那个AMD Ryzen AI 9 HX370 with 128GB Mini PC呢。 Mini PC 好歹还能把fp16版跑到1.5 Token 每秒呢。

苹果这个 unified memory 看上去没多大用处。这个机器零售价 $5,399 美刀，跑起来还不如俺不到一千刀的 Mini PC 。所以俺相当怀疑那个 512GB 的 Mac Studio 能不能跑 DeepSeek R1 671B 的 Q4 版本。

作者: 司马梦求 时间: 2025-6-30 22:50

孟词宗发表于 2025-6-19 22:09
玩了一下最新MacBook Pro M4 Max with 128GB unified RAM。结果发现一个奇怪的现象。理论上这东西能把内 ...

据说Mac M3/M4在FP16上确实比较弱，Q8表现符合预期

有种说法是Prompt Process的速度决定于FP16的表现，如果这个说法成立的话，也许可以解释你遇到的情况

512GB的Mac Studio肯定是可以跑DeepSeek R1 Q4版本的，这个有大量的例子，不过可能性价比不高，因为一旦context设置比较大 (比如让deepseek修改代码），PP慢的厉害（动辄10分钟以上），TG降到5t/s以下

作者: 孟词宗 时间: 2025-6-30 23:37

司马梦求发表于 2025-6-30 22:50
据说Mac M3/M4在FP16上确实比较弱，Q8表现符合预期

有种说法是Prompt Process的速度决定于FP16的表现， ...

是的，大家对 Mac 的表现普遍失望。也许这就是Apple Intelligence 前一阵一直雷声大雨点小，到现在基本没声音了的原因？

Context 尺寸越大速度越慢是个普遍问题。速率随着模型参数的增长而指数下降。同样，量化越少影响也越大，速度越慢。所以一般都拿4K作为标准 Context 测试长度。

至于 Mac 的性价比就算没有这个问题也不高。作为计算工具，Mac 完全走了一条邪路，完全就是把电脑当奢侈品在卖。同样花一万多买个 Mac Studio，还不如加一点钱直接装个服务器直接跑 fp16 版。

作者: 司马梦求 时间: 2025-7-2 23:24

孟词宗发表于 2025-6-30 10:37
是的，大家对 Mac 的表现普遍失望。也许这就是Apple Intelligence 前一阵一直雷声大雨点小，到现在基本没 ...

感觉兄台对FP16有点过于执着，就我最近一段使用的经验来看，DeepSeek R1 0528进步相当大，以至于dynamic quantization出来的量化缩水版本，比如unsloth的Q2，甚至ubergarm的Q1都相当不错，至少在python编程方面很有水准，可以实战的

作者: 孟词宗 时间: 2025-7-3 00:24
本帖最后由孟词宗于 2025-7-3 00:26 编辑

司马梦求发表于 2025-7-2 23:24
感觉兄台对FP16有点过于执着，就我最近一段使用的经验来看，DeepSeek R1 0528进步相当大，以至于dynamic ...

要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。问题是如果只是用来搞 Python 或其他编程，没必要用 671B 。

有意思的地方是 MOE 本身是个悖论。 MOE 只需要激活相关的专家功能区。但这个专家功能区在对应的 Specialized Dense Model  的情况下一般不会超过 30B 。有些做的好的，用14B-20B 就达到了很多更大的 LLM 的功能，而且还做的更好。

现在新流行的 Speculative Decoding 能让推理速度快上两三倍。其使用较小的草案模型,该模型生成预期令牌,然后针对LLM验证由较小的草案模型生成的输出令牌草案。通过推测性执行,可以更快地生成大型模型中的精确解码。通过同时在较小模型的粗略猜测上运行较大的模型来工作。这意味着我们可以在较大模型的一个前向传递中生成多个令牌,而无需更改输出分布。这其实和 MOE 的工作原理类似。都是对输入进行预处理然后用较小的资源进行真正的计算。

俺在其他帖子里说过，如果只是要写作，西文的 8B 就能写的和在线的全尺寸狗屁通差不多，写程序 14B 左右就基本可以了，如果要写中文 16B 左右就能写现代文，30B（经过训练例如 Qwen）就写像模像样的文言文和诗歌了。  企业级的商业应用也是根据企业的特殊需要而在基础模型上进行进一步训练。

像 671B 的真正使用场景只有是多用户，且没有明确使用目的通用模式。在线的各种全尺寸超大参数的模型，用来应付亿万同时在线用户的千奇百怪的要求是最好的。但个人和企业使用没必要。

如果只是专用，8B 的fp16版一般才 16GB，基本可以在任何好一点的现代家用电脑上跑，也用不到显卡。 30B 左右的最低要求也就是 64GB 内存而已。  而 DS-R1 的Q1版最少也有 131 GB。而性能还不如 DS-R1的 32B 蒸馏版，一般电脑还跑不了，那要它何用？

像俺这样拥有1.5TB内存的 Z8 工作站的，为啥要跑DS的Q1,Q2 版而不跑 fp16 版？即使是那个五百美元不到的丐版工作站也有512GB内存，为啥不跑 Q5 版的DS-R1 671B? 或者Qwen3 -235B-A22B 的fp16 全尺寸版？

作者: 司马梦求 时间: 2025-7-3 01:52
本帖最后由司马梦求于 2025-7-3 08:25 编辑

孟词宗发表于 2025-7-2 11:24
要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。问题是如果只是用来搞 Python ...

关于单纯的32B模型是否够用，这个可能确实因人而异。不过从实用角度讲，和DeepSeek R1 0528这种比较全面能战的确实没办法比。我们这里讨论的用户当然也不是普通用户，普通用户也不会本地跑大语言模型，而且是671b这种大型模型。
为什么我说单纯的32B模型不太行? 在我搞量化交易这个场景里面，稍微复杂点的场景比如给定若干限制条件，用python实现交易策略这种，不是单纯的策略讨论，或者辅助编程，常见的32B那几个我都试过，连问题本身都不能完全理解，DeepSeek R1 0528的Q2就没有问题，相当能打了，Q1勉强能用，这还是32K这种长context。

另外关于本地跑DeepSeek R1 0528是否是玩票，这个我有点不同意见。当然如果是作为hobby，怎么玩，玩到什么程度是很个人的事情。不过，如果稍加规划，尽可能的优化配置，消除性能瓶颈，提高PP和TG性能，在获得乐趣的同时，这个玩具是有可能同时作为生产力工具的。首先抬个扛，如果只是以把模型跑起来为标准的话，有mmap的存在，其实不需要1.5TB内存。据个例子，128GB RAM都可以跑220GB大小的Q2, 都还有TG 0.6tps。另外工具是否优化？比如我之前提到的那个1TB 内存跑FP8原版DeepSeek R1 0528的配置，他就不是用的常见的Ktransformers，因为是双路CPU, KT需要每个CPU拷贝1份，所以KT跑原版FP8内存不够，只能跑Q4版。视频主跑的是比较小众的fastLLM，不需要两份DeepSeek在内存。先聊这么多

作者: 孟词宗 时间: 2025-7-3 22:27
本帖最后由孟词宗于 2025-7-4 00:54 编辑

司马梦求发表于 2025-7-3 01:52
你说的挺有道理，其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度，实在太卡了，交互体 ...

Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好，最多到 3-5t/s。这还是在俺塞了3个 RTX 4000 Ada 共 60GB VRAM 的情况下。当然，Z8 用的本来就是 DDR4 2666, 双路一共才12通道，不像EPYC 90xx 单路就有12通道，而且还用 DDR5. 另外Z8的插槽是 PCIe 3.0 而不是 4.0或5.0。

不过俺对EPYC跑 fp16 的 671b 期望值也不高。网上有人装了 EPYC. 裸机只用 CPU 跑 Q8 能跑出 6-8t/s。
https://www.youtube.com/watch?v=v4810MVGhog

加了Ktransformer并使用 RTX3090 后跑出了 14t/s，但这是跑 Q4 的速度。
https://www.youtube.com/watch?v=fI6uGPcxDbM

他最后花了大价钱买了个最新的 RTX Pro 6000 Blackwell 96GB, 才能把671B Q4 跑出 20t/s。而且他说 Ktransformer 老是出问题。这俺也深有同感。
https://www.youtube.com/watch?v=vfi9LRJxgHs

如果 Q8 裸机是 6-8t/s 的话，fp16 估计最多 3-5t/s。而且随着 Context 被占用还会进一步减慢。前面说过，Context 的大小对速度也会有影响。如果不是 4K 而是 40K的话，速度可能会跌到 2t/s 以下。

如果只是要跑 Q4 版，那个一千美元的丐版也是可以把 Q4 跑出 1.2t/s左右的。当然这是初始速度。随着 Context 增加，速度也会减慢的。

个人使用的话，这个速度也差不多够了。不过从性价比来说，我还是主张租用云服务器的。至少云服务器的硬件比这些家庭版的服务器要好多了。速率下降的曲线也更加平缓。

作者: 司马梦求 时间: 2025-7-3 23:07
本帖最后由司马梦求于 2025-7-3 10:57 编辑

孟词宗发表于 2025-7-3 09:27
Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好，最多到 3-5 ...

信息量很大，谢谢指教。坦率的说老兄的配置如果算玩票的话，也凡尔赛凡的飞起了，lol

我这个量化策略开发，说是敝竹自珍也好说商业机密也罢，和个人隐私一起，算是本地跑DeepSeek的两个理由。租用的云服务器也许也是条路子，不过真的是否安全也是存疑。

个人使用的话，40K context如果完全版能到5t/s以上就基本可用了。我目前的理解是KT/fastLLM的CPU/GPU混合模式还是最优选项，PP的速度取决于显卡，TG的速度最终瓶颈在内存带宽。B站那个1tb ddr4-3200内存配置大概4000美元，不过国内东西便宜，如果这边攒的话，可能要多不少，5000美元是要的。如果上ddr5再加2000都不一定打住，这个预算的话具体如何分配还要仔细斟酌。

作者: 孟词宗 时间: 2025-7-4 01:10

司马梦求发表于 2025-7-3 01:52
关于单纯的32B模型是否够用，这个可能确实因人而异。不过从实用角度讲，和DeepSeek R1 0528这种比较全面 ...

你说的 fastLLM 是哪个？叫这个名字的不少。能给个链接吗？

如果你说的是Github上的这个：https://github.com/ztxz16/fastllm 他家的Model在 HuggingFace 上的 Repo 是这个： https://huggingface.co/fastllm ; 貌似这也不是完全版。他家的多是 Q4 和 INT4。所谓的满血只是指 671b 满血，而不是 fp16 671b 满血。

不过就算是 Q4 或 INT4 也挺有意思的，让俺试试，速度能不能提高一点。

作者: 司马梦求 时间: 2025-7-4 02:10
本帖最后由司马梦求于 2025-7-3 13:24 编辑

孟词宗发表于 2025-7-3 12:10
你说的 fastLLM 是哪个？叫这个名字的不少。能给个链接吗？

如果你说的是Github上的这个：https://gith ...

对，是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video/BV1657VzwEMY

ftllm有个download命令，这个命令就可以下载DeepSeek R1 0528原版
ftllm download deepseek-ai/DeepSeek-R1-0528

作者: 孟词宗 时间: 2025-7-8 11:38

司马梦求发表于 2025-7-4 02:10
对，是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video ...

试验了这个fastllm。  比较好的一点是安装说明写的不错，比 KTransformer要好多了。一键安装也做的很不错，即使包括前置依赖的安装也就几步。而且直接支持 Webui, 比KTransformer 和  Ollama 要自己弄前端用户界面要好多了。  而且比 KTransformer 好的地方是除了 Linux 还支持 Windows。

和 LM Studio 相比，大多数参数还是要从 CLI Option 来调节，不如 LM Studio 直接在用户界面里调节。从易用性和用户体验来说，虽然比不过 LM Studio，但比 KTransformer 和  Ollama 要好得多。

性能上来说，对于 fp16 版 DS-R1-0528 671B 的提升效果和 Ktransformer 没有太大区别。  LM Studio 把 KV Cache 和 Flash Attention 都打开后，速度也差不多。我想可能是由于：
1. fp16 版要 1.3TB，俺塞进 Z8 的三个 RTX 4000 Ada 共 60GB 还是不够看的。  看他写的安装说明中的例子都是用两张 48GB 的显卡来作例子。也就是至少是 RTX A6000 级别的，还是两张以上，那么至少就是 96 GB。才能有显著不同。如果看前面说的那个装 EYPC 的播主的视频，他也是装了 96GB 的 RTX PRO 6000 BlackWell 才得到显著提升的。可见显存得至少上 96 GB 才能配 671B 的Fastllm。

2. Fastllm 的安装说明里用的例子是双路 EPYC 9004/9005。可见他的实验机器大概率是  双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上（中国的话也可能是双 RTX 3090D 48GB 魔改版）程序大概率也是针对这个配置来优化的。而这个配置，俺前面的帖子里说过了，大致在$19,000美刀左右。

3. Fastllm 跑小模型跑的飞快。 fp16 版性能在俺的Z8上没有明显提升。但他家的 DeepSeek-R1-0528-INT4 版本的速度还是有所提升的。大致翻了一倍的样子。在那个一千美刀的丐版工作站上也跑的不错，最高能跑到5-6t/s。不过Context稍微长点就降到只有 2t/s 左右了。

4. 稳定性还是有一定的问题。它可能没有测试过太多的非 EPYC 9004/9005 机器。因此在俺的各种机器上跑，有时会出现内存溢出。结果APP被卡死，得Force Quit。

5. 说到 mmap，这的确可以用较小的内存跑更大的模型。但这个是有限制的。例如不能指望用128GB来跑 1.22TB 的模型。一般模型最多比内存多一倍了不起了。即使如此，用512GB来跑 1.22TB 也是不现实的。即使能跑起来，速度也拉胯到无法忍受的程度。

不过用 Fastllm 倒是有个惊喜。俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。如果用Ollama 或 LM Studio 就只有0.3 t/s 了。还真的提高了近十倍。

也不知道他们是怎么优化的。

Fastllm 好像是清华的人搞的，还是不错的。希望将来稳定性更好一点。

作者: 司马梦求 时间: 2025-7-9 03:54

孟词宗发表于 2025-7-7 22:38
试验了这个fastllm。比较好的一点是安装说明写的不错，比 KTransformer要好多了。一键安装也做的很不 ...

赞钻研精神！

俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。如果用Ollama 或 LM Studio 就只有0.3 t/s 了。还真的提高了近十倍。

话说这个确实有点厉害啊，接近可用了都

作者: 孟词宗 时间: 2025-7-9 06:03

司马梦求发表于 2025-7-9 03:54
赞钻研精神！

话说这个确实有点厉害啊，接近可用了都

这个必须是他家的 DeepSeek-R1-0528-INT4 版本才行。其他的 INT4 版本就不行。估计他们自己搞了点优化。

另外，Context 只有 4K。 SSD 是 PCIe 5.0x4 有 14.8 GB/S。带宽不少了，已经接近 DDR4 2133 的带宽了。如果准备用较少的 RAM 跑较大的模型，也许可以考虑用 PCIe 5.0x4 SSD RAID。放 4 个SSD的话，理论上可以达到 60 GB/s 左右，超过 DDR5 4800 的 38.4 GB/s。

作者: 孟词宗 时间: 2025-7-12 01:32

司马梦求发表于 2025-7-9 03:54
赞钻研精神！

发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外，似乎还存在一个内部的 Context 上限。不管跑什么版本的 671B 也不管 Context 设置到多大，一旦累积的 Context 达到 40K 就卡住了。要重启 fastllm 才行。这点不如 LM Studio，Vllm, Ollama 之类的了。

作者: 司马梦求 时间: 2025-7-12 03:09

孟词宗发表于 2025-7-11 12:32
发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外，似乎还存在一个内部的 Context 上限。不 ...

这个可以去GitHub报告一下，作者修bug挺努力的

作者: 孟词宗 时间: 2025-7-22 10:48

司马梦求发表于 2025-7-12 03:09
这个可以去GitHub报告一下，作者修bug挺努力的

这个bug很多人都报告了。有一位的观察比较仔细，其实不是 Context 的问题，而是作者对于显存管理不善。明显存在内存泄漏（Memory Leak）。一旦显存用完就卡住了。

这个bug已经报告了快两个月了。但作者几天前放出的版本仍然有同样的问题。fastllm 用C++实现自有算子替代Pytorch。C++快是很快，但要求极高的内存/显存管理水平。一不小心不是内存溢出就是内存泄漏。前面说过，他实验机器大概率是双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上，共有96GB显存，大概率他从来没碰到过显存用完的问题。

作者: 司马梦求 时间: 2025-7-24 01:52
本帖最后由司马梦求于 2025-7-24 08:56 编辑

孟词宗发表于 2025-7-21 21:48
这个bug很多人都报告了。有一位的观察比较仔细，其实不是 Context 的问题，而是作者对于显存管理不善。明 ...

这个bug可能有点难度，希望能够解决好。目前作者的最高优先级是增加对GGUF的支持，这样可以直接使用unsloth的量化版。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)