爱吱声

标题: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版 [打印本页]

作者: 孟词宗    时间: 2025-5-17 11:34
标题: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版
本帖最后由 孟词宗 于 2025-5-19 06:56 编辑

上回发了《再说 AI 本地部署 》后,@数值分析 同学问:
正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多少?
2.硬件的需求发展的速度大概能有多快?这个问题是看到4个cpu的过时惠普服务器才卖1000多刀,还慢的无法忍受,如果真的买了堆硬件自己在家搞,会不会不几年就不堪用也卖不出价,得扔了重新再买?


俺的回答是对速度不要抱太大的希望。对于平行处理要求高的大模型,放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然,这只是 inference 的效率,输出本身并没有那么快。直观上来说,不用显卡,只用内存时,回答显示得比较慢。尺寸小的模型还能达到一秒七八个字,基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快,超过在线版本的反应和显示速度。另外压缩的尺度越大,速度越快。例如问 QwQ-32B 全尺寸和Q8版同样的问题,Q8 比全尺寸快了一倍左右。

俺一直是主张使用云服务来解决硬件不足问题的。当时俺的结论是:
AI 大模型的发展其实是产生了对于硬件的新要求。这解决了长期以来的硬件算力过剩的问题。但 AI 大模型的尺寸成了制约其在个人级别硬件的应用。硬件的摩尔定律在现在的主流技术构架下近乎失效了。如果只是要让全尺寸万亿参数模型跑起来而不追求速度和精度,那么用 Cluster 的方案或者那个1万5千美元的工作站方案都行。但如果想要速度和精度,那么就得上真正的server了。

至于用过时的服务器。前面说过了,如果家里完全没有基础,从头搞一个服务器机房的投资远远超过你被家里批准的一千多美元   

不论用哪种方案,从投资角度来说,这肯定不会是一次性投资。就像买显卡,要么你一次性投资一个顶级显卡然后用十年,要么你买个便宜的但每两年就换个新的。

所以与其自己搞一大堆硬件,不如租个云端服务器。这样可以随时根据软件需求来升级硬件。


@大黑蚊子  同学的 Mac Studio 512GB 不知道入手了没有。很想知道实际速度如何。从网上的反馈来说,似乎速度也就十几个 Token 每秒。虽然看上去速度不错。也就和阅读速度持平最多了。

那么如果不讲究速度,我们只想把 @大黑蚊子 同学心心念念的 DeepSeek R1 671B Q4 版本跑起来,而且还要求成本控制在 @数值分析 同学要求的一千美元左右是不是有可能性呢?

那位买了人家退役的Dell R930 Server 的播主倒是也提供了一个一千美刀的解决方案。视频如下:https://www.youtube.com/watch?v=RMidGvCZc4g

在这个视频里,这位播主利用了一个旧的 HP Z440 加上一张英伟达 RTX 3090 24GB 的显卡。

另外,如果不用 RTX 3090, 那么就只要 $500, 视频如下: https://www.youtube.com/watch?v=t_hh2-KG6Bw

播主还给出了价格清单和测试结果:
$1000 美元(带 RTX 3090): https://digitalspaceport.com/100 ... mark-z440-and-3090/
$500 美元: https://digitalspaceport.com/500 ... 1b-local-ai-server/

问题是,现在通货膨胀得利害,虽然视频才发布了一两个月,那个 HP Z440 的价格已经翻番了。而 RTX 3090 的价格更是炒上了天。ebay 上最便宜的矿卡也得$650+运费。

而且这位播主玩了个花样。他列出的 HP Z440 一百美元的价格其实是光板机。要搞到 512GB 内存,你还得花 $500 。这样加起来至少得$1,600 左右才能搞定他视频里的那个机器。

当然,这还是比花一万美元的 Mac Pro 512GB RAM 要便宜了七倍。

那么还有没有更便宜的做法呢?一个方法是不要用那个播主的显卡 RTX 3090 24 GB。前一阵英伟达的 H20 被禁止向中国出口了。结果市场上突然冒出了大量的 RTX 5060 。这些显卡经各大权威鉴定玩游戏性能很差,但搞 AI 效果出乎意料的好。因此可以买一个 RTX 5060 TI 16 GB 作为代替。
[attach]117570[/attach]
这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)

这样价格就回落到一千美刀左右,而且肯定可以跑 DeepSeek R1 671B Q4 版本 了。

如果不喜欢用旧电脑,那么另一个方案则是自己造一台。闲来无事就自己实验了一把:
主板:Huananzhi x99 F8D Plus
[attach]117571[/attach]
阿里巴巴售价 $120

刚看到 Huananzhi 这个牌子,俺习惯性得误读为“淮南子”,心想人家这商标起得有水平,老板肯定是个文化人。后来发现其实是俺拼音不好念错了。人家的中文商标是“华南金牌”。Huananzhi 估计对应的是“华南智”。这是一家专门生产翻新主板的企业。啥教翻新主板?并不是主板是旧的,而是主板用的元器件都是别人处理掉的过时或剩余物资。在中国装机界,又称为“丐版”。

实际上,“丐版”并不“丐”。除了支持双路 Xeon CPU,还有双路 2.5 GB 网络。最重要的是它支持每 CPU 4通道 DDR4 内存。这样两个 CPU 理论上就有 8 通道。这对于我们来说就很重要了。服务器现在的主流还是 DDR4 内存。而一般家用电脑已经是 DDR5 了。但是,家用电脑一般只有 2 通道。目前流行的 DDR5 4800, 理论上在 2 通道下可以跑到 9600, 而DDR4 2400 在 4 通道下则也是 9600。双 CPU 8 通道则还要快一倍,达到 19200。虽然仍然比不上显卡显存的带宽,却也勉强可用了。

这是个双路 Xeon CPU 服务器版。厂家号称最高支持 512 GB。这比一般家用主板高多了。最主要的是有了 512 GB我们就达到了跑 DeepSeek R1 671B Q4 的最低要求了。

CPU: Intel Xeon E5-2695 V4 18-core
[attach]117572[/attach]
阿里巴巴售价$30一个,两个$60

E5-2695 V4实际可以支持最高1.5TB的内存,两个就是3TB。但主板并不支持3TB。

内存:64GB 4DRx4 2400 Mhz DDR4 PC4-2400T-LD1 LRDIMM Server RAM x8
阿里巴巴售价 $15一条,8条$120

当然,如果不想等,也可以在美国买: A-Tech 512GB Kit (8 x 64GB) 4Rx4 DDR4-2400 PC4-19200L LRDIMM ECC Load Reduced 1.2V 288-Pin Server Memory RAM 512 GB的 Kit $399

SSD: 1TB NVME Pcie 4.0x4
这个在美国买就行。一般$50左右就搞定了。

CPU Cooler:COOLSERVER R64 Server CPU Cooler 180w 4 Heatpipes Workstation Radiator PWM 4PIN Cooling Fan for Intel LGA2011
[attach]117573[/attach]
阿里巴巴售价$14.5 一个,两个$29

机箱: E-ATX SNOWMAN CS017 EATX ITX PC Case ATX Gaming Computer Desktop Mid Tower Dual Tempered Glass Mesh Face Reversed with 6ARGB Fans
阿里巴巴售价 $15.78

电源:850W 以上。
这个在美国买就行,一般 $69 左右。

显卡:Xeon E5 是没有核显的。如果想要利用最新的英伟达技术,那么可以买前面推荐的 RTX 5060 TI 16 GB
[attach]117570[/attach]
这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)

如果要买任何30xx以上的英伟达显卡,都不要去阿里巴巴买。原因是阿里巴巴的卡大多是假货。即使是真的,英伟达销往中国的显卡也是阉割版。而且价格比美国还高。

如果有预算考虑,那么也可以买一个翻新的 AMD RX 580. 这卡在阿里上特别便宜, 8GB 版本才$48 。


总计:
方案一:用英伟达 GeForce RTX 5060 Ti 16 GB
[attach]117574[/attach]


方案二:用翻新的 AMD RX 580
[attach]117575[/attach]

当然这些价格没有计算运费和川总要收的关税以及在美加各地的销售税。大家如果有兴趣可以自己调节。大致如果全部都在美国买的话,方案一会上涨到$1,200 左右,而方案二会上涨为$830 左右。

装起来之后进行测试,不但可以跑 DeepSeek R1 671B Q4 版本,也可以跑 DeepSeek R1 671B Q5 版本。更可以跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。当然,跑起来的速度都不快。即使是方案一,也就和那个播主的3090机器基本持平。而 方案二 的 RX580 由于没有被各大 AI 软件优化过,不但不是助力,反而会造成不少问题。因此在运行时要禁用 GPU,只跑 CPU。这时候 双 CPU 36 核(72 逻辑核)的威力就显现出来了,居然能跑 0.62 个 token 每秒 (笑),first token 69 秒。

不过,九百多美元的方案一,五百美元出头的方案二,也就不要指望啥性能了。这个速度干正经事是不行的。但用来娱乐一下还是不错的。领导就调侃俺说,这是你的成年人LEGO。

既然不追求速度,俺还实验了在本地部署 fp16 全尺寸的 DeepSeek R1 671B 。当然,fp16 版是无法用这些不到一千的方案部署的。预算起码要三千以上。俺入手了一个翻新的 HP Z8 工作站,把内存扩展到 1.5 TB,换了显卡。现在啥大模型的 fp16 版都可以跑了。速度慢点,但娱乐性很高。而且这个实验说明不需要那个播主推荐的 Dell R930 Server ,只需要 HP Z8 工作站就行了。

顺便说一句,用这些家庭版本地部署方案的时候,模型越大,加载时间越长。Q5 版本有近 500 GB,不论什么机器都需要近 30 分钟才能加载到内存中。而 fp16 的 DeepSeek R1 671B 有 1.3 TB,需要一个多小时才能加载完毕。对很多人来说,玩本地部署 AI 吐字慢不算大问题,但加载慢可能很多人就受不了了。

这篇算是对这段时间玩 AI 本地部署的小结。下一步仍然完成那个 Mini PC 的 cluster。到时候 叕说 AI 本地部署吧。
作者: 怎这样呢    时间: 7 天前
x99主板的正确打开方式是用E5V3CPU打鸡血BIOS
作者: 孟词宗    时间: 7 天前
怎这样呢 发表于 2025-5-19 05:25
x99主板的正确打开方式是用E5V3CPU打鸡血BIOS

E5V3虽然便宜,但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来说也没有多大优势,V3 和 V4 差几美元而已。

鸡血 BIOS 超频却很少能全CPU锁频,真跑大模型的时候没啥用处。

Xeon 作为服务器 CPU,它的目的不是给发烧友超频,而是要求稳定性。有些所谓的鸡血 BIOS 其实就是厂家的对该主板的后续 BIOS,修正了出厂 BIOS 的一些漏洞,在性能上有所提高。这时候更新到最新版本的 BIOS 的确能提高性能。而另外一些鸡血 BIOS 以牺牲稳定性为代价就不值得了。尤其是 Xeon, 官方不支持超频。即使你强行超频了,稳定性下降,性能反而没有提升,得不偿失。

另外,很多鸡血 BIOS 的所谓“性能提升”,例如玩游戏的时候 FPS 翻了一倍之类的,其实是优化了的CPU和GPU的数据传输。我们的这两个方案中,家用 GPU 基本分担不了多少负载,除非你上企业级的多个 GPU 联合组群,软件还得是专门优化过的。绝大多数负载还是在 CPU 上跑,尤其是方案二。BIOS 在这种情况下对 CPU 性能提升微乎其微。

如果不是用来玩游戏,把BIOS更新到最新的厂家正式BIOS也就可以了。
作者: 雷声    时间: 7 天前
上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸好限购就只买了一个,插上机器之后发现虽然有两个卡槽,但是显卡太宽,真插满两个的话一个问题是GPU之间几乎没有空隙,对散热不利,还有一个是几乎占了所有插槽,插NVME的卡就没位置了。总之现在只有一个卡,先玩玩吧。两块5070估计也没有什么本质改善。
作者: 孟词宗    时间: 7 天前
本帖最后由 孟词宗 于 2025-5-19 08:25 编辑
雷声 发表于 2025-5-19 07:51
上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸 ...


如果不玩游戏,俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 180瓦低多了,更是只有5070 ti 的300瓦的40%。$350-$500美刀的主板一般会有3个以上的PCIe x16 插槽。可以插好几个。目前美国的价格是$1,279。虽然这卡相当于 4070 Ti, 但架不住性价比好,显存多。在本地跑 AI,尤其是大模型,显存容量比GPU速度更重要。

现在5060 Ti 16GB 出来了。倒是又能玩游戏,又能玩 AI。从目前趋势看。这个“低端”卡还会继续降价。毕竟官方指导价是 $429。5060 Ti 是众英伟达显卡中少有的价格持续走低的卡,现在只比官方指导价高$50了。至于沙特签的那个大单,谁都知道沙特在沙漠里挖出了阳澄湖 而 H20 这种阉割版,王爷肯定是不要的。而黄皮衣宣布要继续阉割 H20 以图合规出口中国。俺都不知道中国会有多傻才会不要大闸蟹而要小螃鲚。预计5060 Ti的价格还会持续走低。
作者: 大黑蚊子    时间: 7 天前
雷声 发表于 2025-5-19 07:51
上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
话说回来幸 ...

两块5070没有啥用吧,又没有nvlink

作者: 大黑蚊子    时间: 7 天前
老兄你牛,我...我是言语的巨人行动的矮子

主要问题还是家里太小了,放个服务器估计全家变机场得被老婆骂死...

还有就是前段时间钻空子搞了个google one的账号,能用Gemini 2.5 Pro,且先这么着吧
作者: 雷声    时间: 7 天前
孟词宗 发表于 2025-5-19 08:19
如果不玩游戏,俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 1 ...

是的,我在4000和5070之间犹豫了很长时间。 最终败给了预算。 4000还是贵不少,而且单卡慢一些。刚好手上有个前前老板给的一个小项目要做目标检出的training。游戏是自从结婚之后就没玩了。上上周给儿子买了个新的游戏本(他自己用的是个用了5年的破二手笔记本,键盘都按碎了一个),沾沾自喜地跟他说这个玩游戏很好的。他很茫然地说啊。。。谢谢。我就很挫败。不知道现在的小崽子们喜欢干啥。
作者: 雷声    时间: 7 天前
大黑蚊子 发表于 2025-5-19 09:23
两块5070没有啥用吧,又没有nvlink

训练快一倍,而且刚好卡住预算上限。做大模型的话。。。应该也能快一点吧。
作者: 大黑蚊子    时间: 7 天前
雷声 发表于 2025-5-19 09:52
是的,我在4000和5070之间犹豫了很长时间。 最终败给了预算。 4000还是贵不少,而且单卡慢一些。刚好手上 ...

如果是搞Ktransfomer的话,他们在传Intel有一个B60要出来,24G的,估计会更适合,而且成本可控
但就不知道能不能面向零售市场
作者: 孟词宗    时间: 7 天前
大黑蚊子 发表于 2025-5-19 09:23
两块5070没有啥用吧,又没有nvlink

虽然5070不支持 nvlink, 但插两张卡以上的时候,主板支持的话,是会在 nVidia control panel 里显示 SLI configuration 的。把 SLI 设定为 “Maximize 3D Performance”。 虽然不会像 nvlink 那样显示为一张卡并合并显存,但可以在 CUDA 层面上协同。而 Ollama, LM Studio 之类支持 Multiple GPU。加了 SLI 之后性能会更好一些,可以分配更多的 Model Layer 到 GPU 上。这样速度一般会更快。

所以俺以前推荐 RTX 4000 Ada。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。如果你要搞训练(俗称炼丹)的话,三个卡会让你体会到为啥这是最受欢迎的工作站卡的。
作者: 大黑蚊子    时间: 7 天前
孟词宗 发表于 2025-5-19 10:06
虽然5070不支持 nvlink, 但插两张卡以上的时候,主板支持的话,是会在 nVidia control panel 里显示 SLI  ...

赞,受教了
作者: 怎这样呢    时间: 7 天前
孟词宗 发表于 2025-5-19 06:19
E5V3虽然便宜,但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来 ...

扫了眼ebay,两者的价格其实是倒挂的,18核的2696v3跟20核的2698v4都是65刀上下,而同为18核的2697v4只需要35刀,从垃圾佬的角度来看v3显然还是更受欢迎的。

我的理解鸡血bios不是超频,而主要是把全核睿频提高到跟单核一个水平,稳定性肯定有损失。不过这个玩法能够广为流传,可玩性应该还不错的。另外要说那个年代的DDR3和DDR4,恐怕没有太大的差别,v4最高支持2133还是多少来着?刨去更高的延迟,不见得好过DDR3 1866
作者: 孟词宗    时间: 7 天前
怎这样呢 发表于 2025-5-19 10:47
扫了眼ebay,两者的价格其实是倒挂的,18核的2696v3跟20核的2698v4都是65刀上下,而同为18核的2697v4只需 ...


V4 最高支持 DDR4 2666。DDR3 一般只有 1866。另外,价格是说同型号的不同版本,例如2697v3 (最低 $20)和 2697v4 (最低 $25)。但并不是说不同序列的 v3 和 v4 价格相近。虽然都是 Xeon, 但有些型号的 v3 的性能比 其他型号的v4 更好,或更受欢迎一点。

内存也不是光看延迟。在服务器或工作站环境下,多通道对提升内存速度影响更大。例如前面举的那个8通道。用DDR4 2400, 八通道可达19200, 而1866就只有14928。虽然相差倍数没变,但互相之间的差值增加了。好比多年前房价一万一平米,工资一千一个月,差十倍。现在十万一平米,工资一万一个月,仍然差十倍,但差值从九千涨到了九万。

至于鸡血 BIOS,俺不是说了"很少能全CPU锁频,真跑大模型的时候没啥用处。"? 说穿了,就是把 CPU 一直放在类似于 Turbo Mode 上跑。这对稳定性伤害很大。玩游戏无所谓。这些老旧 Xeon 以前最大的用处就是用来玩游戏。说实在的,Xeon 就不是用来干这个的。只不过大家觉得一个 Xeon 的价格是家用 CPU 的十倍甚至百倍,自然性能是绝对好的。实际上则类似于半挂大卡价格比家用轿贵的多,但最高时速、加速度、拐弯和操控都未必比得过家用汽车一样。现在有 LLM 了,这些老旧 Xeon 才算又有新的用途了。倒不是说它们的性能更适合跑 LLM,而是它们支持的内存远远大于家用 CPU,可以用低价达到大模型要求的内存标准罢了。


作者: 大黑蚊子    时间: 7 天前
孟词宗 发表于 2025-5-19 10:06
虽然5070不支持 nvlink, 但插两张卡以上的时候,主板支持的话,是会在 nVidia control panel 里显示 SLI  ...

Intel 今天在computex上发布了B60 24G的显卡,KTransformers已经发文说新版本支持了(单Xeon 5+DDR5+A770能够跑到7.5tokens每秒

更神的是MaxSun(铭瑄)发布了Dual B60 pro 48G,就是俩B60芯片放一张卡上,再加48G显存

小道消息说新品上市不会超过1000刀,估计有爆卖的潜力
作者: 孟词宗    时间: 7 天前
大黑蚊子 发表于 2025-5-19 21:26
Intel 今天在computex上发布了B60 24G的显卡,KTransformers已经发文说新版本支持了(单Xeon 5+DDR5+A770 ...

Intel 官网也宣布了 B60 pro 48G。铭瑄这个Dual B60 pro 48G 应该就是具体实施版。如果价格低于一千美刀的确很有吸引力。

速度来说 B60 pro 才 197 TOPS (394 TOPS INT 8),大致相当于英伟达 RTX 3060。

俺最看重的是它的功耗比较低 (120-200W),而且可以插到8张卡,这样就有384GB显存。

KTransformers 支持的是上一代的 A770。Intel 的 OneAPI 没有像 CUDA 那样形成生态环境。而且和 AMD 的 Rocm 一样东一榔头,西一棒槌。技术支持不好。能跑 A770 未必在 B60上跑的一样好。不过这就要看 KTransformers, Ollama, LM Studio 这些软件开发的力度了。
作者: 大黑蚊子    时间: 7 天前
孟词宗 发表于 2025-5-19 21:58
Intel 官网也宣布了 B60 pro 48G。铭瑄这个Dual B60 pro 48G 应该就是具体实施版。如果价格低于一千美刀 ...

这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持
所以KT支持Intel架构的力度应该也不会差就是了
作者: 孟词宗    时间: 6 天前
本帖最后由 孟词宗 于 2025-5-20 02:22 编辑
大黑蚊子 发表于 2025-5-19 23:35
这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持
所以KT支持Intel架构的力度 ...


B50 16G 官方指导价$299。B60 24G 官方指导价格据说是$500。B60 48G 估计到不了一千,$799 到 $899 最多了。官网的性能参照对象是 RTX A1000,B50 16GB 是 RTX A1000 8GB 的1.5倍。也就是说相当于 RTX 3060 的水平 (RTX A1000 相当于 RTX 3050)。B60 48G 性能相当于 RTX A4000 但显存相当于 RTX A6000。

[attach]117590[/attach]

性价比来说 RTX1000 现在一般要$399。所以B50 16G 是冲着低端市场去的。RTX A4000 现在是一千左右。B60 24G便宜一半。B60 48G 如果是 $799 到 $899, 冲着大容量显存是有人买的。但也是 DIY 和低端工作站。毕竟 RTX 5060 ti 16GB 官方指导价才$429 (市场价$479),而 RTX 5060 ti 16GB 能跑出 759 AI TOPS,是 B60 24G 的三倍还多。

实测的话,RTX 5060 ti 16GB 跑 32B 或 70B 应当和 B60 48G 持平。

作者: 孟词宗    时间: 6 天前
大黑蚊子 发表于 2025-5-19 23:35
这个事儿我直接问了章明星
他说很感谢Intel对他们这个项目的大力支持
所以KT支持Intel架构的力度 ...

刚说了 RTX 5060 Ti 16GB 的价格下行。结果今天就跌破官方指导价的$429了。

MSI Gaming RTX 5060 Ti 16G Gaming OC 只要 $339

https://www.amazon.com/MSI-Graph ... 435179338&psc=1

看起来 Intel Arc B50 对黄皮衣的冲击不小。AI 现在不论是硬件还是软件都是华人华裔内卷内战
作者: 孟词宗    时间: 6 天前
雷声 发表于 2025-5-19 09:52
是的,我在4000和5070之间犹豫了很长时间。 最终败给了预算。 4000还是贵不少,而且单卡慢一些。刚好手上 ...

俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说现在不太玩游戏了。那个机器足够用,还不用换。

但问题是他不玩游戏,却收藏游戏。Steam 上几百个游戏,基本都只玩过几小时。有些才几分钟。俺和领导商量,必须得找个媳妇管钱包了。否则钱倒是赚得不少,一分钱都存不下来。
作者: 大黑蚊子    时间: 6 天前
孟词宗 发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

什么?
游戏买了不就是买了么?
还要玩?
那我买什么游戏?

估计不少是steam送的


作者: 伯威    时间: 6 天前
学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗?
作者: 孟词宗    时间: 6 天前
伯威 发表于 2025-5-20 11:29
学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗? ...

LM Studio,Ollama, Jan, 都可以用。如果 OS 是Windows,推荐 LM Studio,简单易用。如果是 Linux,Ollama 安装起来容易一些。当然 LM Studio 也不难就是了。KTransformers 现在只有 Linux 上还支持。初学的话不推荐这个,设置起来太麻烦,安装说明也写得一塌糊涂。

以前还有个 GPT4ALL,不过已经3个月没更新过了。
作者: 怎这样呢    时间: 6 天前
孟词宗 发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

年纪轻轻就是喜加一党了
作者: cindia    时间: 4 天前
怎这样呢 发表于 2025-5-20 22:29
年纪轻轻就是喜加一党了

如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话(当然是有关这些文章的). 应该如何操作?大致预算? 谢谢.
作者: 孟词宗    时间: 3 天前
本帖最后由 孟词宗 于 2025-5-25 00:37 编辑
cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...


看你准备怎么弄。也就是说你要达到具体什么性能指标,预算是多少。如果只是个人使用,最低标准就是我文章里的那个一千美元的 512GB RAM 丐版工作站。那个方案里的 NVME 只有 1TB。由于你要在本地储存大量供阅读的文章,有可能你要扩展到 2TB 到 4TB甚至更多。个人级别加硬盘储存并不贵,最多加几百美元。

如果你准备搞多用户,那就要上真正的企业级服务器了。如果是准备跑 DeepSeek R-1 671b fp16 版 或者 DeepSeek V3 0324 671b fp16 版 或类似尺寸的 (例如 Llama 3.1 405b fp16) , 一般需要 8块 H100 或 H800, 或至少要 H20 。H100 每块的零售价$27,500, H800 反而更贵要$33,800, H20 市面上现在没货。服务器本身不贵,双路或四路 CPU,但加上1.5 TB 到 2 TB 内存 就要3到5万美元了。这样加起来,不算乱七八糟的附件,自己组装的话,硬件本身需要 25万到30万美元的样子。

要继续压缩成本也行。一是换成上代的 A100 每块市价也要$16,000左右。这样硬件成本可以降到 15万美元左右。另一个办法则是不用服务器级别的显卡,改用工作站级别的,例如英伟达已经宣布但还没有上市的 RTX Pro 6000 Blackwell Max Q 96GB。这个卡现在预定价格只要$8,500 一张。这样成本可以进一步下降到$96,000美元左右。

下面这个网站可以定制服务器和工作站,当然价格比自己造要贵的多。但至少让客户有个直观的不同配置的价格变:
工作站配置器: https://bizon-tech.com/deep-learning-ai-workstation
服务器配置器:    https://bizon-tech.com/deep-learning-nvidia-gpu-servers

英伟达有配好的服务器,下面是某个代理商的网站,仅供参考,俺没有从他那里买过东西,不保证其信誉:https://marketplace.uvation.com/ ... EAQYAyABEgL9zfD_BwE  

另外,英伟达已经官宣了 NVIDIA DGX Station (https://www.nvidia.com/en-us/products/workstations/dgx-station/) 。这是个用 coherent memory 的工作站,可达 748 GB。两个串联起来也足够跑 DeepSeek 671b fp16 版了。但现在还不知道量产版价格是多少。

如果你不需要跑 fp-16 版本,那么硬件选择就很多了,价格也会随着配置而变化。例如你如果选择跑 DS-R1 671b 的 Q4 版,而且同时在线用户少于5个的话,可以入手四个串联的英伟达 DGX Spark 有总共 512GB. 这东西 $3,999 一个。ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西,只不过换了个壳。而且价格比英伟达低大概四分之一。四个连配件大概 $13,000 左右。

如果你不是非要跑 DeepSeek 671b 的话,512GB 足够跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。

如果你进一步降低对大模型参数尺寸的要求,那么 30b 级别的大模型的fp-16版只有 60 GB 左右,70b 级别的则是 140 GB。你弄两张 RTX Pro 6000 Blackwell Max Q 96GB 或四张 RTX 6000 Ada 48GB 都能跑。这样成本就只有3万到5万美元。

同时在线用户少于5个的话,理论上还有一个方法是买三个 Mac Studio 512GB 串联起来组成 Cluster 共 1.5 TB内存/显存。连配件加起来是 $35,000 美元左右。理论上也可以跑 DS-R1 671b fp16 版。如果你只要跑 DS-R1 671b Q4 版或 Qwen3 -235B-A22B 的fp16 全尺寸版, 那么买一个 Mac Studio 512GB,一万美元出头就搞定了。不过俺没有玩过新的 Mac Studio,具体效果存疑。

软件的话,单人使用 LM Studio 或 Ollama 或 GPT4ALL 之类的都行。多用户,多服务器就需要 VLLM 之类的软件了。
作者: xiejin77    时间: 3 天前
cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你
作者: cindia    时间: 3 天前
xiejin77 发表于 2025-5-23 06:09
国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你 ...

遗憾 在美国
作者: 大黑蚊子    时间: 3 天前
cindia 发表于 2025-5-23 07:38
遗憾 在美国

看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话怎么优化
作者: 司马梦求    时间: 前天 23:38
大黑蚊子 发表于 2025-5-23 02:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

确实Mac studio 512G这款最合适,而且方便公司走账
作者: 孟词宗    时间: 昨天 00:34
本帖最后由 孟词宗 于 2025-5-25 00:36 编辑
大黑蚊子 发表于 2025-5-23 15:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...


现代CPU,尤其是服务器级别的 CPU 跑大模型理论上是没有问题的。相比 CPU, GPU有更多的内核,可以进行更好的平行处理。但服务器级别的 CPU 的内核其实也不少,基本也够用。实际操作的问题在于内存的带宽跟不上处理速度,结果造成所谓的 Memory Wall。这成为主要瓶颈,所以苹果和英伟达要用 unified/coherent memory 。举例来说,5年前出品的两代前入门级别的 RTX 3060 的带宽可达 360 GBps 。而DDR5-5600 的带宽只有 44.8 GBps。只有 RTX-3060 的九分之一。而最新的入门级 RTX 5060 带宽可达 448 GBps, 正好是 DDR5-5600 的十倍。

解决方案就是增加通道。例如那个丐版双路 Xeon E5 可达八通道。如果是跑 DDR-5600 就基本接近 RTX 3060 的带宽了。但由于其最高只支持 DDR4-2400, 八通道 只能达到 RTX 3060 的一半不到。俺入手的那个 HP Z8 是双路 Xeon Gold 61xx。可支持最高 12 通道,DDR4-2666, 这就达到 RTX 3060 的60% 左右了,再换上两张 RTX 4000 Ada 20GB 显卡,速度也就不错了。如果要降低成本,现在新出的 RTX 5060 ti 16GB 也不错。

如果预算更充足的话,可以上 AMD 的 EPYC 9005 系列 CPU。这个 CPU 支持12通道。如果是双路就是24通道。大多数主板每路可支持 614 GBps。这样单路 CPU 就远远超过 RTX 5060,相当于 RTX 5070 的 672 GBps了。双路可达 1228 GBps。相当于RTX 5080(960 GBps)的1.3倍。四路48通道的话就是2456  GBps,超过 RTX 5090 (1792 GBps)1.37倍。

预算在1万5千美元到2万美元之间的话可以考虑这个方案。不过先说明,这只是理论方案,仅供参考,俺没有实际装过,实际效果怎样不保证。

CPU: EPYC 9115 16-core 现在才$659 美元, 两个 $1,318。
https://www.newegg.com/amd-epyc- ... tem=N82E16819113865

主板(GIGABYTE MZ73-LM0 Rev. 3.x ) $1,196。
https://www.newegg.com/gigabyte- ... VsHSGZnHb2Rx-yPaXNl

内存: DDR5-5600 1.5 TB
A-Tech 512GB (8x64GB) 2Rx4 PC5-44800R DDR5 5600 MHz EC8 RDIMM ECC Registered DIMM 288-Pin Dual Rank x4 Server & Workstation RAM Memory Upgrade Kit
512GB 的 kit 一套  $2,559 ,三套就是 $7677

SSD 硬盘: NVME 4TB PCIe 4.0x4,这个随便在美国买,价钱都差不多,$200 左右。

CPU Cooler:Dynatron J12 AMD Genoa Socket SP5 Copper Heatsink and Active Cooler, 320W x2 https://mitxpc.com/products/j12?gQT=2 , $60 一个,两个$120

电源:1800 W 到 2000 W,美国买的话$600 左右。

机箱:e-ATX Tower, $300 左右。

GPU:RTX Pro 6000 96GB Max-Q $8,500

共计:$19,791

如果预算宽裕的话,CPU可以升级到 EPYC 9335 (https://www.newegg.com/amd-epyc- ... -from-price-options) 单价 $2,768 , 两个$5,536。

总计上升到 $24,009。

网上有卖 CPU+主板+内存套装的。例如下面这个:
https://spwindustrial.com/amd-ep ... Xapnwevz7fnOXQvDf1A

这个用的是上一代的 AMD EPYC™ 9654。单路带宽只有 460 GBps 相当于RTX 5060,但内核更多, 有96个内核共192逻辑内核。

这个卖家的套装价格是 $17,851.99。加上其他配件总计在 $25,000 到 $27,000 左右。

不过俺也没有从他那里买过东西,仅供参考,不保证其质量和信誉。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2