爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。& c2 \3 B  F, g. `* X# ?
. X9 j% j9 j. O: u
DeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。
4 G$ o* o; b: _( z; F- \) c
5 d; i0 ?$ E/ k" [5 ?6 W下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。6 u3 |- z, w  R# f0 ~; D2 N
3 ~4 Y4 j/ I) L* Z$ L1 e
第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。; @/ e8 Z4 z7 z0 j5 i

, o& c. {' l7 b4 L0 g第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。
- S1 g7 B! A" r* {* d
) x0 P6 n$ n' I3 p( g: f7 n
, l; ?3 }; g% i4 {: u- s第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
' @, ~& T, E7 G* y( o( c. Z) X- U. s( p! s. S
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB8 x2 h% ?2 Z6 {  X/ y/ C
(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
' f  R$ L; L5 K$ ?" m/ B
4 I: H. F) [1 M; k其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
' M3 {, n4 u6 i( n9 Q0 b9 w5 M" }
7 E* F0 T( u& q: H, o5 i. C. R( m最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%
7 T( ^" t0 X5 d6 k# @7 W: f+ _/ i! K7 B2 I
RAM 512GB DDR4       1000+* j+ }0 ^8 `9 i, h/ e
CPU 7C13或相当           700+
* B( w2 |4 M9 }% G' J( S' t+ z主板(单路即可)         5005 ]  `/ I% f5 f! g7 R) z
显卡 3090                  1000- ×2
- Z2 I, @# {) `" r6 A固态硬盘                     200+
6 H5 q5 G5 i9 ^6 X5 ?其它 机箱、电源、散热器等# k  l& J) z* b
+ I' r, M+ ^; m3 U

作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑
3 e" N# @8 u5 o; S" E) g. `  l* G
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了# c# C" a5 q. q: p5 ~4 q, p$ i
在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 64307 k# ^/ G, ^% j8 t# C
但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内6 e9 _& t! Z+ }' `$ Y
显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以! A( @, B( @+ j. ~7 ~+ e( @

/ p; ~$ Q- I" X0 b6 n6 }  o# U, u' O周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27
. z9 G( u. l6 j+ k6 J说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
  z, C- s; ], g6 _$ O
真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45
# X" m: x, O6 Q- Z* @真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
5 W8 X0 h% ~2 y# W
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:50
! E- M" f+ K5 l* \3 u% F/ Z& K社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,

1 p$ x  m9 o: i' x攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑
" a3 }8 @: R6 ^( p* N7 A1 l$ J$ `5 L! J* d" g- O# J% T

( y* c  k7 S. ^5 _9 G这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:320 U: X6 I: l- ~- @, V" d% P) Z
这是大华股份根据国产芯片的一体机,
7 a+ \" h1 t- ]- d) z# a
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
, O- c& [' R; i! ]$ O' b+ v9 P我在自家电脑上搞了一个7B的模型试了下,真的是不太行- g# L) k8 C. h& D7 [; t- ?: t
我估计32B和70B也都不太行
5 N. i+ J. M  L3 E( ]3 U; [这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的* V- N8 `8 W5 V  E; m) H$ \# s; s

% i7 I( E. y+ b2 X' P* a% }9 n4 }- C9 G
不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:19
( p, n/ Z% R: _# y  _$ _攒了以后干啥呢?
, T4 b3 z' h3 P
想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38' a* R, t+ e5 F4 x/ F& r, H
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
7 y1 k& A7 g4 r" S) U# A6 o  f5 f我在自家电脑上搞了一个7B的模型试了下, ...

; }: P! W3 F  h9 v0 M8 T3 w找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45
# U  v4 ]; ]+ m4 b, K4 v找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...

- g  |# a# u9 k2 z1 c% g& I我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
! \; d% y$ k6 K# `! t打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿. \- H0 M5 {8 j
去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38
1 c6 a  B6 X/ x7 Y6 |0 o大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型( R6 @9 B/ Z/ L' L
我在自家电脑上搞了一个7B的模型试了下, ...
6 f5 [+ S% q/ e2 ?# Y9 s8 ^
好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:53
* O: ~" j9 ]# v9 k好奇你攒个模型做啥?
2 s" C  E3 g4 V

" m+ z4 ]7 {5 W# r1 F& ?8 R玩啊,好奇啊,这很可能是通向新世界的大门! Y! N/ _7 u* Y0 J, u
有这个条件的话,干嘛不玩?
: z; C: p" V% \  o% d# Q, e6 ]* S2 ^' P  V, M  R+ ~8 b
现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
  ]0 p9 m6 r) y
) b# e$ r; e' J6 C4 C( d+ d  eDeepSeek的出现,极大降低了大模型训练和部署的总体成本( v& `) v1 o: K$ E, w# M
KTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪1 C, k/ @/ B. p& l$ X

; O) y$ a: R# q- y这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间
9 }. A7 m( d7 y" P) V玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:27
/ a4 V6 B$ W! J# C: x6 q3 W说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
2 F5 ~, o3 b0 q. L& Y, D
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。
7 K- v) Z  O" G! ?9 y# ?' H; [
# ~0 h5 w. G, ]$ Q/ {3 x6 e5 f; z对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:535 l# z- t0 b6 ]- l7 o
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
. ~9 R: [) h2 ~4 o# _打听了一下Intel的至强4代C ...
) r+ a. ?+ U' Y7 ~! O
"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:03
/ [# c8 Y0 p/ q9 D玩啊,好奇啊,这很可能是通向新世界的大门
3 z- n7 c) }) ?% c$ _有这个条件的话,干嘛不玩?

1 X" L  {' |( w3 S1 S6 A握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30* r3 R0 X+ W9 l" \* e' t" ~. r
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...
( z# w2 M3 l7 k. ^  f
所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。2 ^: K+ B# u$ U) G

* f. R% C+ b% L# l4 I目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。
/ X2 R  j0 B/ O* q/ c# i! F- h% E! i# l2 t3 C# [2 A
DS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。
  W4 w( L7 n- S4 A3 T$ v* q2 |
1 [& ~# L$ b3 Z7 R0 B  C而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。6 q: B3 H" K- h. f$ e/ i

1 }( @' y4 e" I9 \再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16# ?2 F- B7 Z" ?6 v4 B! h
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...

( o& U- c  q3 e0 |2 k& k我建议你再看一下KTransformers的相关资料
. B6 r- `6 j) `+ a0 c这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。, e. B  j* W. E$ \2 Y1 R" }3 O; D
DDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半6 n. ~0 j( N3 g; m
CPU的带宽再砍半的话,又要丢失速度- H: B. o- ?' A0 p" T- c3 u! K+ d
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果
( }# G8 [; X; {; X: l6 Z6 L' o对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊
1 E  l2 Y) }" j/ P4 P. R我觉得起码要搞个输出4-6token/s才行吧  W/ {) s  r; s+ N' b
按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:10& T4 [( D. |/ F7 @2 O
我建议你再看一下KTransformers的相关资料+ o" t( N5 g, z9 H% S# ]
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
6 V$ H' o1 ~0 l# w7 b
欢迎讨论。
' s2 M) m8 [0 r
. M7 E8 J9 W0 \3 E8 e% _0 a$ y9 l* [* c首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。# J5 v, I6 l7 J5 R3 Q

7 y7 q% j3 _. M6 vCPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。
3 W! [$ k" E# I1 e" a( g+ P$ N1 i4 N2 ^: j$ A' K9 N9 K; V" T
以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:10
) B1 M! ]; l" e, J# ?- x0 b- |: j" \' [欢迎讨论。
1 U7 x9 [0 x3 H7 \  ~! v
1 Z- d9 Y/ K3 N8 S6 @首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...
! U! |8 u5 X4 r* E3 ~
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本4 I' p4 Y1 [( X7 w+ b8 g
显卡用的是3070M 16G,环境是Ubuntu 24.04.2) E( J+ U& ]) S8 l
输入大概是10不到一点,输出大概是5,勉强可用. L8 W$ j- j' z/ i! B2 d2 T
因为都是整的垃圾配件,总体的成本大概不到4000人民币
, c" b3 J( C. M5 n
3 U, U: z4 w+ H  P5 G# }" [我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
5 }3 Q& f% n4 a) j! y: L如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的, ]$ c- n& r1 {; P% P0 v
https://www.pmtemple.com/academy/17340/
5 a8 j1 D+ {. h$ }2 ^4 v
作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:25
5 k: P1 I% E- a# q刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本) t/ [; a6 X, V9 ~" C
显卡用的是3070M 16G,环境是U ...
: s( g5 e" l6 R
+ \# q0 U1 W6 n, L; j, ~0 O
我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25
& R1 u* s- [+ S) h+ |# c5 R刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
+ W! \: l) Z" K9 B  M$ `显卡用的是3070M 16G,环境是U ...
" Y  n3 y- z% L+ j$ l
这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:42
8 P/ p" `: q% L+ A6 V7 A- ~# G这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
; `9 J6 ]0 A9 |  _https://www.pmtemple.com/academy/ ...
% n( w6 [6 T- s' P# S5 _
这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。! m. I+ i$ d  z+ g$ W  q

3 m7 c& D7 n" `1 h3 H$ o8 k但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:25
7 V4 e, E( ~6 N7 F# y: X6 g刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本& ?/ [& Q4 N" c/ f
显卡用的是3070M 16G,环境是U ...
+ u% [, j! U. z2 r& M+ _9 _
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:414 [: V. _" {& b/ a5 c
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...

6 C+ B. p; k+ |7 l$ ?* ohttps://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.* |4 e# y) x) Q- f% s) C: o' b

/ d/ U4 D2 `, |; r2 D- lThe HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered. 0 m) d* T) c+ m) I
This server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM). * c, P' l) N5 n
The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
. f: i0 C) T5 y* O; |& Y
1 q) k2 e5 @: p& E+ E( u% bLRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。
9 K3 C) w& v1 q7 M6 i6 {, AZ840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑   Z% y0 T6 s. E( M
雷声 发表于 2025-4-15 11:18
- |$ c9 M6 {5 |https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...
0 K+ T( S: T" O. [, d

0 ], ]' u; N6 K% w没那么贵,Amazon 上一条才 $239。16条也就$3,824。
- w  `  J% w+ M8 `6 |' A
4 |5 |: A! M% P+ a" L7 Nhttps://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1
/ A( Z4 U3 a$ c( d; p5 y' P
5 f0 [/ M/ w. a& ?1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1
: k( u: ^1 |6 d; |% o
1 g4 `0 I  G6 ^  J" G% a& q; l- e" d但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6
% q- P) t& }0 w
! i. j! }& g( S* S
7 s' w( w. T, o4 A: k) G当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:18
8 S6 {' F! s2 ~4 B3 U  Thttps://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

' G9 x0 V- o" p9 O" o
  U" q& j- S9 P顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。
% d8 T4 F9 I. ~4 }# w. ^# m" I  K" G' J0 S0 A  s4 c8 F6 k
不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。: ^, f( I0 p# d6 K
当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。7 Q& D9 w! U6 J+ q$ B0 _/ H
服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。+ W8 e" X  Y. y- \
我的GPU上的CUDA跑满都可以控制在80度以下。
; ^" T6 |3 o. H9 Z当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。
- M! C2 B; @6 h- a6 a# ]  P2 r1 Z6 w8 u* U- I/ s
从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。$ l7 ]: }/ X' Y; z7 {% K

$ L4 R. O/ ?9 X, P7 d! Z. v2 a# t但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。
( x! R! |0 b& f  u. n
; d6 ^9 e$ t; V1 _对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。$ C. {- g( p0 c) _& t) h, Q8 _; S
+ y  w* A, ?. V! V
否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。( j4 h. i9 o, @' D/ _
8 n( m" ~) n# l9 S; P+ _# N+ p
当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。
8 L, |/ E6 Z3 X( o. Y) o
- m7 ^( l" {7 \8 a当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:58
+ Q3 s& M5 y8 ^4 `  ?. ?散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...

" u( o/ s; v( S" C2 y8 g. V同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。1 K8 |+ p( k: m/ R0 W0 @! }7 V* Q

" r; w2 K" P6 r' UCPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:12
2 J1 l9 P% G6 x9 e; Y1 v' S$ r! r同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...
" U: q% }- X6 ^. q2 }
我有点成见,总认为机箱上的风扇不够有力,呵呵。
. W: W. {5 }" [" B, B" T& R
9 A9 {5 W/ C& b所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。0 E# H1 e3 r( g" b* L6 ^

5 t1 \* N# V' g$ n+ F所以我的理想型机箱就是一个框架,其他统统敞开了,吹!5 O' H1 `$ Q/ |

. c# g" g7 V8 C8 M' ]9 I另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:35
! Y1 Z; g$ f( `* G我有点成见,总认为机箱上的风扇不够有力,呵呵。
( `0 U3 h! }- x  u$ d$ H
% s- c$ q, P' R所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...

/ T3 i' ?2 M& B1 BCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
* |7 ?' k" U) p+ E/ Q1 a & q6 O8 O; Y- x8 t

! d* L* X1 Z% J1 j* |主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。: c& r% h( O% `

- R# U, H& t' C) Z2 `
. ~! U6 X3 R' S! a: x! f8 c所以一般都是挂墙上的。造的好点的话还是挺科幻感的。0 ]+ D/ f% n$ h# B8 P

作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑
: K# U3 s) _* l# x( Q8 n1 Q; H
孟词宗 发表于 2025-4-15 21:45
: o# Q* _3 `; A8 M  RCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
) H6 A+ e' w7 z; t
. @, h+ U. ?9 I
这个确实很赞。) F+ x- N( p+ ^: D
( A: S% ?7 D3 k# S, g" J1 w' r( P
第一三张好像放不了全尺寸显卡。
! ^! m, {5 U7 b6 s6 O; g2 p1 d  \第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:26+ I5 j  t5 u; G5 S' k
这个确实很赞。
# R) \- k! H1 H4 H# K
( P' L4 X+ {% R' H# Q$ E' a第一三张好像放不了全尺寸显卡。
: A# \' Y% P' b$ W- L/ G/ D( s1 C( B; q
都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:581 r, b. B2 b$ q9 P, K
没那么贵,Amazon 上一条才 $239。16条也就$3,824。7 w  |' ]) E8 O5 v# m1 J

; _/ r8 N+ r& M- xhttps://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...
5 D/ Z* |% I4 g; a9 [% ]
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。- K# t9 T3 E% j
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。; E; N8 y2 M% a  u8 q9 F) U
话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑
! v# N: `8 j, d, j" s
雷声 发表于 2025-4-16 07:27# ]8 }6 O( s4 M! s! ^* Y- _
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...

/ q/ h! @& U* J: {
% x2 s+ e! A, x* [HP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。
: C4 F! @1 L" Y' r! ]" ?. l& P  F# b
性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。
5 l4 C$ ^0 K& q" X3 v$ q
, T3 b/ M3 n: M4 a从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。
作者: leekai    时间: 2026-4-18 21:09
我去年春节也攒了台x99 双路e5v4+256+2080魔改22g*2,硬盘因为以前装nas不用买,后来淘了Dell730 HP z440,用下来感觉单路CPU更合适。期间装了N多大模型,现在只剩ragflow+qwen 3.5 ,35b做map,27b做reduce,都刚好可以单卡运行。前两天刚跟风试了turboquant,效果挺好。今天发现qwen 3.6发布,并且有UD IQ4量化,正在下载准备试试。
! I, t& {9 A. r& {/ [现在有更好的选择,IBM AC922,六块v100 16g准系统闲鱼上报5800元。
作者: 沉宝    时间: 2026-4-19 11:10
leekai 发表于 2026-4-18 21:093 R0 z. X3 D( r$ N
我去年春节也攒了台x99 双路e5v4+256+2080魔改22g*2,硬盘因为以前装nas不用买,后来淘了Dell730 HP z440, ...
& d4 a, E" k6 y% @
2080和v100的优点是可以通过NVLink 获得很大的显存。缺点是缺乏 fp8 等先进架构的支持。不过看在那价格上,还能说什么呢?!
: u1 Z, z4 q& X, ^2 @% G4 q7 p) ]* y. _5 C# d) O
今年较之去年,最大的一个变化是像小龙虾之类的智能体流行起来了。通过不断的自我进化,智能体在很多方面可以达到和超过简单使用混合专家模型(MoE)。而智能体的后台模型,如果想跑在自己的机器上,小一些的稠密模型其效果往往好于MoE。与人相比,智能体的AI对话中提示词的长度平均增长了许多倍,从而也就要求更强的KV缓存。如此turboquant正逢其时。, i+ c. ^4 Q6 T3 F9 y

' K- k# v/ W* M/ H' @1 v比TurboQuant更强的还有RotorQuant。感兴趣的话可以关注一下它在你使用的模型上落地的进展。
作者: 大黑蚊子    时间: 2026-4-20 13:43
回首这个帖子
# A$ X8 f+ m- W. |: S6 w8 B' u8 j如果去年就下手干他1个T的ECC DDR5内存的话..." o: }. U# }$ P" }
! u4 S: p; W" y" Q" @( S4 ^, o
俺就不用今年年初买个128G内存条那么心痛了
作者: leekai    时间: 2026-4-21 17:32
大黑蚊子 发表于 2026-4-20 13:43
$ G6 d. ~: u/ ]回首这个帖子  G% o+ p* T% m, }+ [& d4 Z
如果去年就下手干他1个T的ECC DDR5内存的话...

& i& Q7 N+ g2 V8 O, n( f: W" B我一直以为自己加钱换了512幸好前两年弄了几根1T 2T 4T的nvme还有SATA SSD,就是去年初看来看去没买氦气盘有点后悔。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2