爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。
+ O/ q4 W/ o! @' y
9 q/ f" X! u& e1 lDeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。0 u* {- v. {% m$ L7 d7 d

2 c% W3 x& w  S' J  K下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。
! K; i( [* J" G* k5 M- P$ }3 X. r, ]. v' k7 @
第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。# n7 r, t" P6 G. \6 U
' B3 k8 r1 S: n% P/ {
第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。. z4 @8 S: l  v. |# O& O
& H7 _" m% s. K. k7 c+ |4 A

8 I0 c4 D9 Z; G+ a6 b( w第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
. K" O  u" l4 A4 N9 F' p2 g3 I6 b5 ^7 D6 B6 K  C$ n
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB
1 r0 X' b0 j" @: h  ?(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
! P4 i- a; {$ Q% y5 g: b
) m$ z. H- [1 B其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
0 U2 T9 G  G: k9 @, G( w
5 c( ~! B1 d4 F3 ?1 o3 b3 K最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%* `# h* a6 T/ q! y8 M+ ~) i% j
* R, h) K- }1 _+ B4 q. T9 D
RAM 512GB DDR4       1000+9 ^7 D0 x9 n2 Z7 N
CPU 7C13或相当           700+/ T' ~# G6 [2 ]% Y6 l
主板(单路即可)         5003 U* l0 A" E; J# t/ \$ M9 M
显卡 3090                  1000- ×2
/ @2 [4 p( N! }$ W8 D+ n固态硬盘                     200+
* I/ s. A# A/ Q( i其它 机箱、电源、散热器等6 `( X5 p4 }% H8 h' M

# ?3 O5 e+ O9 h6 X$ u+ [& e
作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑
" g( a$ \' T  \- l9 B6 S
# \, z) _9 P0 B; @" ~说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了- Q" H; O1 @  a7 q
在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 64301 g  z* Q; S8 X  J: X& y9 b- a' g
但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内3 j! ~% Y, T  I; |; g( E
显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以! Y: X. v& t' j/ ?7 ^& o: a8 N

& V: f" @2 P8 v  C$ c- ~周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27
% @6 k6 Y$ q+ i说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

: Q, G; |5 e- X; ]真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45
+ O1 U( O7 X1 W: u+ g! }2 }$ {" S! D真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
7 y- ~& i5 _4 m8 u
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:50$ w2 C6 m; l9 |7 y( ^
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,

% b0 [* O0 r# f! w) b& h2 Z攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑
# m5 M5 K  v) y) }( ^) _' W
, g1 K, r  I& j* J0 i) X8 @* T6 r3 D8 \  P1 H7 M" J
这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:32
; i( K0 ?# \% f4 p  e8 d: D: z这是大华股份根据国产芯片的一体机,

) W& V3 q5 r8 @大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型+ F" q/ v) O) V/ x; D" x3 n
我在自家电脑上搞了一个7B的模型试了下,真的是不太行7 w. G4 Z4 N  n% d
我估计32B和70B也都不太行1 d# p. e0 q& G  s
这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的
7 }' U  P7 ?8 d/ n8 t; J0 W" @6 g( E1 f5 s0 l' S, h
" ^0 s  L7 O0 `5 v& A& S* O; Q
不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:19
: a8 x- c2 I, o攒了以后干啥呢?

" p7 F5 B) t$ A, m& V! i想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38' z. e# l7 a% R) A) v5 p/ M: }1 n
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
3 n5 D0 f8 A% _; A( R我在自家电脑上搞了一个7B的模型试了下, ...

. Z/ A1 U0 d9 B) v+ }找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45/ w0 J3 Z* i& S6 B( Z
找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...
) g2 g& Q7 h' c6 {5 _- z  ]
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的3 W& i" p& N/ F/ I5 j. C
打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿
: A$ J/ ?1 j; H, ~7 G去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38" v' {5 t9 w% L5 J9 A* B
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型% ]# @& N: ~/ D5 U: _, d* H0 f. V
我在自家电脑上搞了一个7B的模型试了下, ...
& P, p& P5 {# m( J4 z7 C+ T
好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:53! a1 I$ }0 {* j5 ~- V' W
好奇你攒个模型做啥?
; ~8 h0 m8 @, j" m
+ {+ _; y0 H5 w& r
玩啊,好奇啊,这很可能是通向新世界的大门
! J2 N. M' i. `# P8 |: y3 R: O有这个条件的话,干嘛不玩?9 I9 {% ]+ L- a% R9 r1 \

/ E8 l) H0 D. W9 Q3 |: s- _* u现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢" v2 z" d+ D& P9 H3 V3 R1 e
% l/ T, T' m& R) K0 n6 Z
DeepSeek的出现,极大降低了大模型训练和部署的总体成本
: R# W, e9 `+ e/ N% g4 NKTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪
$ V9 E& m" p3 ]4 s, `
4 n; b  X: B' d这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间: A$ |2 N- f( B. q. Q, L
玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:276 W, K; j* ?0 k' ?5 U
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
8 G2 c8 K$ r# c- h0 i8 G6 z
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。
6 V( d0 k6 M' W) u6 h# n, H- e/ g4 P- |  _' q% r% X% }
对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:53
; Z4 D: Y4 s8 a: M. j我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的5 j/ N' o, r/ W' J+ z% p5 F
打听了一下Intel的至强4代C ...
2 m4 z' |4 t& C" |- X( K0 j
"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:03) f( [, i3 h0 [% |6 e
玩啊,好奇啊,这很可能是通向新世界的大门( H1 K, g$ w0 d' O: x5 e
有这个条件的话,干嘛不玩?
, o. L  s1 `6 K+ T5 Y) G
握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30  `6 q' q1 L5 M1 c/ D) `7 h
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...
; e# s" B' E& R" O$ H" ^
所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。! J0 T7 A4 o6 c6 r' _

6 e: e- e  Q6 i, M' x目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。
, R' C, J: O/ c
" ~6 a$ S) E* V$ T* b4 R) D0 A& `DS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。. L1 t$ H* o' \$ c$ J
* w$ @/ b: l9 w) C9 j3 E) d" M, E& W
而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。2 a0 L# |" c. @1 K- q  M; l

0 G1 @' @( b' x- M0 F再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16
0 X. C1 t& f& V这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...

+ e( B$ Y+ `: o我建议你再看一下KTransformers的相关资料
# o! A! F; m' P7 U! g这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。9 I& O2 ~  W2 f- ?# u) o
DDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半1 X5 `( H7 F8 {
CPU的带宽再砍半的话,又要丢失速度& |. u3 m  s2 s7 F$ u8 G
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果
: z, W9 O: _! b' `5 p对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊
/ K# X7 m) h, d$ D我觉得起码要搞个输出4-6token/s才行吧: L$ F9 U& @# B1 l$ a0 q, d+ W
按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:102 P% ?/ l& ?. Y  K3 w& b
我建议你再看一下KTransformers的相关资料
! W' ?9 X6 Y4 ^9 o7 J6 h8 K这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...

; H' a9 Y2 c0 k  g8 N5 J" m欢迎讨论。4 h  n' G* m. I

+ u4 [  ~$ k. J3 M% [& r7 J" o. w首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。
9 F/ E7 H4 e& i2 y- Q, y" a. W0 U  i; Y. q# n& a2 B5 f
CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。  S7 K+ Y0 {% t' s; N$ S9 i
5 s3 n4 `$ U4 |% j7 |+ C
以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:108 h/ u( R% w" U! I# H- _- a; @: c
欢迎讨论。
' H& ?. i* f! X$ R/ m& ~
9 n6 q9 K+ U8 H$ l1 n! f4 N& `6 _/ R首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...

( o' C( h- r5 G0 p4 x  i/ r刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本# l- I6 w4 n7 P# k2 y
显卡用的是3070M 16G,环境是Ubuntu 24.04.2
# p. K$ v1 C2 P3 R- w4 u输入大概是10不到一点,输出大概是5,勉强可用
) j* F# C: a$ i因为都是整的垃圾配件,总体的成本大概不到4000人民币
3 o5 r7 X6 {% P7 a' S& g! O
& ?" E2 w6 Q- J& h7 @我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
0 I# y5 F0 o/ P& H' T# ~如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的! n" v" R- E% v( f  |* }' f
https://www.pmtemple.com/academy/17340/+ A! e5 v8 x) Y  T2 R

作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:25
, [6 ^" {! z( u! x* l3 _* G: _7 L刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本$ P' F6 D$ }6 j0 K) s: @
显卡用的是3070M 16G,环境是U ...
* H7 E' Z' o* Z, S3 B2 a8 ^

; @7 _" J! ?! f, z. k我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25
2 E+ y/ S* m+ Z+ z! y刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本% [" x$ L$ m9 F7 g
显卡用的是3070M 16G,环境是U ...
8 j" a0 l& f9 S9 G: s
这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:42
5 n) D: O+ D( o/ H4 G* P: u这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的1 u1 L* _# ^7 h* _
https://www.pmtemple.com/academy/ ...
6 ?1 M* J& y( ?2 O
这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。5 [1 m) W% a7 A% w6 i6 K
; j: `" |/ U& m5 c% P* w
但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:25# t! T  y) s8 `& P
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本' t. ?& e4 {5 M, c9 g
显卡用的是3070M 16G,环境是U ...

# z8 m& n- o' Y( ~性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:41
6 ^" X" g" G0 J* g' e" h6 h, F# s2 F性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...
3 G/ G. Y4 Q$ E8 T9 [# D
https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.
8 {% g0 H4 f9 k' w" D9 o: k4 s+ U3 k6 Y: U' j( I3 E$ k
The HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered. 4 e2 v% Z6 G7 _. k1 Z3 B9 }
This server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM).
% ]; _5 N3 D! D/ M  I- D- ZThe Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
9 G& v# v1 o6 @4 R/ M
- J) G- ~2 X/ L0 T; t) X9 [6 kLRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。
( t4 {8 ]. s, p! O8 WZ840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑 % q. z9 @9 m, c' ^
雷声 发表于 2025-4-15 11:18, j2 x$ l5 T3 w- {, q. r
https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

$ ~/ r, a7 B  K0 ?: |4 w2 I& z
没那么贵,Amazon 上一条才 $239。16条也就$3,824。4 l  q, s5 d0 n5 W
& _4 ^# c1 I5 F( w5 l# n1 M
https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1$ Z: `. O* N- m) o, Q

  y+ n, ?* |5 t% _; Q( R1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1: ]$ S5 Y* p8 U* _. J

% b( i1 I2 U6 _. U8 b8 N但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6
8 F% }+ D/ J$ q- Q" ]! }* I- j& g  I8 g5 j3 z3 q" N
' L1 O- a* A. b8 n* Q7 N" w
当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:184 ^, K6 Z" e, Z. q& p+ ^/ y0 k
https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...
7 Q. w6 F& Q+ `) v

% K( t" }. e5 I, I  I5 J顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。
- y+ X% j1 r7 E; x) g. }
! B8 b  A0 M0 `8 _不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。! ^0 _2 A: ?/ q( A: }' W6 k8 Q
当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。
1 @' `; E. H+ C& P4 D9 x+ _, a服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。# e0 r2 Q2 _$ K+ D' B( \
我的GPU上的CUDA跑满都可以控制在80度以下。
% i1 V$ L% ]3 @% s; C' t+ k! |* F当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。
% H! o9 ?4 K: H% d" @+ n4 F* ^/ n9 `5 B* W, a
从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。+ T0 K6 x3 }1 M; |/ X2 M

. P% M9 Z+ ^3 ]2 b) S但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。  Z9 {& N; ?* h0 ~6 c
' p/ _% t# n6 O$ u
对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。
; D/ J- \0 q5 v" V
4 N' \  o7 z! f; k3 C+ k否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。( t6 O) l+ i5 M) u4 {
& T# d0 e" z+ m; h
当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。7 f# q$ a; Y2 j( t+ O/ E

6 s- }( ?: S- k0 C当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:58
# c- Z! c6 a3 ?9 }: p散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...
! S0 m- q7 Y& v* a- }  {& D7 a5 q
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。9 F9 N* [3 s3 p4 V2 G
5 C5 ]/ ~: x  U: H
CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:12& |/ X& N" m2 b1 f0 w
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...
* f. F( ?* |' f2 }9 c- ?2 p
我有点成见,总认为机箱上的风扇不够有力,呵呵。
, u( U, }# r" G% _4 Q) m( W: i; H# x* @- ~3 M/ h+ ^
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。
# w% g& W0 L5 M  t1 V( f, O2 v# j$ c  d. s+ D1 c# `2 P# D
所以我的理想型机箱就是一个框架,其他统统敞开了,吹!. X% j# b0 H/ D" g) n

+ ^! J2 f+ f4 G/ e- _另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:35- ]* N7 w9 X9 R  T, _) f1 S4 b8 d
我有点成见,总认为机箱上的风扇不够有力,呵呵。* Z; k) N2 d" C% M4 _5 E5 v+ l5 E& G
2 a' I/ X2 s2 A/ n
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...

5 u; G0 Q' W( `" MCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
: m, O& S- B7 [
: {) \- M  m6 N$ K1 x7 o. l
9 D# ?6 f$ A+ W) R$ u主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。
0 y2 |) O; u. k. |" e & }+ o3 I5 j$ h& z, F" ^0 g2 w9 R
$ f  ^$ N5 S- X
所以一般都是挂墙上的。造的好点的话还是挺科幻感的。
: I1 L. |2 W3 Y( p
作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑
1 |9 E1 a. {7 w- i; w$ d* u4 [3 B
孟词宗 发表于 2025-4-15 21:45
9 j8 o2 ?6 d- JCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
+ ~# A- I& X" w
: w; G+ k! x; c; A3 r0 d) a
这个确实很赞。
4 n; Q4 q4 y7 l. F& B  D
4 C1 v1 u& F( K! j2 b第一三张好像放不了全尺寸显卡。6 v% z5 S$ _4 N2 O* b& [& \- b
第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:26$ M. B0 j1 \9 d" Q1 i
这个确实很赞。) c6 y% h) v& a! C
0 |6 c6 h7 b. f9 l
第一三张好像放不了全尺寸显卡。

2 q* a; y9 ]6 r. R* s都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:58
% s0 r' P" |( k& B! E没那么贵,Amazon 上一条才 $239。16条也就$3,824。- ?, u/ f  y8 N
, {6 L! f- H/ u: ]4 Z8 |2 Z
https://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

5 A; V, c% V9 _HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。1 H8 \6 O) C  z& {6 q' O1 G: H
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。
8 N* p% G- z7 C" Q3 R+ O1 [" g1 R  y话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑 : C) R" U  v# _# `, Z
雷声 发表于 2025-4-16 07:27) Y  P% n6 _) T& g
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...

7 T" \0 q0 [! v3 b" |( j8 H: M5 o6 u1 C  i+ L8 \7 V% Y
HP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。; F: f( Y. B) I# o9 M4 w( j

! _! b( m- |4 |性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。# l+ j" [7 J& v+ Q
# J' V% c$ k3 u3 Y' S
从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2