DeepSeek R1全参数模型一个可能的本地部署方案

沉宝 · 发表于 2025-2-22 00:10:00

大黑蚊子发表于 2025-2-21 14:106 Z3 t( {' b/ c2 Q5 v/ f2 S8 s
我建议你再看一下KTransformers的相关资料" w! p1 I e! d5 S+ Q% T
这个玩意儿的本质是在低并发（甚至是单并发）的情况下，高度依 ...

欢迎讨论。

首先，个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的，回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度，把这部分高强度计算交给GPU（好钢用在刀刃上），剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证，上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。

CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说，我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5，DDR5内存下整体成绩要比DDR4好一些，不过差距并不大。至于到显卡的带宽，我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时，因为各种原因往往不做16路通道，比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢？绝对在30%以内，常常也就10-20%。

以上这些是我没有简单照搬章明星团队的配置，而为省钱做了一些变更的原因。

大黑蚊子 · 发表于 2025-3-10 22:25:59

沉宝发表于 2025-2-22 00:10" L3 I! u, @& b  i9 X4 u, s
欢迎讨论。- H. I' T7 R3 E9 [3 I3 _  H

) T2 o- }8 Y$ c  |' R3 }首先，个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...

刚刚看到一个案例，有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
显卡用的是3070M 16G，环境是Ubuntu 24.04.2
输入大概是10不到一点，输出大概是5，勉强可用
因为都是整的垃圾配件，总体的成本大概不到4000人民币

我估计如果他能够用DDR4+至强的话，应该可以到7-8的输出
如果是这个速度的话，个人轻量使用已经没有特别大的问题了

数值分析 · 发表于 2025-3-10 23:42:05

这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
https://www.pmtemple.com/academy/17340/

孟词宗 · 发表于 2025-3-11 01:50:49

大黑蚊子发表于 2025-3-10 22:25: H, R: T. o. d7 p$ @; Y: [
刚刚看到一个案例，有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
1 } i! l5 O7 S/ B显卡用的是3070M 16G，环境是U ...

我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑，但效果实在不敢恭维，很多情况下出来的回答都不是 AI 幻觉，而是文不对题。在决定投钱搞硬件前，还是建议先化小钱租个服务器，下载不同的压缩版看看效果再确定要用哪一版，用什么本地硬件。

沉宝 · 发表于 2025-3-11 02:12:03

大黑蚊子发表于 2025-3-10 22:25
! }' C9 Q+ F6 c( T9 j: H! |7 n6 M刚刚看到一个案例，有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
" m8 Y* g; B. T5 r1 V1 T- ]% z" z) l显卡用的是3070M 16G，环境是U ...

这做得很厉害了。点赞！

沉宝 · 发表于 2025-3-11 02:14:17

数值分析发表于 2025-3-10 23:42
9 k, V9 y* C# g这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
- _4 z1 d4 ]5 z% N4 X: Mhttps://www.pmtemple.com/academy/ ...

这么多案例，很有参考价值。

孟词宗 · 发表于 2025-3-12 01:39:51

有 512 GB RAM 的话，基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个：https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。

但是，量化版压缩了尺寸，同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣，回答大多逻辑不通。

孟词宗 · 发表于 2025-4-15 10:41:36

大黑蚊子发表于 2025-3-10 22:251 t* L7 h; w! m4 b. t* I
刚刚看到一个案例，有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本9 Y f' e. v. Q) n5 t
显卡用的是3070M 16G，环境是U ...

性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total)，最好的是有16条内存槽，按 Intel 的说法，每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB （实际 HP Z840 号称能到 2TB），正好可以跑 DS-R1 671b 完整版了。

雷声 · 发表于 2025-4-15 11:18:33

孟词宗发表于 2025-4-15 10:41
$ f- F/ N; z) d) M( x8 z4 s性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total)，最好的是 ...

https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.

The HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered.
This server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM).
The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory

LRDIMM 128GB的话一条要1400~2000刀，16根的话。。。。好像也不便宜了。
Z840倒是不值几个钱。

孟词宗 · 发表于 2025-4-15 11:58:03

本帖最后由孟词宗于 2025-4-15 12:01 编辑

雷声发表于 2025-4-15 11:184 U" f, ^: R9 [4 M
https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

没那么贵，Amazon 上一条才 $239。16条也就$3,824。

https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1

1TB 的kit 稍微便宜一点， $1,908, x2 就是 $3,816： https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1

但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6

当然，真要上这个，最好买以前和卖家咨询一下，这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年，大概最多也就有人装到 128 GB，毕竟这不是 server 而是个工作站而已。

孟词宗 · 发表于 2025-4-15 12:14:39

雷声发表于 2025-4-15 11:18
7 V4 r4 c6 [! {/ v8 j1 q+ s: G7 o ?https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

顺便说一句，如果只是要跑压缩版的话，我在另一个帖子（http://www.aswetalk.net/bbs/foru ... read&tid=161700）里已经说过，如果有192GB的 RAM 就可以跑 IQ1_S（131 GB）， IQ1_M （158GB）（假设没有显卡加成）。

不要显卡的话，搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD，一般也就 $1,500 左右就搞定了。

nanimarcus · 发表于 2025-4-15 12:58:04

散热的问题，你把机箱敞开，左右两片直接给拆了，开个小风扇对着吹就是了，斜着吹，从前往后，CPU显卡电源一起吹，别去搞太复杂的冷却方案，水冷复杂且容易坏。
当然，有点吵，放在别的房间，用网络连接好了，命令行，远程桌面都可以。
服务器那种结构就是隐含你用那种暴力风扇，对散热并不友好。
我的GPU上的CUDA跑满都可以控制在80度以下。
当然奢侈一点，放在空调房，调节一下空调出口，把机箱放在桌子上，对着机箱吹能降下很多，这才是真正的水冷加风冷。

孟词宗 · 发表于 2025-4-15 13:48:16

如果是为了跑本地大模型，显卡没有必要搞顶级的家用卡。相比速度，更重要的是显卡的显存有多少。

从性价比来说，两块3090比一块4090要好，这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。

但3090的问题是功耗, 350W 起步，两个就是700W，对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右，3090 则是 2000 美刀。加起来就不是小数字了。

对于显卡，我倒是推荐这个：PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右，有20GB。虽然不能串联，但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦，三个加起来也就才相当于一个3090。而三个卡加起来 60 GB，Ollama 可以跑很多 LLM 了。

否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6，这也就2300美刀左右，但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。

当然，俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存，还可以用 NVLink 串联。最大可到四张卡384GB，而单卡功耗不过 300W。

当然价格据说也挺感人，要 $8,565 单张。

孟词宗 · 发表于 2025-4-15 14:12:31

nanimarcus 发表于 2025-4-15 12:58
7 I2 B& E. V, s) e; T2 ]散热的问题，你把机箱敞开，左右两片直接给拆了，开个小风扇对着吹就是了，斜着吹，从前往后，CPU显卡电源 ...

同意风冷，但用不着这样 DIY。可以用联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气，后面一个140毫米的抽气，足够用了。用风扇的时候，机箱应当关上，这样风速比敞开的更快。

CPU 和显卡的冷却还是不能省的。倒不是风扇，而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。

nanimarcus · 发表于 2025-4-15 17:35:32

孟词宗发表于 2025-4-15 14:12
; ~4 D# I( ] n2 V0 ^( }, O, m5 c同意风冷，但用不着这样 DIY。可以用联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...

我有点成见，总认为机箱上的风扇不够有力，呵呵。

所以总认为机箱敞开了另外架个风扇吹特别有力，至少视觉上如此。

所以我的理想型机箱就是一个框架，其他统统敞开了，吹！

另外，CPU上带的散热片过于庞大，多少会造成主板变形，所以我的机箱是平放的，如此一来显卡是竖起来的，这样两个最重的部分不会造成形变。

孟词宗 · 发表于 2025-4-15 21:45:18

nanimarcus 发表于 2025-4-15 17:35
* a( @* q$ p" Z: s# |$ y% c我有点成见，总认为机箱上的风扇不够有力，呵呵。4 L/ Y6 s: J& ]
$ ] T9 I0 o, V; v5 U; c
所以总认为机箱敞开了另外架个风扇吹特别有力，至少视 ...

Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。

主要问题是像下面这个放桌上的，如果一不小心撒点饮料上去就容易把电脑废了。

所以一般都是挂墙上的。造的好点的话还是挺科幻感的。

nanimarcus · 发表于 2025-4-15 23:26:20

本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑

孟词宗发表于 2025-4-15 21:45
$ J0 \5 @+ {- \6 W4 VCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。

这个确实很赞。

第一三张好像放不了全尺寸显卡。
第二张全尺寸显卡的散热好像不太好。

孟词宗 · 发表于 2025-4-16 00:07:18

nanimarcus 发表于 2025-4-15 23:26
) A# i9 [+ B& W这个确实很赞。7 f/ \* U w5 ]/ r
, m' |6 Z. p! i
第一三张好像放不了全尺寸显卡。

都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看，应当是3060或4060级别的。这个显卡的原装风扇还在，制冷应当还行。

雷声 · 发表于 2025-4-16 07:27:19

孟词宗发表于 2025-4-15 11:58
8 [7 |. Z( @' T没那么贵，Amazon 上一条才 $239。16条也就$3,824。, I% z9 n, e4 n T

k- L7 q" N0 j9 H. ~https://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

HP Z系列G4以后支持Intel® Optane™ Persistent Memory，买二手的话更便宜。不过表现怎么样就不好说了。
Z6/Z8 G4也可以上到2TB，加上PMM的话更多，价格比Z840也贵不了多少。
话说Z系列是真不错，我09年买的一台Z8现在用的好好的，而且比公司配的新Alien还快。

孟词宗 · 发表于 2025-4-16 09:55:47

本帖最后由孟词宗于 2025-4-16 10:03 编辑

雷声发表于 2025-4-16 07:27% ~1 v0 Q$ g P
HP Z系列G4以后支持Intel® Optane™ Persistent Memory，买二手的话更便宜。不过表现怎么样就不好说了。 ...

HP Z8 G4 号称可以最高支持 3TB

不过这得看 CPU。如果单个 CPU 只支持 768 GB的话，那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。

性价比来说你说的很对，Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了，也省事多了。

从跑 LLM 的角度讲，应当是可以跑，速度勉强可以接受的程度。俺那个三年旧的机器，如果不用显卡，跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢，模型更大，CPU更老。

		自动登录	找回密码
密码			注册

[信息技术] DeepSeek R1全参数模型一个可能的本地部署方案

浏览过的版块