设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
12
返回列表 发新帖
楼主: 沉宝
打印 上一主题 下一主题

[信息技术] DeepSeek R1全参数模型一个可能的本地部署方案

[复制链接]

该用户从未签到

21#
 楼主| 发表于 2025-2-22 00:10:00 | 只看该作者
大黑蚊子 发表于 2025-2-21 14:10& @( z* y8 @8 j8 }9 S$ d: x
我建议你再看一下KTransformers的相关资料6 r! `2 _7 @3 J: Z. G2 F* @* B
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...

1 G/ |; w- U$ D, X$ W9 {, g欢迎讨论。
# W9 o3 Z3 A- [0 N8 m: {0 U& m# l1 {0 C& m  N- F9 V4 G
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。
2 V. K) i: G, J. J
" [  p/ \  U+ E& }5 K% e8 @% XCPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。
; q1 A* \* [5 g
6 v# ]3 A/ v8 V7 J, ~# n以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
回复 支持 反对

使用道具 举报

  • TA的每日心情

    2025-8-7 11:56
  • 签到天数: 1132 天

    [LV.10]大乘

    22#
    发表于 2025-3-10 22:25:59 | 只看该作者
    沉宝 发表于 2025-2-22 00:10
    7 ?, v5 ~0 X, P8 W( u7 b$ W$ N欢迎讨论。0 c& S$ h( S# ~* ~5 P
    . i9 K8 E0 T  ~& E/ H  Z
    首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...

    # [$ s5 p2 v! s: W6 p' b刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
    9 `- `/ y( y' p1 _) z显卡用的是3070M 16G,环境是Ubuntu 24.04.2
    9 n- b) @5 u; X) B5 s' ?输入大概是10不到一点,输出大概是5,勉强可用# ~1 |# m6 g3 K' s
    因为都是整的垃圾配件,总体的成本大概不到4000人民币5 `. l' {+ Z5 Y" e$ M* k9 a
    + I# Y6 G( o5 s* i7 c
    我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出+ b$ r0 z# @2 o, g6 g& P& @
    如果是这个速度的话,个人轻量使用已经没有特别大的问题了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-12-26 03:23
  • 签到天数: 1954 天

    [LV.Master]无

    23#
    发表于 2025-3-10 23:42:05 | 只看该作者
    这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
    . _! C4 x$ F' b9 h: q% shttps://www.pmtemple.com/academy/17340/6 t$ }# t; w; ?$ B/ ]
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    24#
    发表于 2025-3-11 01:50:49 | 只看该作者
    大黑蚊子 发表于 2025-3-10 22:254 ^5 Z1 h9 r" z
    刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
    ! c& [3 A4 E: G! B显卡用的是3070M 16G,环境是U ...

    ; F7 X+ a+ W' c# T- l: g2 ^  n. H" m9 Z( C
    我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    25#
     楼主| 发表于 2025-3-11 02:12:03 | 只看该作者
    大黑蚊子 发表于 2025-3-10 22:259 i5 c; T3 F) r
    刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本5 E# {* S, P8 q
    显卡用的是3070M 16G,环境是U ...
    : w4 I: h0 a# D% b4 Z4 f
    这做得很厉害了。点赞!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    26#
     楼主| 发表于 2025-3-11 02:14:17 | 只看该作者
    数值分析 发表于 2025-3-10 23:42
    5 |* Y! b' `( P% R  D2 L1 m' \这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的. P7 _2 Q7 r( x0 T& V0 }# @
    https://www.pmtemple.com/academy/ ...
    # [! `$ O# F2 [/ I. I/ j5 d1 m) v
    这么多案例,很有参考价值。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    27#
    发表于 2025-3-12 01:39:51 | 只看该作者
    有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。& e4 ~0 ~8 N+ K* S. z% Z6 T* k+ [' y

    5 _/ M: B) A0 H但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    28#
    发表于 2025-4-15 10:41:36 | 只看该作者
    大黑蚊子 发表于 2025-3-10 22:25
    . [6 V! ~0 K( K刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本, D* n6 q5 w4 X
    显卡用的是3070M 16G,环境是U ...
    3 s2 z2 V% Q- Q, I
    性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    29#
    发表于 2025-4-15 11:18:33 | 只看该作者
    孟词宗 发表于 2025-4-15 10:41
    ! {) i7 t8 p$ J  b, }6 x性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...
    $ K' u- j/ S/ J( g7 z
    https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.
    6 {% |9 D4 j- ]  ?0 |
    : l( o5 p7 R9 sThe HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered. # v  o9 M: N+ `; \$ c+ a
    This server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM).
    : E3 `! ?: B! c0 l2 I& oThe Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
    ) {; s1 h& |7 Q1 \5 f' ~0 s
    % @( m% G0 G9 y3 p9 _3 eLRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。
    7 N' ~6 G4 d2 u: U" ]% ?% Q' GZ840倒是不值几个钱。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    30#
    发表于 2025-4-15 11:58:03 | 只看该作者
    本帖最后由 孟词宗 于 2025-4-15 12:01 编辑 / O; c$ p6 U2 f' V6 p, j! L/ F
    # }4 T" d  Z+ F5 R7 N) a. E8 Y' R

    ! c( n$ \+ J+ n$ `  t0 W+ N没那么贵,Amazon 上一条才 $239。16条也就$3,824。
    ! K3 j% F  ~- {% t! T$ l" ~+ z. O. q. J9 o; e2 K. Y
    https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1* j0 j" Q1 e( d" m
    ) W' G+ |; ~# A- x  Q6 Y4 p
    1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1
    $ P7 G; x' d% Y, ?$ [  H2 p% |- a2 E1 r+ s7 Z( M& {
    但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6( j" S4 t5 S$ ^' ~+ f

    8 {1 [; I: v& C" F' |/ X& @/ a2 x; [3 l
    当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    31#
    发表于 2025-4-15 12:14:39 | 只看该作者
    & m+ b" |& @( ^, X

    ( \' A6 y. c0 H: g' {5 f4 Z8 W顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。/ H; ~! B0 e4 ^- m7 j  c5 i

    * Y; n* ~/ G- [  d不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    32#
    发表于 2025-4-15 12:58:04 | 只看该作者
    散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。
    ) u+ O+ y; y/ X) w当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。
    # u; ]& g  d0 A服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。& u% x& Y' }( S% Q( k
    我的GPU上的CUDA跑满都可以控制在80度以下。
    & L( ]$ W$ ]* M2 ]当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    33#
    发表于 2025-4-15 13:48:16 | 只看该作者
    如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。% l7 u+ H  [, t  C% S
    + f2 u5 ^, w) H# X
    从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。9 a5 w/ R- d, G4 G4 F

    + `$ W7 c% d) N' [6 o; n4 p8 P但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。1 ^& U8 ^+ ?! q2 \+ h

    : M/ Q( E2 i" i! i0 x' m1 M" D对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。- p% r" B% ?2 g

    4 z* _# N( a4 `" r4 K否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。4 p# r: u0 L2 V3 T. N
    & P# ?7 [9 d2 K8 C
    当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。1 R+ V5 T6 \0 z4 a: r% d7 a
    " \# D: I2 Q0 v0 C- A1 ]4 ?' t
    当然价格据说也挺感人,要 $8,565 单张。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    34#
    发表于 2025-4-15 14:12:31 | 只看该作者
    nanimarcus 发表于 2025-4-15 12:58$ o1 t7 B* h+ R
    散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...

    $ g7 D3 j3 a5 p9 _, Z同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。" k- z2 M- _: W6 x- ~5 S, w
    6 U( P0 C" R8 Y, H! U/ W5 R
    CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    35#
    发表于 2025-4-15 17:35:32 | 只看该作者
    孟词宗 发表于 2025-4-15 14:125 @* f7 J- E9 Z% c' W- p4 f
    同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...
    % q  F+ t% c2 Z5 }; I
    我有点成见,总认为机箱上的风扇不够有力,呵呵。4 T1 x2 m/ J7 T# w- z

    0 V, l7 ]3 D% N: \7 v1 q% i所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。3 m4 b! r! m6 f, j5 f$ v
    8 ]! d3 r2 C+ N3 x; Y
    所以我的理想型机箱就是一个框架,其他统统敞开了,吹!
    3 Q3 x, `& _# c) ^4 S2 w7 W" @, J
    5 w' V+ y, Q6 A* s* j另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    36#
    发表于 2025-4-15 21:45:18 | 只看该作者
    nanimarcus 发表于 2025-4-15 17:35
    8 q3 I# H& e' {我有点成见,总认为机箱上的风扇不够有力,呵呵。) ]) U& ?) c2 e
    * I. I- a7 C% }) h
    所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...
    : ]5 |" \4 ?* w) o; H
    Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。9 C; p& m, f* R6 f& X3 b' p
    / f. K) N: r3 {* `0 ^0 W
    / G0 ]; c% N' S0 Z" Q
    主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。
    3 |3 o$ i8 V; y& T9 p% i# b- f: u
    0 @9 l) r3 O, i) R0 Y( c" L7 V# H$ S* e& t0 j
    所以一般都是挂墙上的。造的好点的话还是挺科幻感的。, N5 r, Y" }- ]' q2 M( b" ~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    37#
    发表于 2025-4-15 23:26:20 | 只看该作者
    本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑 # t; ^: }% J: @3 I8 D- B+ W
    孟词宗 发表于 2025-4-15 21:45# h3 Z+ M- l2 ^* P. I
    Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。

      A- l1 \- I6 c( I5 b& `% W7 W" u) q7 B: J) Y7 I
    这个确实很赞。
    + U9 M% N. c9 v! @
    - @+ W( Y. E5 b6 o6 \; z, U2 D; h第一三张好像放不了全尺寸显卡。
    * _; _$ d" s0 p$ ^( c4 m( C- K第二张全尺寸显卡的散热好像不太好。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    38#
    发表于 2025-4-16 00:07:18 | 只看该作者
    nanimarcus 发表于 2025-4-15 23:26
    ( Y3 {! Z8 ?8 O1 e- ]5 e, }这个确实很赞。
    6 v% Y" S% l+ J3 h1 `/ G( ^0 A1 R
    第一三张好像放不了全尺寸显卡。
    ' l9 U% B/ `% R: f) {* E! G
    都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    39#
    发表于 2025-4-16 07:27:19 | 只看该作者
    孟词宗 发表于 2025-4-15 11:58
    9 \- B! u$ ~. t  ~# X没那么贵,Amazon 上一条才 $239。16条也就$3,824。) |6 D0 c- l# s. C
    1 J7 B; X: @9 a: X# A
    https://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

    . J# F, _$ _$ P' hHP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。
    $ [1 N; J( S) y/ D4 }* a4 AZ6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。4 z' J8 `3 Q# t7 H. e1 H. E
    话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    40#
    发表于 2025-4-16 09:55:47 | 只看该作者
    本帖最后由 孟词宗 于 2025-4-16 10:03 编辑 ) g# {  ^$ w2 v0 r/ ^, o$ T4 g! \
    雷声 发表于 2025-4-16 07:274 {/ b/ L, }) m9 U9 O5 J
    HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...
    4 L5 m/ Q% i0 y& |: {- z) @
    * e+ R. v" ^  v: E8 x: `; ]
    HP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。2 t7 v/ z( \$ P* A$ Z2 y
    ! W4 |+ p9 O& |: \& \
    性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。6 U, O) F7 H' y: G% a1 \' ~& v

    ' i, f$ I* f9 k+ d4 f从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-1-30 09:59 , Processed in 0.065332 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表