设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
12
返回列表 发新帖
楼主: 孟词宗
打印 上一主题 下一主题

[时事热点] 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版

[复制链接]
  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    21#
    发表于 2025-5-20 09:12:41 | 只看该作者
    孟词宗 发表于 2025-5-20 04:18
    俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

    什么?
    游戏买了不就是买了么?
    还要玩?
    那我买什么游戏?

    估计不少是steam送的

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    3 天前
  • 签到天数: 2212 天

    [LV.Master]无

    22#
    发表于 2025-5-20 11:29:59 | 只看该作者
    学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    23#
     楼主| 发表于 2025-5-20 13:09:43 | 只看该作者
    伯威 发表于 2025-5-20 11:29
    学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗? ...

    LM Studio,Ollama, Jan, 都可以用。如果 OS 是Windows,推荐 LM Studio,简单易用。如果是 Linux,Ollama 安装起来容易一些。当然 LM Studio 也不难就是了。KTransformers 现在只有 Linux 上还支持。初学的话不推荐这个,设置起来太麻烦,安装说明也写得一塌糊涂。

    以前还有个 GPT4ALL,不过已经3个月没更新过了。

    评分

    参与人数 1爱元 +6 收起 理由
    伯威 + 6

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2024-11-20 02:25
  • 签到天数: 43 天

    [LV.5]元婴

    24#
    发表于 2025-5-20 22:29:12 | 只看该作者
    孟词宗 发表于 2025-5-20 04:18
    俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

    年纪轻轻就是喜加一党了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 714 天

    [LV.9]渡劫

    25#
    发表于 2025-5-22 01:37:29 | 只看该作者
    怎这样呢 发表于 2025-5-20 22:29
    年纪轻轻就是喜加一党了

    如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话(当然是有关这些文章的). 应该如何操作?大致预算? 谢谢.
    回复 支持 1 反对 0

    使用道具 举报

    该用户从未签到

    26#
     楼主| 发表于 7 天前 | 只看该作者
    本帖最后由 孟词宗 于 2025-5-25 00:37 编辑
    cindia 发表于 2025-5-22 01:37
    如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...


    看你准备怎么弄。也就是说你要达到具体什么性能指标,预算是多少。如果只是个人使用,最低标准就是我文章里的那个一千美元的 512GB RAM 丐版工作站。那个方案里的 NVME 只有 1TB。由于你要在本地储存大量供阅读的文章,有可能你要扩展到 2TB 到 4TB甚至更多。个人级别加硬盘储存并不贵,最多加几百美元。

    如果你准备搞多用户,那就要上真正的企业级服务器了。如果是准备跑 DeepSeek R-1 671b fp16 版 或者 DeepSeek V3 0324 671b fp16 版 或类似尺寸的 (例如 Llama 3.1 405b fp16) , 一般需要 8块 H100 或 H800, 或至少要 H20 。H100 每块的零售价$27,500, H800 反而更贵要$33,800, H20 市面上现在没货。服务器本身不贵,双路或四路 CPU,但加上1.5 TB 到 2 TB 内存 就要3到5万美元了。这样加起来,不算乱七八糟的附件,自己组装的话,硬件本身需要 25万到30万美元的样子。

    要继续压缩成本也行。一是换成上代的 A100 每块市价也要$16,000左右。这样硬件成本可以降到 15万美元左右。另一个办法则是不用服务器级别的显卡,改用工作站级别的,例如英伟达已经宣布但还没有上市的 RTX Pro 6000 Blackwell Max Q 96GB。这个卡现在预定价格只要$8,500 一张。这样成本可以进一步下降到$96,000美元左右。

    下面这个网站可以定制服务器和工作站,当然价格比自己造要贵的多。但至少让客户有个直观的不同配置的价格变:
    工作站配置器: https://bizon-tech.com/deep-learning-ai-workstation
    服务器配置器:    https://bizon-tech.com/deep-learning-nvidia-gpu-servers

    英伟达有配好的服务器,下面是某个代理商的网站,仅供参考,俺没有从他那里买过东西,不保证其信誉:https://marketplace.uvation.com/ ... EAQYAyABEgL9zfD_BwE  

    另外,英伟达已经官宣了 NVIDIA DGX Station (https://www.nvidia.com/en-us/products/workstations/dgx-station/) 。这是个用 coherent memory 的工作站,可达 748 GB。两个串联起来也足够跑 DeepSeek 671b fp16 版了。但现在还不知道量产版价格是多少。

    如果你不需要跑 fp-16 版本,那么硬件选择就很多了,价格也会随着配置而变化。例如你如果选择跑 DS-R1 671b 的 Q4 版,而且同时在线用户少于5个的话,可以入手四个串联的英伟达 DGX Spark 有总共 512GB. 这东西 $3,999 一个。ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西,只不过换了个壳。而且价格比英伟达低大概四分之一。四个连配件大概 $13,000 左右。

    如果你不是非要跑 DeepSeek 671b 的话,512GB 足够跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。

    如果你进一步降低对大模型参数尺寸的要求,那么 30b 级别的大模型的fp-16版只有 60 GB 左右,70b 级别的则是 140 GB。你弄两张 RTX Pro 6000 Blackwell Max Q 96GB 或四张 RTX 6000 Ada 48GB 都能跑。这样成本就只有3万到5万美元。

    同时在线用户少于5个的话,理论上还有一个方法是买三个 Mac Studio 512GB 串联起来组成 Cluster 共 1.5 TB内存/显存。连配件加起来是 $35,000 美元左右。理论上也可以跑 DS-R1 671b fp16 版。如果你只要跑 DS-R1 671b Q4 版或 Qwen3 -235B-A22B 的fp16 全尺寸版, 那么买一个 Mac Studio 512GB,一万美元出头就搞定了。不过俺没有玩过新的 Mac Studio,具体效果存疑。

    软件的话,单人使用 LM Studio 或 Ollama 或 GPT4ALL 之类的都行。多用户,多服务器就需要 VLLM 之类的软件了。

    评分

    参与人数 2爱元 +16 学识 +2 收起 理由
    老票 + 10 + 2 谢谢分享
    大黑蚊子 + 6 谢谢!有你,爱坛更精彩

    查看全部评分

    回复 支持 2 反对 0

    使用道具 举报

  • TA的每日心情
    开心
    2020-4-8 10:45
  • 签到天数: 227 天

    [LV.7]分神

    27#
    发表于 7 天前 | 只看该作者
    cindia 发表于 2025-5-22 01:37
    如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

    国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 714 天

    [LV.9]渡劫

    28#
    发表于 7 天前 | 只看该作者
    xiejin77 发表于 2025-5-23 06:09
    国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你 ...

    遗憾 在美国
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    29#
    发表于 7 天前 | 只看该作者

    看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
    然后再看其他配置的话怎么优化
    回复 支持 1 反对 0

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    30#
    发表于 6 天前 | 只看该作者
    大黑蚊子 发表于 2025-5-23 02:53
    看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
    然后再看其他配置的话 ...

    确实Mac studio 512G这款最合适,而且方便公司走账
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    31#
     楼主| 发表于 5 天前 | 只看该作者
    本帖最后由 孟词宗 于 2025-5-25 00:36 编辑
    大黑蚊子 发表于 2025-5-23 15:53
    看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
    然后再看其他配置的话 ...


    现代CPU,尤其是服务器级别的 CPU 跑大模型理论上是没有问题的。相比 CPU, GPU有更多的内核,可以进行更好的平行处理。但服务器级别的 CPU 的内核其实也不少,基本也够用。实际操作的问题在于内存的带宽跟不上处理速度,结果造成所谓的 Memory Wall。这成为主要瓶颈,所以苹果和英伟达要用 unified/coherent memory 。举例来说,5年前出品的两代前入门级别的 RTX 3060 的带宽可达 360 GBps 。而DDR5-5600 的带宽只有 44.8 GBps。只有 RTX-3060 的九分之一。而最新的入门级 RTX 5060 带宽可达 448 GBps, 正好是 DDR5-5600 的十倍。

    解决方案就是增加通道。例如那个丐版双路 Xeon E5 可达八通道。如果是跑 DDR-5600 就基本接近 RTX 3060 的带宽了。但由于其最高只支持 DDR4-2400, 八通道 只能达到 RTX 3060 的一半不到。俺入手的那个 HP Z8 是双路 Xeon Gold 61xx。可支持最高 12 通道,DDR4-2666, 这就达到 RTX 3060 的60% 左右了,再换上两张 RTX 4000 Ada 20GB 显卡,速度也就不错了。如果要降低成本,现在新出的 RTX 5060 ti 16GB 也不错。

    如果预算更充足的话,可以上 AMD 的 EPYC 9005 系列 CPU。这个 CPU 支持12通道。如果是双路就是24通道。大多数主板每路可支持 614 GBps。这样单路 CPU 就远远超过 RTX 5060,相当于 RTX 5070 的 672 GBps了。双路可达 1228 GBps。相当于RTX 5080(960 GBps)的1.3倍。四路48通道的话就是2456  GBps,超过 RTX 5090 (1792 GBps)1.37倍。

    预算在1万5千美元到2万美元之间的话可以考虑这个方案。不过先说明,这只是理论方案,仅供参考,俺没有实际装过,实际效果怎样不保证。

    CPU: EPYC 9115 16-core 现在才$659 美元, 两个 $1,318。
    https://www.newegg.com/amd-epyc- ... tem=N82E16819113865

    主板(GIGABYTE MZ73-LM0 Rev. 3.x ) $1,196。
    https://www.newegg.com/gigabyte- ... VsHSGZnHb2Rx-yPaXNl

    内存: DDR5-5600 1.5 TB
    A-Tech 512GB (8x64GB) 2Rx4 PC5-44800R DDR5 5600 MHz EC8 RDIMM ECC Registered DIMM 288-Pin Dual Rank x4 Server & Workstation RAM Memory Upgrade Kit
    512GB 的 kit 一套  $2,559 ,三套就是 $7677

    SSD 硬盘: NVME 4TB PCIe 4.0x4,这个随便在美国买,价钱都差不多,$200 左右。

    CPU Cooler:Dynatron J12 AMD Genoa Socket SP5 Copper Heatsink and Active Cooler, 320W x2 https://mitxpc.com/products/j12?gQT=2 , $60 一个,两个$120

    电源:1800 W 到 2000 W,美国买的话$600 左右。

    机箱:e-ATX Tower, $300 左右。

    GPU:RTX Pro 6000 96GB Max-Q $8,500

    共计:$19,791

    如果预算宽裕的话,CPU可以升级到 EPYC 9335 (https://www.newegg.com/amd-epyc- ... -from-price-options) 单价 $2,768 , 两个$5,536。

    总计上升到 $24,009。

    网上有卖 CPU+主板+内存套装的。例如下面这个:
    https://spwindustrial.com/amd-ep ... Xapnwevz7fnOXQvDf1A

    这个用的是上一代的 AMD EPYC™ 9654。单路带宽只有 460 GBps 相当于RTX 5060,但内核更多, 有96个内核共192逻辑内核。

    这个卖家的套装价格是 $17,851.99。加上其他配件总计在 $25,000 到 $27,000 左右。

    不过俺也没有从他那里买过东西,仅供参考,不保证其质量和信誉。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-30 08:02 , Processed in 0.039158 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表