设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
123
返回列表 发新帖
楼主: 孟词宗
打印 上一主题 下一主题

[时事热点] 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版

[复制链接]
  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    41#
    发表于 前天 01:52 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 08:25 编辑
    孟词宗 发表于 2025-7-2 11:24
    要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。 问题是如果只是用来搞 Python  ...


    关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面能战的确实没办法比。我们这里讨论的用户当然也不是普通用户,普通用户也不会本地跑大语言模型,而且是671b这种大型模型。
    为什么我说单纯的32B模型不太行? 在我搞量化交易这个场景里面,稍微复杂点的场景比如给定若干限制条件,用python实现交易策略这种,不是单纯的策略讨论,或者辅助编程,常见的32B那几个我都试过,连问题本身都不能完全理解,DeepSeek R1 0528的Q2就没有问题,相当能打了,Q1勉强能用,这还是32K这种长context。

    另外关于本地跑DeepSeek R1 0528是否是玩票,这个我有点不同意见。当然如果是作为hobby,怎么玩,玩到什么程度是很个人的事情。不过,如果稍加规划,尽可能的优化配置,消除性能瓶颈,提高PP和TG性能,在获得乐趣的同时,这个玩具是有可能同时作为生产力工具的。首先抬个扛,如果只是以把模型跑起来为标准的话,有mmap的存在,其实不需要1.5TB内存。据个例子,128GB RAM都可以跑220GB大小的Q2, 都还有TG 0.6tps。另外工具是否优化?比如我之前提到的那个1TB 内存跑FP8原版DeepSeek R1 0528的配置,他就不是用的常见的Ktransformers,因为是双路CPU, KT需要每个CPU拷贝1份,所以KT跑原版FP8内存不够,只能跑Q4版。视频主跑的是比较小众的fastLLM,不需要两份DeepSeek在内存。先聊这么多
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    42#
     楼主| 发表于 前天 22:27 | 只看该作者
    本帖最后由 孟词宗 于 2025-7-4 00:54 编辑
    司马梦求 发表于 2025-7-3 01:52
    你说的挺有道理,其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度,实在太卡了,交互体 ...


    Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5t/s。 这还是在俺塞了3个 RTX 4000 Ada 共 60GB VRAM 的情况下。  当然,Z8 用的本来就是 DDR4 2666, 双路一共才12通道,不像EPYC 90xx 单路就有12通道,而且还用 DDR5. 另外Z8的插槽是 PCIe 3.0 而不是 4.0或5.0。

    不过俺对EPYC跑 fp16 的 671b 期望值也不高。 网上有人装了 EPYC. 裸机只用 CPU 跑 Q8 能跑出 6-8t/s。
    https://www.youtube.com/watch?v=v4810MVGhog

    加了Ktransformer并使用 RTX3090 后跑出了 14t/s,但这是跑 Q4 的速度。
    https://www.youtube.com/watch?v=fI6uGPcxDbM

    他最后花了大价钱买了个最新的 RTX Pro 6000 Blackwell 96GB, 才能把671B Q4 跑出 20t/s。 而且他说 Ktransformer 老是出问题。 这俺也深有同感。
    https://www.youtube.com/watch?v=vfi9LRJxgHs

    如果 Q8 裸机是 6-8t/s 的话,fp16 估计最多 3-5t/s。  而且随着 Context 被占用还会进一步减慢。 前面说过,Context 的大小对速度也会有影响。 如果不是 4K 而是 40K的话,速度可能会跌到 2t/s 以下。

    如果只是要跑 Q4 版,那个一千美元的丐版也是可以把 Q4 跑出 1.2t/s左右的。 当然这是初始速度。随着 Context 增加,速度也会减慢的。

    个人使用的话,这个速度也差不多够了。 不过从性价比来说,我还是主张租用云服务器的。 至少云服务器的硬件比这些家庭版的服务器要好多了。速率下降的曲线也更加平缓。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    43#
    发表于 前天 23:07 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 10:57 编辑
    孟词宗 发表于 2025-7-3 09:27
    Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5 ...


    信息量很大,谢谢指教。坦率的说老兄的配置如果算玩票的话,也凡尔赛凡的飞起了,lol

    我这个量化策略开发,说是敝竹自珍也好说商业机密也罢,和个人隐私一起,算是本地跑DeepSeek的两个理由。租用的云服务器也许也是条路子,不过真的是否安全也是存疑。

    个人使用的话,40K context如果完全版能到5t/s以上就基本可用了。我目前的理解是KT/fastLLM的CPU/GPU混合模式还是最优选项,PP的速度取决于显卡,TG的速度最终瓶颈在内存带宽。B站那个1tb ddr4-3200内存配置大概4000美元,不过国内东西便宜,如果这边攒的话,可能要多不少,5000美元是要的。如果上ddr5再加2000都不一定打住,这个预算的话具体如何分配还要仔细斟酌。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    44#
     楼主| 发表于 昨天 01:10 | 只看该作者
    司马梦求 发表于 2025-7-3 01:52
    关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面 ...

    你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

    如果你说的是Github上的这个:https://github.com/ztxz16/fastllm 他家的Model在 HuggingFace 上的 Repo 是这个: https://huggingface.co/fastllm ; 貌似这也不是完全版。 他家的多是 Q4 和 INT4。 所谓的满血只是指 671b 满血,而不是 fp16 671b 满血。

    不过就算是 Q4 或 INT4 也挺有意思的,让俺试试,速度能不能提高一点。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    45#
    发表于 昨天 02:10 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 13:24 编辑
    孟词宗 发表于 2025-7-3 12:10
    你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

    如果你说的是Github上的这个:https://gith ...


    对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
    https://www.bilibili.com/video/BV1657VzwEMY

    ftllm有个download命令,这个命令就可以下载DeepSeek R1 0528原版
    ftllm download deepseek-ai/DeepSeek-R1-0528
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-5 22:34 , Processed in 0.034903 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表