我建议你再看一下KTransformers的相关资料
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
欢迎讨论。
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。
CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。
以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。 沉宝 发表于 2025-2-22 00:10
欢迎讨论。
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
显卡用的是3070M 16G,环境是Ubuntu 24.04.2
输入大概是10不到一点,输出大概是5,勉强可用
因为都是整的垃圾配件,总体的成本大概不到4000人民币
我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
如果是这个速度的话,个人轻量使用已经没有特别大的问题了 这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
https://www.pmtemple.com/academy/17340/
大黑蚊子 发表于 2025-3-10 22:25
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
显卡用的是3070M 16G,环境是U ...
我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。 大黑蚊子 发表于 2025-3-10 22:25
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
显卡用的是3070M 16G,环境是U ...
这做得很厉害了。点赞! 数值分析 发表于 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
https://www.pmtemple.com/academy/ ...
这么多案例,很有参考价值。 有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。
但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
页:
1
[2]