8 d& w0 }2 x; g4 B
2080和v100的优点是可以通过NVLink 获得很大的显存。缺点是缺乏 fp8 等先进架构的支持。不过看在那价格上,还能说什么呢?!' d8 b( H2 o5 [" V
; C5 m7 L6 y5 ^' a' r. V. J今年较之去年,最大的一个变化是像小龙虾之类的智能体流行起来了。通过不断的自我进化,智能体在很多方面可以达到和超过简单使用混合专家模型(MoE)。而智能体的后台模型,如果想跑在自己的机器上,小一些的稠密模型其效果往往好于MoE。与人相比,智能体的AI对话中提示词的长度平均增长了许多倍,从而也就要求更强的KV缓存。如此turboquant正逢其时。5 T' ?& q& o Y
) L$ `2 j" f- G) g. x) m8 t) y
比TurboQuant更强的还有RotorQuant。感兴趣的话可以关注一下它在你使用的模型上落地的进展。