Kimi最近发力了，刚刚放出来一款：Kimi Linear

bkbll · 2025 年10 月 31 日 06:45

Kimi最近发力了，刚刚放出来一款：Kimi Linear，在1M 上下文长度下，KV缓存减少75%，解码吞吐提升6倍

MMLU-Pro（4k 上下文）得分 51.0，速度与全注意力相当
RULER（128k 上下文）得分 84.3，速度提升3.98倍
1M token超长序列，解码吞吐比MLA快6.3倍

Kimi Linear把Transformer里最耗内存最拖速度的全注意力，大部分换成了硬件友好的线性注意力，3层+1层混合比例，省显存，提高了长文本生成速度

对长上下文应用的场景，可以更便宜、快速落地了

system · 2025 年11 月 30 日 06:45

此话题已在 30 天后被自动关闭。不再允许新回复。