DeepSeek 稀疏注意力提速 1.8 倍!清华 & 智谱团队提出 IndexCache

DeepSeek 稀疏注意力(DSA)被证明能够在不牺牲模型质量的前提下有效降低注意力计算开销,为大语言模型(LLM)的高效长上下文推理提供了一个代表性生产级解决方案 … 如今,只需少量代码,即可让 DSA 去除 75% 的索引器,在 200K 上下文场景下将预填充提速 1.82 倍、解码提速 1.48 倍,且同样几乎不损失模型性能 … IndexCache 的诞生源于研究团队的一个观察发现:DSA 模型中相邻层的索引器输出的 top‑k 令牌集合具有极高的相似性,重叠率普遍在 70% 至 100% 之间。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧