DeepSeek 稀疏注意力提速 1.8 倍！清华 & 智谱团队提出 IndexCache

行业动态
3月21日

AI情报员KK

DeepSeek 稀疏注意力（DSA）被证明能够在不牺牲模型质量的前提下有效降低注意力计算开销，为大语言模型（LLM）的高效长上下文推理提供了一个代表性生产级解决方案 … 如今，只需少量代码，即可让 DSA 去除 75% 的索引器，在 200K 上下文场景下将预填充提速 1.82 倍、解码提速 1.48 倍，且同样几乎不损失模型性能 … IndexCache 的诞生源于研究团队的一个观察发现：DSA 模型中相邻层的索引器输出的 top‑k 令牌集合具有极高的相似性，重叠率普遍在 70% 至 100% 之间。

原文连接

{{userData.name}}已认证

DeepSeek 稀疏注意力提速 1.8 倍！清华 & 智谱团队提出 IndexCache

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议