DeepSeek 稀疏注意力(DSA)被证明能够在不牺牲模型质量的前提下有效降低注意力计算开销,为大语言模型(LLM)的高效长上下文推理提供了一个代表性生产级解决方案 … 如今,只需少量代码,即可让 DSA 去除 75% 的索引器,在 200K 上下文场景下将预填充提速 1.82 倍、解码提速 1.48 倍,且同样几乎不损失模型性能 … IndexCache 的诞生源于研究团队的一个观察发现:DSA 模型中相邻层的索引器输出的 top‑k 令牌集合具有极高的相似性,重叠率普遍在 70% 至 100% 之间。
暂无讨论,说说你的看法吧

