Transformer 可以改装成 Mamba 了:苹果把推理成本直接打成线性

短文本还好,一旦上到长上下文(比如代码、agent、多轮推理),那成本就不是有点高,而是直接肉疼 … 他们做了一件很关键的事情:把 attention 里的核心计算方式,对应映射到 Mamba 的内部参数上,让 Mamba 在初始化的时候,行为就已经接近前一步的模型,而不是从零开始学 … 他们用一个大约 10B token 训练出来的 1B 模型做实验,最后得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能,其困惑度(perplexity)保持在 14.11,接近老师模型的 13.86。

原文连接