Transformer 可以改装成 Mamba 了：苹果把推理成本直接打成线性

AI
4月22日

强哥来了

短文本还好，一旦上到长上下文（比如代码、agent、多轮推理），那成本就不是有点高，而是直接肉疼 … 他们做了一件很关键的事情：把 attention 里的核心计算方式，对应映射到 Mamba 的内部参数上，让 Mamba 在初始化的时候，行为就已经接近前一步的模型，而不是从零开始学 … 他们用一个大约 10B token 训练出来的 1B 模型做实验，最后得到的 Mamba 模型能够保留原始 Pythia-1B Transformer 在下游任务中的性能，其困惑度（perplexity）保持在 14.11，接近老师模型的 13.86。

原文连接

{{userData.name}}已认证

Transformer 可以改装成 Mamba 了：苹果把推理成本直接打成线性

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议