如今,由 Albert Gu 和 Tri Dao 联合指导、四位学生研究员主力操刀的 Mamba-3,带着全新设计哲学登场 … Mamba-3 代表着一种范式转移:从追求训练效率,转向「推理优先」的设计 … 在端到端推理延迟上,16384 个 token 的 prefill+decode 场景中,Mamba-3 SISO 耗时 140.61 秒,而 vLLM 跑 Llama-3.2-1B 需要 976.50 秒,快了近 7 倍。
暂无讨论,说说你的看法吧
如今,由 Albert Gu 和 Tri Dao 联合指导、四位学生研究员主力操刀的 Mamba-3,带着全新设计哲学登场 … Mamba-3 代表着一种范式转移:从追求训练效率,转向「推理优先」的设计 … 在端到端推理延迟上,16384 个 token 的 prefill+decode 场景中,Mamba-3 SISO 耗时 140.61 秒,而 vLLM 跑 Llama-3.2-1B 需要 976.50 秒,快了近 7 倍。