M3 采用了全新稀疏注意力(Sparse Attention)架构,通过 Index Branch 快速索引与 Sparse Branch 精准计算相结合的方式,有效解决了超长上下文场景下的计算瓶颈 … 稀疏注意力等技术的突破,有望推动大模型从”参数规模竞赛”转向”效率与实用性竞赛”,为企业级落地和消费者应用带来更实惠、高效的体验 … 目前 MiniMax 尚未公布 M3 的具体发布时间与完整参数规模,但从工程负责人的预告及性能数据来看,这款模型有望成为长上下文处理领域的有力竞争者。
M3 采用了全新稀疏注意力(Sparse Attention)架构,通过 Index Branch 快速索引与 Sparse Branch 精准计算相结合的方式,有效解决了超长上下文场景下的计算瓶颈 … 稀疏注意力等技术的突破,有望推动大模型从”参数规模竞赛”转向”效率与实用性竞赛”,为企业级落地和消费者应用带来更实惠、高效的体验 … 目前 MiniMax 尚未公布 M3 的具体发布时间与完整参数规模,但从工程负责人的预告及性能数据来看,这款模型有望成为长上下文处理领域的有力竞争者。