美团开源 LongCat-Flash-Prover 大模型:5600 亿参数,刷新两项 SOTA 水平

美团现已开源 LongCat-Flash-Prover 大模型,采用 5677 亿参数、MoE(混合专家模型)形态,旨在解决复杂的数学证明问题 … ** 该模型引入了混合专家迭代框架(hybrid-experts iteration framework)**,用于生成大规模、高质量的形式化推理轨迹 … 训练方面,该模型使用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧