无需强化学习!苹果团队「简单自蒸馏」,实现 Coding 模型自进化

当前,AI 大模型代码能力的提升受到多重因素制约,高质量人工数据稀缺、教师模型能力存在上限,强化学习(RL)方法也面临流程复杂和稳定性不足的问题 … 苹果团队近期提出了一种名为「简单自蒸馏」(Simple Self\-Distillation,SSD)的方法 … 这些发现表明,现有的强大代码模型内部潜藏着尚未被利用的能力,这种能力可以通过简单的方法「解锁」,而无需依赖验证器、教师模型或强化学习。

原文连接