告别多奖励跷跷板：Flow-OPD 将多教师 OPD 带入图像生成

AI
5月25日

强哥来了

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好 … 混合奖励 GRPO 试图通过简单堆叠或混合多个标量奖励函数来进行联合优化，却根本无法建立稳定的认知基础，每当引入新的奖励信号时，就会引发此前已习得能力的灾难性遗忘与参数吞噬 … 多教师 OPD 蒸馏：Flow-OPD 的核心思想是让学生模型通过”实践”暴露自身的错误与偏差，并在自己生成的图像路径上，实时接受不同专家教师的精准指引。

原文连接

{{userData.name}}已认证

告别多奖励跷跷板：Flow-OPD 将多教师 OPD 带入图像生成

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议