名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

2026-5-14 11:51:02

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。反而是经过额外 RL post-training 的 teacher，能恢复更多 teacher-student gap。比如在 DeepSeek family 里，经过 RL 的 Skywork-OR1-Math-7B gap recovery 是16.9%，而同 pipeline 的 DeepSeek-R1-Distill-7B 只有 5.3%。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

偷瞄答案

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

偷瞄答案

您还未加入该AI圈子

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议