解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。所以,AI视频为啥总穿帮?往模型里硬塞3D模块,但代价是推理成本飙升、泛化能力变差,而且只能做图生视频,文生视频根本搞不定。World-R1 的思路:不改架构,靠 RL“唤醒” World-R1 的出发点很简单: 预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。World-R1的解法是周期性解耦训练:正常阶段,用完整奖励猛练几何一致性。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x