解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

2026-5-17 10:01:47

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。所以，AI视频为啥总穿帮？往模型里硬塞3D模块，但代价是推理成本飙升、泛化能力变差，而且只能做图生视频，文生视频根本搞不定。World-R1 的思路：不改架构，靠 RL“唤醒” World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。World-R1的解法是周期性解耦训练：正常阶段，用完整奖励猛练几何一致性。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

偷瞄答案

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

偷瞄答案

您还未加入该AI圈子

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议