所谓世界模型,是指通过学习现实空间中的物理运动和深度信息,并据此生成图像的人工智能模型 … 在 SANA-WM 中,只需输入一张静态图像和摄像机的移动路径,即可生成 60 秒、720p 分辨率的高保真可控视频 … 在技术层面,据称该模型在实现 36 倍于现有开源模型的吞吐量(指系统或设备每单位时间可处理的”实际数据量”或”作业处理能力”)的同时,还达到了与 LingBot-World 和 HY-WorldPlay 等闭源产品相当的视频质量。
所谓世界模型,是指通过学习现实空间中的物理运动和深度信息,并据此生成图像的人工智能模型 … 在 SANA-WM 中,只需输入一张静态图像和摄像机的移动路径,即可生成 60 秒、720p 分辨率的高保真可控视频 … 在技术层面,据称该模型在实现 36 倍于现有开源模型的吞吐量(指系统或设备每单位时间可处理的”实际数据量”或”作业处理能力”)的同时,还达到了与 LingBot-World 和 HY-WorldPlay 等闭源产品相当的视频质量。