把 VLM 塞进隐式世界模型,小鹏机器人新框架让机器人长出物理直觉

核心思路,是让 VLM 在自己原生的特征空间里做隐式世界建模,不外挂模型,不生成像素,直接在 RoboCasa 仿真基准和真实人形机器人部署中拿到优异性能 … 借鉴认知科学中的双系统理论,不仅让强大的 VLM 直接在其原生的 ViT 特征空间中进行轻量化的隐式世界建模(Latent World Modeling),更关键的是,它将这种隐式视觉预见构建为一个可微的结构化瓶颈 … 如果能将这种隐式世界建模机制直接融入 VLM 的原生预训练任务中,利用海量的互联网人类视频,我们将有望培育出天生具备物理动力学直觉的视觉语言大模型。

原文连接