把 VLM 塞进隐式世界模型，小鹏机器人新框架让机器人长出物理直觉

AI
5月27日

强哥来了

核心思路，是让 VLM 在自己原生的特征空间里做隐式世界建模，不外挂模型，不生成像素，直接在 RoboCasa 仿真基准和真实人形机器人部署中拿到优异性能 … 借鉴认知科学中的双系统理论，不仅让强大的 VLM 直接在其原生的 ViT 特征空间中进行轻量化的隐式世界建模（Latent World Modeling），更关键的是，它将这种隐式视觉预见构建为一个可微的结构化瓶颈 … 如果能将这种隐式世界建模机制直接融入 VLM 的原生预训练任务中，利用海量的互联网人类视频，我们将有望培育出天生具备物理动力学直觉的视觉语言大模型。

原文连接

{{userData.name}}已认证

把 VLM 塞进隐式世界模型，小鹏机器人新框架让机器人长出物理直觉

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议