中国具身智能与人形机器人产业正在经历关键的技术架构演进,视觉-语言-动作(VLA)模型与世界模型的加速融合正推动行业向商业化现实迈进,但高质量、真实世界数据的稀缺依然是制约大规模部署的核心瓶颈 … 据高盛分析师 Jacqueline Du 等人在走访 14 家中国机器人企业后发布的报告指出,行业讨论已超越单一的 VLA 框架,转向以执行为导向的多模态 AI 堆栈 … 企业已不再局限于传统的单一 VLA 模型,而是迅速转向 VLA 或视觉-触觉-语言-动作(VTLA)与世界模型的结合。
中国具身智能与人形机器人产业正在经历关键的技术架构演进,视觉-语言-动作(VLA)模型与世界模型的加速融合正推动行业向商业化现实迈进,但高质量、真实世界数据的稀缺依然是制约大规模部署的核心瓶颈 … 据高盛分析师 Jacqueline Du 等人在走访 14 家中国机器人企业后发布的报告指出,行业讨论已超越单一的 VLA 框架,转向以执行为导向的多模态 AI 堆栈 … 企业已不再局限于传统的单一 VLA 模型,而是迅速转向 VLA 或视觉-触觉-语言-动作(VTLA)与世界模型的结合。