在该赛道评测中,智元团队使用了原生的世界模型 GE 2.0,并未针对赛题进行特殊设计优化,仅基于榜单数据进行了基础微调(Finetune) … 在奖励模型(Reward Model)的加持下,GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选,将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model) … GE 2.0 仅用 20 亿(2B)参数的模型,结果比英伟达、微软等超大参数的旗舰模型效果更优秀,也验证了在人形机器人应用方面,轻量化模型的适配性不逊于超大参数模型。

