研究从第一人称机器人视角出发,希望让 VLM 学会判断任务状态,并把这种能力进一步扩展到长程规划 … 研究团队将模型依赖输入顺序进行判断的现象称为”时间顺序偏差”,即 chronological bias … 这意味着 EgoTSR 不仅可以比较两张静态图,还具备用于长视频任务监测的潜力,例如判断机器人当前处于哪个阶段、是否发生了动作回退,以及任务是否正在按照预期推进。
研究从第一人称机器人视角出发,希望让 VLM 学会判断任务状态,并把这种能力进一步扩展到长程规划 … 研究团队将模型依赖输入顺序进行判断的现象称为”时间顺序偏差”,即 chronological bias … 这意味着 EgoTSR 不仅可以比较两张静态图,还具备用于长视频任务监测的潜力,例如判断机器人当前处于哪个阶段、是否发生了动作回退,以及任务是否正在按照预期推进。