李飞飞最新发布ESI-Bench,空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。每一道题,AI智能体必须主动行动才能拿到足够信息作答。这么一说,大家应该也能直观感受到这套评测基准的设计理念: 正确答案不在任何单张图片里,智能体必须主动行动并推理出正确结果。团队特别指出,与此前工作相比,ESI-Bench在三个地方有所超越: 从空间感知到空间能力:在这里,智能体不仅根据他们能感知到什么来评估,还根据他们是否知道部署哪些具体能力来解决空间任务来评估。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x