从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

本研究由中山大学、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。如今,多模态大模型已经能够看图、看视频,并回答复杂问题。为了解决这一问题,来自中山大学和美团的研究团队提出了 X2SAM,一个统一的图像与视频分割多模态大模型框架。X2SAM 由多模态大模型、区域采样模块、Mask Encoder、Mask Decoder 和 Mask Memory 等部分组成。多模态大模型负责理解用户的文本指令、视觉提示以及上下文信息,并将这些语义信息转化为可用于分割的目标表示。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x