从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

2026-5-16 11:06:40

本研究由中山大学、美团联合完成，第一作者王豪为中山大学博士研究生，主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。如今，多模态大模型已经能够看图、看视频，并回答复杂问题。为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。X2SAM 由多模态大模型、区域采样模块、Mask Encoder、Mask Decoder 和 Mask Memory 等部分组成。多模态大模型负责理解用户的文本指令、视觉提示以及上下文信息，并将这些语义信息转化为可用于分割的目标表示。

圈主管理员

热门评论

该帖子评论已关闭

图片审查中...

编辑答案：我的回答：最多上传一张图片和一个附件

表情

图片

附件

取消编辑

{{userData.name}}已认证

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

偷瞄答案

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

偷瞄答案

您还未加入该AI圈子

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议