OpenMOSS 团队开源 MOSS-VL 模型,以交叉注意力架构重塑视频理解范式

OpenMOSS 团队近日正式开源 MOSS\-VL 系列视觉理解模型 … 该模型采用创新的交叉注意力架构,通过解耦视觉编码与认知推理,有效解决了传统模型在处理视频流时面临的计算效率瓶颈,大幅降低了推理延迟 … 在涵盖多模态感知、推理及文档 OCR 的 30 余项基准测试中,该模型表现卓越,尤其在视频理解任务上显著优于 Qwen3\-VL 等同类模型,展现了强大的时序一致性与动态场景捕捉能力。

原文连接