ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

AI
5月25日

强哥来了

针对视觉语言模型的特性，我们进一步提出了一种以视觉为中心的路径划分方式，并认为其本质在于对视觉 token 注意力的重新分配 … 我们的实验主要在在以视觉为中心的视觉感知类任务中进行，包括计数任务 (Pixmo,CountBench)、视觉搜索 (V*)、幻觉任务 (MMVP、HallusionBench) 及视觉定位 (RefCOCO) 等多种视觉感知任务，通过开展大量实验验证了所提方法的有效性 … Visual Para-Thinker 是将并行思考框架应用于视觉语言领域的抛砖引玉之作，之后我们会将并行思考 RL，多轮思考，Agentic RL 等方法陆续应用在 Visual Para-Thinker 中，将 Visual Para-Thinker 实现更快更好的扩展。

原文连接

{{userData.name}}已认证

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议