针对视觉语言模型的特性,我们进一步提出了一种以视觉为中心的路径划分方式,并认为其本质在于对视觉 token 注意力的重新分配 … 我们的实验主要在在以视觉为中心的视觉感知类任务中进行,包括计数任务 (Pixmo,CountBench)、视觉搜索 (V*)、幻觉任务 (MMVP、HallusionBench) 及视觉定位 (RefCOCO) 等多种视觉感知任务,通过开展大量实验验证了所提方法的有效性 … Visual Para-Thinker 是将并行思考框架应用于视觉语言领域的抛砖引玉之作,之后我们会将并行思考 RL,多轮思考,Agentic RL 等方法陆续应用在 Visual Para-Thinker 中,将 Visual Para-Thinker 实现更快更好的扩展。

