具体而言,研究团队通过三大类实验展开研究:一是设计 Phantom\-0 基准(200 道无图视觉问题,跨越 20 个领域),测量模型的「海市蜃楼率」… 本报告明确指出,研究的核心目标并非否定多模态模型的视觉处理能力,而是揭示当前评估体系在区分「真正的视觉理解」与「基于非视觉信息的有效推断」方面存在的不足 … 研究团队对 6 个主流多模态基准进行了「图像消融」实验:分别在有图(原始模式)和无图(海市蜃楼模式,即悄悄移除图像但不告知模型)条件下评测 4 个前沿模型(Gemini 3 Pro、Gemini 2\.5 Pro、GPT\-5\.1、Claude Opus 4\.5)。

