这正是多模态数学推理(Multimodal Mathematical Reasoning,MMR)面临的核心挑战:模型需要同时处理文本、图像、图表、表格、几何图形等多种信息,并在此基础上完成可靠的数学推理 … 来自圣母大学、耶鲁大学、哥伦比亚大学、纽约大学和宾夕法尼亚州立大学的研究团队系统梳理了这一快速发展的方向,并提出了一套面向多模态数学推理的统一分析框架:Perception–Alignment–Reasoning(PAR) … 这篇综述的价值在于,它没有只罗列数据集和模型,而是用 PAR 和 APE 两套框架重新组织了整个领域:前者回答模型如何完成推理,后者回答我们如何评估推理是否可靠。

