华人团队更新版！多模态基准升至史诗级难度

facai888 科技应用 2024-09-19 567 0 华人团队更新版！多模态基准升至史诗级难度

新智元报道

编辑：LRS

【新智元导读】

MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。

不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正确答案？

为了解决这一问题并推动多模态AI评估的边界，MMMU团队对MMMU基准在健壮性和问题难度上进行提升，新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。

MMMU-Pro的构建过程包括三步：

1.过滤掉纯文本模型可回答的问题；

2.由人类专家将候选选项增加到10个，以减少模型蒙对答案的概率；

3.引入纯视觉输入设置，即问题直接写在图像中，既要求模型像人一样同时具有「看」和「读」的能力，也可以在现实场景中直接将模型用于屏幕截图或照片，无需分离问题与图片；

实验结果显示，模型在MMMU-Pro上的性能明显低于MMMU，下降16.8%到26.9%，模型的排名通常与原始模型相似，但GPT-4omini模型的健壮性与GPT-4o相比，健壮性较差。

研究人员中还探讨了OCR提示和思想链(CoT)推理的影响，结果发现OCR提示的影响很小，而CoT通常可以提高性能。

MMMU-Pro：更健壮的MMMU

重新审视MMMU基准测试

大规模多学科多模态理解和推理（MMMU）基准测试是一个综合性的数据集，能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。

MMMU由来自大学考试、测验和教科书的1.15万个精心策划的多模态问题组成，涵盖了六个核心学科的30个主题和183个子领域。

MMMU中的每个问题都是一个多模态的图文配对，有4个多项选择选项，包括图表、图解、地图和化学结构等30种不同的图像类型。

该基准已经成为了多模态领域的标准评估工具，许多著名多模态模型在发布时都会使用MMMU来评估能力。

但与此同时，MMMU社区也有许多负面反馈，华人团队更新版！多模态基准升至史诗级难度研究人员总结为两个问题：

1.文本依赖性：某些问题相对独立或与相应的图像无关，即无需输入图像，仅靠问题文本就能回答；

2.利用捷径：即使问题需要图像才能正确回答，但模型通常也能找到候选选项中的捷径或相关性，根据预训练中获得的先验知识来得出正确答案。

所以MMMU-Pro在构建的时候，更加细致地考虑问题与图像之间的关联性，以及智能体是否真正理解了问题的本质，而不仅仅依赖于文本信息或选项中的模式识别。

构建方法

为了缓解这些问题并构建一个更健壮的基准测试，研究人员设计了一个三步方法：

删除仅通过文本的大型语言模型（LLMs）就能回答的问题。

研究人员选择了四个强大的开源LLMs：Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat和Mixtral-8×22BInstruct（gpt-4o），并要求模型在没有图像的情况下回答MMMU问题；即使模型表明需要视觉输入，也要求模型提供答案。

对每个模型重复上述过程十次，如果某个模型能够正确回答一个问题超过五次，就可以认为这个问题是「纯文本可回答的」，排除掉三个模型都可回答的问题。

然后从剩余的问题池中，在30个主题下，每个主题随机抽取60个问题，总计1800个问题。

为了防止模型根据问题和候选项之间的关联来回答问题，研究人员将问题的候选项从四个增加到十个，使模型更难蒙对。

在增加选项的过程中，专家还会对原始的标注问题进行审查，以确保问题与图像的相关性，并排除了缺乏明确联系或连贯性的问题，筛选出了70个问题。

为了进一步挑战模型的多模态理解，研究人员在MMMU-Pro中引入了纯视觉输入设置，将问题嵌入到屏幕截图或照片中。

人类标注人员需要在模拟显示环境中手动捕获照片和屏幕截图，图片涉及不同的背景、字体样式和字体大小，可以覆盖现实世界条件的多样性。

最终总共获得了3460个问题，其中1730个样本是标准格式，另外1730个是屏幕截图或照片形式。

实验结果

实验设置

研究人员用到的基线模型包括：

1.闭源模型（ProprietaryModels）：GPT-4o（0513）和GPT-4omini，Claude3.5Sonnet，以及Gemini1.5Pro（0801和0523版本），代表了多模态模型能力的最前沿。

2.开源模型：InternVL2（8B、40B和Llama3-76B版本）、LLaVA（OneVision-7B、OneVision-72B和各种NeXT版本）、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision和Idefics3-8B-Llama3