华人团队更新版！多模态基准升至史诗级难度

华人团队更新版！多模态基准升至史诗级难度

新智元报道编辑：LRS【新智元导读】MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理...

科技应用 2024-09-19 567 0 华人团队更新版！多模态基准升至史诗级难度

1