视觉语言模型能够看见吗?
-
视觉语言模型能够看见吗?
来自奥本大学和阿尔伯塔大学的研究人员发现,最先进的具有视觉能力的大型语言模型(VLMs)在理解涉及基本几何形状的空间信息方面表现得非常糟糕,例如判断两个圆是否重叠。他们提出了一个名为BlindTest的新基准测试,包括7项简单任务,这些任务在互联网上自然语言中不太可能有现成答案,以测试VLM像人类一样“看见”图像的能力。现有的VLM基准(如MMMU和ChartQA)涵盖了广泛的主题,但输入图像并非总是回答问题所必需的,即答案可能仅从文本问题和答案选择中推断出来,或由模型从互联网规模的训练中记住。出于这个差距并受到验...