视觉语言模型能够看见吗？

视觉语言模型能够看见吗？

来自奥本大学和阿尔伯塔大学的研究人员发现，最先进的具有视觉能力的大型语言模型（VLMs）在理解涉及基本几何形状的空间信息方面表现得非常糟糕，例如判断两个圆是否重叠。他们提出了一个名为BlindTest的新基准测试，包括7项简单任务，这些任务在互联网上自然语言中不太可能有现成答案，以测试VLM像人类一样“看见”图像的能力。现有的VLM基准（如MMMU和ChartQA）涵盖了广泛的主题，但输入图像并非总是回答问题所必需的，即答案可能仅从文本问题和答案选择中推断出来，或由模型从互联网规模的训练中记住。出于这个差距并受到验...

科技应用 2024-07-20 364 0 视觉语言模型能够看见吗？

1