GPT-4 等顶尖多模态模型在 ZeroBench 基准测试中全军覆没

新视觉基准 ZeroBench 难倒一众顶尖多模态模型,GPT-4 等 20 多个模型均得零分,凸显模型在复杂视觉理解上的不足。

原文标题:这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

原文作者:机器之心

冷月清谈:

最近一个名为 ZeroBench 的新视觉基准测试让一众顶尖多模态模型都难以招架,包括 GPT-4o、Gemini 2 Flash 等在内的 20 多个知名模型在首次测试中均得零分。ZeroBench 包含 100 个极具挑战性的问题,需要模型进行多步骤推理和复杂的视觉理解。

这些问题涉及各种场景,例如从模糊的菜单中计算总价、统计不同重量的哑铃数量、根据线索破解保险箱密码、判断图片中鹅的朝向等等。问题的设计不仅需要模型具备强大的视觉识别能力,还需要一定的常识、逻辑推理能力以及对不同领域的知识储备。

ZeroBench 的出现表明,当前许多基准测试已无法准确衡量大模型的真实视觉理解能力。该基准测试的题目由 20 多位专家精心设计,并经过多轮筛选和调整,以确保其难度和多样性。研究人员发现,即使是最先进的模型也难以应对这些挑战,这凸显了在多模态模型发展中仍需解决的重大挑战。

怜星夜思:

1、ZeroBench 的出现是否意味着当前的多模态模型发展方向存在问题?
2、除了文中提到的能力外,多模态模型还需要具备哪些能力才能更好地应对 ZeroBench 这类挑战?
3、如何改进现有的多模态模型,使其能够在 ZeroBench 上取得更好的成绩?

原文内容

机器之心报道
编辑:蛋酱、佳琪

眼下最顶尖的一批 LMM 是哪些?你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……

但这些大模型,遇到一个名为「ZeroBench」的视觉基准之后,纷纷败下阵来。

20 多个知名模型,首次作答成绩如下,全部是零分:


震惊之后,我们仔细研究了这个 ZeroBench 基准里的问题。

对于大模型来说,许多现有的基准已经没有任何挑战性,也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现,显然打破了这个局面。


ZeroBench 包含 100 个具有挑战性的全新问题,具体多有挑战性呢?请听题:

第一题:不用优惠,菜单上每款点一个,总共需要多少港币?


好家伙,这菜单上下颠倒就算了,还反光看不清字,让在其中找到每道菜的价格,再做加法,这不是为难我胖虎吗?

对于需要更多步骤才能得到答案的多模态模型来说,可能它也需要:「服务器繁忙,请稍后再试」。

问题 2:(i) 计算壶铃的总重量?(ii) 计算重量在 5 至 15 磅之间(含 5 磅和 15 磅)的哑铃总重量,单位为磅。(iii) 估计每个绿色壶铃的重量,单位为磅。


知识面不够宽,还真做不了这题。不光要算总重量,还得挑出绿色的,还得分类统计......


多模态模型见了这题都要暗地里蛐蛐:我连自己重多少斤都不知道,您这让我数哑铃?

问题 3:你正试图破解一个保险箱,需要一个 6 位数密码。根据失主留下的线索和物品,请推理出完整密码。


这是在考眼力,考数学,还是在拍《达芬奇密码》?

看来,ZeroBench 对多模态模型确实很高,不仅得明察秋毫,还得拥有福尔摩斯般的推理能力。

问题 4:在八方位指南针上,身体朝南的鹅占总数的百分比是多少?请精确到小数点后一位。


想要判断鹅的身体是否朝南,首先得知道这张图的南在哪边?接下来还需要考虑冬季夏季,南北半球,上午下午?

停停,在高中毕业之后,我就停止如此深度地使用自己的大脑了。


GPT-4o 做了这道题,分析了半天,最后摆烂了,让我们重新上传图片,「以便它从头开始处理。」可能它也要停下来发一句:鹅太南(难)了。

问题 5:

(1)现在是英国牛津的傍晚,这个时钟是根据物品使用方向来安装的。距离正午大约过去了多少小时?
(2)这个时钟是用一个八人赛艇队员的装备制成的,他的队伍使用标准装备。他可能坐在哪些座位?把座位号加起来等于多少?
(3)如果将图像水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度,时针最接近哪个整点?
(4)把前三个答案相乘等于多少?


「从这块只有指针的表判断距离正午的时间」、「表皮是由赛艇队员的装备做成的,他的座位号是多少?」,「水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度......」

如果说前几题查查资料,努努力还能写出来,现在已经来到连题目都读不懂的境地了。

看完这些题目,不难理解为什么它叫 ZeroBench —— 因为 AI 做完这些题后,自信可能就归零了!

想来出题人也是颇费了一番心思才能琢磨出如此刁钻的角度。ZeroBench 的研究团队组织了一个 20 多人的专家出题组,每道题都是手工高定。

由于很难事先知道一个问题对多模态模型来说有多难,因此在开发过程中,出题人还会拿最新、最好的模型来「试水」。发现题目太简单就加料,发现还能做出来就继续加料,直到调节到「难度适中」。

ZeroBench 概述


项目主页: https://zerobench.github.io/
论文地址:  https://arxiv.org/pdf/2502.09696

数据集构建

伴随着大模型能力的不断进化,想要创建一个难度足够高的问题集越来越难。

ZeroBench 中的每个问题是由 20 多位人类问题创建者手工定制的。为了增加问题的多样性,对问题创建者的指导还是比较宽泛的:(1)包含对回答问题至关重要的困难视觉元素,(2)包含多步骤推理,(3)尽可能具有挑战性。

由于很难事先知道一个问题对 LMM 来说有多难,因此在开发过程中,研究者鼓励问题创建者在一些前沿模型上对候选问题进行评估,衡量其难度并相应地调整问题。

在获得了 140 个候选问题后,研究者使用了以下由 4 个部分组成的筛选流程,最终选出了 100 个问题用于 ZeroBench:

  • 反馈。对候选问题进行筛选,必要时通过反复审查和反馈进行改进。
  • 初步评估。为了衡量难度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)对问题进行了初步评估。
  • 审查。在初步评估的基础上,对每个候选问题都进行了全面审查,以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了,旨在增加难度。此外,为了降低正确答案被猜中的可能性,必要时还对问题进行了修改,以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数(即小于 10)的问题。不符合要求的问题都被过滤掉了,因此第一次就有了 106 个合适的问题。
  • 对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。

经过反复推敲,研究者最终确定了共 100 个问题。为了在评估过程中区分模型性能,他们在审查过程中为每个问题创建了一个或多个子问题。子问题(图 6)由明确的问题子部分、自然推理步骤或与得出最终答案相关的其他数量生成。


统计

表 1 显示了 ZeroBench 的核心统计数据,其中包括 100 个主问题和 334 个子问题,在单幅和多幅图像设置中包含自然图像和合成图像。


如图 4 所示,主问题的文本长度分布广泛,最长可达 2k 字符;在子问题中,短问题的比例明显较高。问题中图片的平均大小(图 5)分布较为均匀。ZeroBench 中的问题以难度为优先考虑因素,大多数问题都包含多个步骤,需要不同的视觉能力。同样,问题的背景也往往是混合的,需要不同领域的知识。因此,为每个问题或子问题指定不同的类别是不可行的。


评估

研究者在 ZeroBench 主问题和子问题上对 20 个 LMM 进行了评估,结果见表 2。从中可以得出几个结论:

对于当下 LMM 的水准而言,ZeroBench 是不可能挑战成功的。在可重现的环境中,研究者发现所有模型在该基准测试中都只有 0% 的及格率。


有些问题是可以回答的,大多数模型的得分都不是零。表现最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分达到了 7%(正确回答 7 个问题);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表现也相对较好,正确回答了 3 个问题。

子问题区分开了模型的性能。这部分问题对模型的挑战性较小,所有模型的得分都不为零。虽然与主问题相比,推理模型的难度要低得多,但总体而言,这些模型仍然难以正确回答这些小问题,其中绝大多数都太难了。推理模型在推理过程中通常会产生一个扩展的思维链,允许它们在得出最终解决方案之前探索多种路径。然而,在 ZeroBench 上,此类模型与传统模型相比似乎并无明显优势。

在主问题上,开放源代码和封闭源代码模型的表现仍然很差,没有明显的区别。不过,通过比较子问题的得分,可以发现两者的性能差距很大,领先的开源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 个百分点。

错误分析

图 7 展示了在 ZeroBench 子问题中经常出现的视觉解读错误,例如错误地计算物体数量、无法「看到」细微细节或准确提取信息,以及难以理解空间关系。更多例子可参考附录。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得 ZeroBench 的出现更像是给多模态模型发展敲响了警钟,它提醒我们目前的模型在复杂的、贴近现实世界的视觉理解任务上还有很大的进步空间。这并不意味着方向错了,而是需要更多地关注模型的推理能力和常识学习。

除了空间想象,我觉得常识推理也很重要,比如那个时钟题,需要模型理解时钟的运作原理和一些背景知识,才能正确回答。

针对“ZeroBench 的出现是否意味着当前的多模态模型发展方向存在问题?”这个问题,除了空间想象和常识推理,我认为多模态模型还需要更强的抗干扰能力,能够从复杂的背景中提取关键信息,就像那个模糊菜单的题目一样。

可以考虑引入更多真实世界的训练数据,让模型接触更多复杂的场景,提高泛化能力。

我觉得可以借鉴人类学习的方式,比如引导模型进行多步骤推理,而不是直接给出答案。

我个人认为ZeroBench的出现是很有必要的,总得有人来戳破皇帝的新衣。之前很多基准测试太简单,导致大家对模型的实际能力有点高估了, 这个基准的出现有利于让大家更冷静客观的看待模型的能力

我想到的是,在训练过程中可以加入一些干扰因素,比如模糊图像、噪声等等,让模型更具鲁棒性,就像运动员训练一样,负重跑才能跑得更快。

我觉得方向应该没问题吧,现在的模型其实也挺强的了,只不过 ZeroBench 这种比较难的测试暴露了它的一些不足。就像学生考试一样,难题不会做不代表学习方法不对,可能就是某些知识点掌握得还不够牢固。

我觉得空间想象能力挺重要的,ZeroBench 里有些题目需要模型理解物体的空间关系和方向,这对模型来说是个很大的挑战。