通用基准General-Bench:多模态通用人工智能的评估之路

研究人员提出了General-Level评估框架和General-Bench基准测试集,旨在评估多模态大语言模型(MLLM)的能力,并推动通用人工智能(AGI)的发展。

原文标题:【ICML2025】迈向多模态通用人工智能之路:通用级别与通用基准

原文作者:数据派THU

冷月清谈:

本文介绍了迈向多模态通用人工智能的研究,重点关注多模态大语言模型(MLLM)的发展,以及如何评估其能力以更接近通用人工智能(AGI)。文章提出了“通用级别(General-Level)”评估框架,该框架以“协同效应(Synergy)”为核心评估标准,依据模型在理解与生成之间以及在多模态交互中保持协同关系的能力,对模型进行分级。为全面评估MLLM的综合能力,研究者构建了大规模的多模态基准测试集——General-Bench,该基准覆盖了广泛的技能、模态、格式与能力,并通过对100多个先进MLLM的评估,揭示了当前模型在实现真正AGI方面面临的挑战。研究旨在为下一代多模态基础模型的研究奠定基础,并加速AGI的实现。

怜星夜思:

1、文章中提到目前的大多数MLLM缺乏“跨任务”或“跨模态”的协同能力,难以达到较高等级评估标准。那么,你认为有哪些方法可以有效提升MLLM的这种协同能力?
2、文章提到了General-Bench基准测试集,旨在更全面地评估MLLM。你认为一个理想的多模态评估基准应该包含哪些要素?
3、文章中提到,目前尚无模型能够通过非语言模态提升语言智能。你对此怎么看?你认为非语言模态在多大程度上可以反哺语言智能?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
为了全面评估不同通才模型的综合能力,我们构建了一个大规模的多模态基准测试集——General-Bench。


语言模型(Multimodal Large Language Model, MLLM)当前处于快速发展阶段,进展主要得益基于语言模型(LLM)先进能力。不同以往专用模型,现有MLLM朝着“才”演进。最初具备理解能力,这些模型发展不仅能够理解,还能够生成内容。能力粒度理解扩展粒度层面,同时支持单一拓展支持广泛甚至任意态。

为了评估各类MLLM能力,研究者提出多样基准测试集。引出一个关键问题:我们是否可以简单认为,多个任务取得高性能意味MLLM能力,从而接近人类级别人工智能?我们认为,答案没有那么简单。项目中,我们提出一个评估框架,用以描绘当前模型能力行为。框架称为“通用级别(General-Level)”,建立一个等级MLLM性能通用评估体系,提供一种比较不同MLLM方法论,用于衡量现有系统强大才,乃至通用人工智能(AGI)演进进展。

框架核心是以“协同效应(Synergy)”作为评估标准,依据模型是否理解生成之间,以及交互保持协同关系,能力进行分类。为了全面评估不同模型综合能力,我们一个大规模基准测试集——General-Bench。基准覆盖广泛技能、态、格式能力,包含超过700任务325,800实例。通过100多个当前先进MLLM进行评估,结果揭示模型能力排名,凸显实现真正人工智能面临挑战。我们希望项目能够下一代基础模型研究铺平道路,提供稳健基础设施,加速AGI实现进程。

引言


大型语言模型(Large Language Models, LLMs,例如 ChatGPT(OpenAI, 2022a)和 LLaMA(Touvron 等,2023))通过身份应对广泛自然语言处理(NLP)任务,彻底变革领域。这种能力广度,使人类实现通用人工智能(Artificial General Intelligence, AGI)道路进一步。然而,人类智能本质的,而不仅仅依赖语言。认知推动语言模型(Multimodal Large Language Models, MLLMs)发展(Alayrac 等, 2022;Li 等, 2023a;Liu 等, 2023a;OpenAI, 2022b),即“才”,目前迅速发展,逐步向 AGI 靠近。

MLLM 最新进展表现多个重要突破。例如,最初智能中,LLMs 作为任务调度出现,后来逐步演化联合训练基础模型(Zhu 等, 2023a;Liu 等, 2023a;Zhang 等, 2023a;OpenAI, 2022b;Wu 等, 2024a;Chen 等, 2024a;Sun 等, 2024)。此外,MLLM 能力理解信号,发展同时进行理解生成,甚至具备编辑能力(Wang 等, 2023a;Munasinghe 等, 2023;Zhang 等, 2024a;Fei 等, 2024a)。

模型理解能力粒度理解,提升到粒度级,例如视觉模(Ren 等, 2023;Yuan 等, 2023a;Rasheed 等, 2023)。关键的是,这些模型支持单一文本态,扩展同时理解生成多种态,甚至能够处理任意输入(Wu 等, 2024a;Zhan 等, 2024;Lu 等, 2024a)。

因此,研究社区相继提出多种用于评估 MLLM 基准测试集(Wu 等, 2023a;Xia 等, 2024a;Yue 等, 2024a;Meng 等, 2024a;Liu 等, 2025;Li 等, 2024a;Ying 等, 2024a;Li 等, 2024b)。然而,当前主流评估观念可能已经后,往往简单假设:多个任务获得高性能,代表具备能力,也就接近 AGI(Xu 等, 2023a;Yu 等, 2023;Fu 等, 2024a;Chen 等, 2024b)。我们认为这种观点过于简化了“真实能力”背后含义。理论上,我们可以多个任务表现最好的 SoTA 专家模型在一起,一个“超级智能体”,看似达成类似目标,这种简单整合不能实现真正的 AGI。

我们认为,向 AGI 关键在于“协同效应(Synergy Effect)”——一种能力,能够使模型某一任务中学知识迁移增强其他任务掌握,实现不同任务之间提升。

图 示,目前多数 MLLM 主要建立语言模型智能基础上,模拟一种“间接智能”,本质语言智能延伸用于理解。尽管某些 LLM(如 ChatGPT)在 NLP 任务展示任务协同效应,反映语言智能潜力,多数 MLLM 真正实现之间任务之间协同。

项目中,我们提出一个精细评估框架——General-Level准确定位评估当前模型能力,实现真正态 AGI 指明路径。受到自动驾驶领域分级标准启发(Yurtsever 等, 2020),General-Level 建立主要性能通用等级划分标准。框架以“协同能力”作为核心评估准则,依据模型理解生成、以及交互中的协同表现,能力进行分级。最低最高等级,要求协同能力范围依次单一任务扩展到“完全协同”,并且等级越高,模型所需整合能力越高,晋升难度增加。

在 General-Level 框架进行有效评估,一个合适基准体系重要。尽管已有多个 MLLM 评估基准,例如 LVLM-eHub(Xu 等, 2023a)、MME(Fu 等, 2024a)、MMMU(Yue 等, 2024a)、SEED-Bench(Li 等, 2024a)、MMT-Bench(Ying 等, 2024a)和 MEGA-Bench(Chen 等, 2024b),它们往往存在以下局限:

  • 多数现有基准所有任务统一转换多选题格式(Fu 等, 2024a;Ying 等, 2024a),虽然简化评估流程,局限在“理解”能力评估上,忽略生成、编辑关键能力;

  • 多数基准集中图像态,忽视视频、频、三维其他关键态(Wu 等, 2023a;Liu 等, 2025;Li 等, 2024a);

  • 当前评估体系主要停留在粒度理解层面,无法评估图像理解生成粒度能力(Fei 等, 2024a;Zhang 等, 2024a)。


应对上述挑战,我们提出一个大规模评估基准——General-Bench覆盖图像、视频、频、三维、语言多种原生格式,范围广泛任务,全面评估一个具备核心能力。

我们对 100 多个当前先进的 LLM/MLLM 系统进行评估,揭示它们作为能力排名。其中一个显著发现是:多数 MLLM 缺乏“任务”或“态”协同能力,因此难以达到等级评估标准,甚至 GPT-4V 和 GPT-4o 先进模型未能获得排名。表明真正态 AGI 道路存在明显差距。同时,多数模型只能完成少数基本任务技能,综合分。关键的是,当前模型能够通过语言提升语言智能,现象凸显实现 AGI 面临重大挑战。

主要贡献:
1)我们提出一个分级标准体系——General-Level为 MLLM 研究提供严谨评估规范标准;
2)我们一个全新评估基准——General-Bench提供当前广泛任务覆盖。
我们希望项目能够作为推动下一代基础模型发展基础设施,助力强大、通用智能系统,进一步向 AGI。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


协同能力不足本质上还是对不同模态信息理解不够深刻,融合也不够自然。我猜想,如果能让模型在训练过程中,像人类一样,能够主动地探索不同模态之间的关系,是不是会更好?比如,加入一些探索性的学习机制,鼓励模型去发现并利用不同模态之间的互补信息,可能会有帮助。

从技术角度来说,我觉得评估的全面性非常重要。除了理解能力,还应该考察模型的生成、编辑能力。而且,测试的模态应该足够多样,不能只关注图像,还要包括视频、音频、3D等等。此外,还应该有细粒度的评估指标,比如像素级的图像理解能力。

我觉得这个现象很正常,毕竟现在的大模型还是以语言为核心驱动的。但是,我认为非语言模态肯定可以反哺语言智能。比如,通过让模型学习图像中的物体关系,可以提升模型的语义理解能力;通过让模型学习视频中的动作序列,可以提升模型的推理能力。关键在于如何设计合适的学习方法。

从脑科学的角度看,人类的语言能力和视觉、听觉等感知能力是密不可分的。所以,我觉得非语言模态对语言智能的反哺是必然的。未来的模型,应该更加注重多模态信息的融合,让不同模态的信息相互促进,共同提升智能水平。

与其说反哺,不如说是互相促进。语言智能可以帮助模型更好地理解非语言模态的信息,而非语言模态的信息也可以帮助模型更好地理解语言。目标不是让非语言模态“喂养”语言智能,而是让它们一起成长,协同进化。

站在AI研究者的角度,我认为模型架构创新是关键。可以尝试引入注意力机制,允许模型在不同模态之间动态地调整注意力权重,从而更好地捕捉模态间的依赖关系。或者可以借鉴人类认知中的“工作记忆”概念,设计一种能够整合不同模态信息的记忆模块。

我觉得除了考察模型本身的能力,还要考虑模型的可解释性。一个“黑盒”模型,即使在基准测试中表现很好,也很难让人信任。所以,基准测试应该加入一些考察模型推理过程的环节,看看模型是不是真的“理解”了。

我觉得可以从数据层面入手。可以构建更全面的、包含各种模态之间关联的数据集,并进行有针对性的训练。比如,让模型学习图像和文本之间的深层语义关联,或者学习音频和视频之间的同步关系。

站在用户的角度,我觉得实用性很重要。一个好的基准测试,应该能够反映模型在真实场景中的表现。所以,测试用例应该尽可能地贴近生活,涵盖各种实际应用,比如智能家居、自动驾驶等等。