GENIUS:生成式AI流体智力评估基准

北京大学提出GENIUS基准,评估生成式AI的流体智力,即在新情境下的创造能力,结果显示现有模型仍有较大提升空间。

原文标题:CL-Bench的故事没有结束,生成式CL-Bench:GENIUS来了

原文作者:机器之心

冷月清谈:

本文介绍了北京大学提出的GENIUS,一个新的生成式流体智力评估基准,旨在评估生成式模型在生成侧是否具备真正的通用智能。与侧重于模型利用过去经验获得知识的晶体智力不同,GENIUS关注模型在面对新颖、动态变化情境下的随机应变能力,即流体智力。该基准包含510个专家级样本,涵盖20个子任务,每个样本都由多模态交织的上下文组成,要求模型真正理解并整合所有线索。实验结果表明,当前最先进的模型在GENIUS上的表现远未达到及格线,表明模型在流体智力方面存在显著短板,且预训练知识存在阻力。同时,研究还发现,常规推理增强策略效果有限,上下文理解是核心瓶颈,生成性失败主要源于执行能力不足。最后,文章还介绍了一种基于注意力的免训练增强方法,旨在提升模型的生成表现。GENIUS的提出,旨在推动生成式模型从熟练的模仿者进化为具备真正通用推理能力的思考者。

怜星夜思:

1、文章提到GENIUS测试表明现有模型在“适应上下文知识”方面表现最差,你认为这背后的根本原因是什么?除了文章中提到的预训练知识阻力外,还有哪些因素可能导致模型难以适应反直觉的上下文设定?
2、文章中提到,研究人员尝试了思维链等推理增强策略,但效果不佳。你认为对于提升模型在GENIUS上的表现,更有效的策略可能是什么?为什么?
3、文章最后提到,GENIUS 只是一个开始,希望推动生成式模型从熟练的“模仿者”进化为具备真正通用推理能力的“思考者”。你认为要实现这个目标,除了改进模型本身,还需要在哪些方面做出努力?

原文内容


本论文由北京大学硕士生安睿川担任第一作者,他由张文涛教授与鄂维南院士的共同指导。研究方向主要是统一生成理解模型、以数据为中心的 AI。拥有 NeurIPS、ICLR、ECCV 等 4 篇一作或共同一作论文发表,曾在微软亚洲研究院实习。项目通讯作者由北京大学张文涛教授担任。


在 AGI-Next 前沿峰会上,姚顺雨曾抛出一个犀利的观点:大模型迈向高价值应用的核心瓶颈,其实在于能否「用好上下文(Context)」。OpenAI 的 Jiayi Weng 也在近期的访谈中表达了类似的洞察:上下文决定了模型与人类认知的边界。当信息不对等被消除,普通人也能胜任顶尖工作——本质上,是上下文的处理能力拉开了智力的差距。


正是在这种共识下,混元与复旦团队近日发布的 CL-Bench 显得尤为重要。作为姚顺雨加入腾讯后的首秀,CL-Bench 建立了一个标杆:它严苛地审视了模型在长程交互中「学习新知识」的能力。


但故事到这里就结束了吗?


CL-Bench 精彩地解决了「输入端」的理解难题(Contextual Learning),但在「输出端」的生成环节,我们发现了另一块更为棘手的拼图:


如果上下文不仅是用来「学」的知识,而是对「创造」行为的复杂束缚,模型还能游刃有余吗?


这正是我们提出 GENIUS (Generative Fluid Intelligence Evaluation Suite) 的初衷。



  • 论文题目: GENIUS: Generative Fluid Intelligence Evaluation Suite

  • arXiv 论文: https://arxiv.org/abs/2602.11144

  • 代码仓库: https://github.com/arctanxarc/GENIUS

  • Unified Model 下半场 Blog(内含 Takeaway 和 Insight): https://chawuciren11.github.io/GENIUS/


01 从「晶体」到「流体」:

生成式 AI 的范式跃迁


目前的生成式多模态大模型无疑是强大的。但这种强大,更多体现为一种晶体智力(Crystallized Intelligence)。


所谓晶体智力,是指运用过去学习或经验获得知识的能力。现在的模型通过海量数据拟合,习得了惊人的晶体智力,它们能生成一只完美的「猫」,因为它们在训练期间见过数十亿个实例,然后在推理期间进行概率性再现。


但在真实世界里,用户的需求是异想天开的,上下文是动态变化的。模型往往需要根据当前独特的、新奇的情境进行「随机应变」的推理。这对应的正是流体智力(Fluid Intelligence)。


GENIUS 的核心使命,就是剥离掉模型对「画一只更逼真的狗」这类晶体智力的依赖,转而从「生成式流体智力」的维度,去评估模型在生成侧是否具备真正的通用智能。


02 GENIUS 基准:

解构生成式流体智力


我们构建了一个包含 510 个专家级样本、涵盖 20 个子任务的评测集(数据展示可见图一)。 每个样本都由多模态交织的上下文组成,且经过精心设计:只要去掉上下文中的任何一种模态或者内容,任务就变得不可解。这确保了模型必须真正「读懂」并整合所有线索,而难以靠猜或预训练知识来蒙混过关。


数据显示


隐式模式归纳(Inducing Implicit Patterns)(对应图一绿色部分)


人类具有一种直觉:能够从稀疏的观察中敏锐地捕捉到那些「只可意会不可言传」的潜在规律。在 GENIUS 中,我们考察模型能否在没有明确指令的情况下,从上下文中意会到出隐式的特征(比如对特定风格、图案的偏好),并将其泛化到新的生成任务中。


执行即时约束(Executing Ad-hoc Constraints)(对应图一蓝色部分)


即理解并执行临时的、非训练分布内的复杂逻辑。这对人类来说并非难事,就像小学经典的思维训练题,「将水果定义为数字进行四则运算」;或者在编程中,「将一个抽象符号定义为某种特定操作」。GENIUS 测试模型能否在临时定义的符号体系下,进行严格的逻辑推理与精确执行,而非依赖记忆中的常识关联。


适应上下文知识(Adapting to Contextual Knowledge)(对应图一黄色部分)


它强调模型必须克服预训练带来的「认知惯性」,抑制住调用内部常识的冲动,去适应反直觉的上下文设定。例如,当 GENIUS 定义了一个「重力由颜色决定」的虚构世界时,模型需要像人类一样通过「思维实验」暂停对现实物理规律的信奉,完全基于这一反事实预设进行想象与创造。


03 部分实验结果分析


我们在 12 个最先进的模型(涵盖闭源 SOTA 与开源的生成式多模态大模型)上进行了评测。 量化结果(表一所示)揭示了当前生成式模型在流体智力上的显著短板。


量化测评结果


1. 晶体智力与流体智力的割裂

实验数据显示,即便是目前最强大的模型(如 Nano Banana Pro),在 GENIUS 上的平均表现也远未达到及格线。这表明,模型在海量数据中习得的「知识储备」(晶体智力),并不能直接迁移为解决新颖问题的「推理能力」(流体智力)。


2. 预训练知识的阻力

在三大维度中,「适应上下文知识」的准确率普遍最低。这证实了模型存在严重的预训练知识阻力。例如在「反重力」任务中,模型往往会忽略 Context,顽固地生成符合现实物理规律的图像。这说明当前模型的思维具有很强的僵化性,缺乏人类那种在「现实」与「想象」模式间灵活切换的可塑性。



3. 故障诊断:为什么模型会不及格?

面对模型在流体智力上的溃败,我们并没有止步于分数的罗列,而是通过一系列诊断性实验,试图定位失效的根本原因。


常规推理增强策略的失效: 面对复杂的推理任务,直觉告诉我们要让模型「多想一会儿」。然而,如图三 (a) 所示,我们尝试了 Pre-Planning(思维链模式)和 Post-Reflection(测试时扩展,即生成-打分-再生成)等策略,结果却令人失望——带来的性能提升非常有限。这表明,GENIUS 所考察的流体智力,现有的推理范式并不能很好地迁移到这种多模态的即时生成任务中。


上下文理解是核心瓶颈: 我们在上下文中引入人工编写的显式提示(Text Hint 纯文本提示与 MM Hint 多模态提示),模型(如 Nano Banana Pro)的生成质量能够得到进一步提升。这种显式提示本质上源于人类对语境的深度解析。如果模型能够构建起类人的理解机制,这一瓶颈在理论上是可以突破的。而在多模态细则约束下,部分模型(如 Bagel)甚至出现了性能回退,这直观反映了当前模型在处理多模态交错输入时的理解乏力。


生成性失败主要源于执行能力不足,而不是理解能力缺陷: 为了验证模型对上下文的理解程度,我们将生成任务转换为视觉问答形式,如图三 (b) 所示。实验结果显示,模型在理解类任务上的成功率较高,证明其已具备相当程度的语境感知。导致「知而不能画」的现象主要归结为以下两个因素:首先,交错上下文具有极高的数据密度,其中细粒度的视觉差异难以通过有限的模态编码完全捕获与表达。其次,当前通用多模态模型的结构设计在信息传递上存在损耗,导致理解侧丰富的语义信息无法有效传导至生成侧,形成了认知与创作之间的断层。


04 方法论:

基于注意力的免训练增强


图四 注意力分布观察:左:Bagel 的注意力分布,右:我们改进后的注意力分布


基于上述诊断,我们进一步从底层机理探究了模型失效的根源。在多模态生成过程中,我们将生成图像的特征作为查询向量(Query),将图文交织的上下文作为键向量(Key),对注意力分布进行了可视化分析。结果表明,Bagel 模型在处理图像时的注意力分布异常杂乱,呈现出大量不规律的噪声与随机的激增。由此引出一个核心问题:注意力分布的偏移在多大程度上干扰了模型对上下文的理解?我们是否能通过对注意力权重进行轻量级调制,来实质性地提升模型的生成表现?


受到相关文献 [1] 的启发,我们将「上下文学习本质上是一个隐式梯度更新过程」这一理论,在数学上严格推导并拓展至 Bagel 的架构中(详细推导过程见论文 [2])。从这一理论视角出发,高质量的上下文能够为这种隐式的「梯度下降」提供明确且精准的优化方向。然而,Bagel 原生的注意力热力图揭示了一个致命缺陷:模型未能精确聚焦于上下文中必须关注的核心特征,其注意力权重呈现出无序的发散状态。这直接导致模型在隐式梯度更新时丢失了正确的下降路径,最终受困于预训练固化的数据分布中难以跳出。针对这一困境,我们提出了一种免训练的注意力校准机制,强制引导模型将注意力收敛于关键的视觉与语义区域。定性与定量实验均证实,该方法能够有效纠正模型的优化轨迹并带来显著的性能增益,为该领域构建了一个简单的基线。


05 总结与展望:

迈向真正的通用生成智能


GENIUS 的提出,旨在回应生成式 AI 发展进程中的一个核心命题:我们究竟需要什么样的智能?


当前的生成式多模态大模型已经在晶体智力上取得了令人瞩目的成就:它们能够完美拟合海量数据分布,复现高质量的视觉内容。然而,GENIUS 的评测结果揭示了繁荣背后的隐忧:一旦脱离了预训练的舒适区,面对需要即时推理、归纳与适应的流体智力任务,现有模型仍显稚嫩。


从「晶体智能的拟合」走向「流体智能的推理」,是生成式多模态大模型下一阶段发展的必经之路。


GENIUS 仅仅是一个开始。我们希望这一基准能为社区提供一个严谨的测试平台,推动生成式模型从熟练的「模仿者」,进化为具备真正通用推理能力的「思考者」。


引用:      

[1] Learning without training: The implicitdynamics of in-context learning

[2] GENIUS: Generative Fluid IntelligenceEvaluation Suite


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我认为数据也很关键。需要构建更大规模、更多样化的多模态数据集,让模型能够学习到更丰富的跨模态知识。同时,也可以考虑使用数据增强技术,例如,对图像进行旋转、缩放等操作,或者对文本进行同义词替换等操作,以提高模型的鲁棒性。

一个思路是引入更有效的多模态融合机制,例如,设计更强大的注意力机制,让模型能够更好地关注不同模态之间的关联性。此外,还可以尝试使用对比学习等方法,让模型学习不同模态之间的共同表示。

我觉得吧,这就像让一个只会按公式解题的学生去做开放性题目,他肯定会懵。大模型也是一样,它擅长的是从数据中找到规律,然后套用这些规律,一旦规律失效,它就不知道该怎么办了。所以,关键还是要让模型学会独立思考,而不是死记硬背。

我认为“反重力”测试暴露了模型对预训练知识的过度依赖,难以摆脱既定认知。除了物理规律,模型还可能在社会规范、文化习俗等方面受到“常识”束缚,例如,它可能难以生成符合特定历史背景或文化背景的内容,或者在处理涉及情感或伦理判断的任务时显得僵化。

其实,我觉得GENIUS的意义不仅仅在于评估模型的能力,更在于引导我们思考AI的本质。AI不应该只是一个工具,而应该是一个能够与我们共同创造、共同进化的伙伴。所以,未来的发展应该更加注重人与AI的协同,让AI更好地服务于人类。

我觉得更重要的是要搞清楚,我们到底需要什么样的AI?是能够生成逼真图像的AI,还是能够解决实际问题的AI?如果是后者,那么我们就需要更加注重模型的实用性和可解释性,而不是一味地追求更高的分数。

这个问题问到了点子上!我觉得预训练知识就像是一种“先入为主”的观念。模型在海量数据上训练,形成了固定的思维模式,当遇到与预训练数据相悖的情况时,就很难摆脱这种固有模式的束缚。平衡的关键在于让模型具备更强的“可塑性”,能够根据上下文动态调整自身的认知。

数据也很关键。要训练出具备流体智力的模型,需要更多样化、更复杂的数据。特别是需要一些能够激发模型思考和推理的数据。比如,可以增加一些脑筋急转弯、谜题、甚至是一些带有对抗性的数据,来挑战模型的认知能力。

我觉得更有效的策略是改进模型的注意力机制。文章提到模型在处理图像时的注意力分布异常杂乱,这说明模型没有有效地关注到关键的信息。可以通过设计更精细的注意力机制,让模型能够更好地捕捉上下文中的重要特征,从而提高生成质量。

我觉得需要在理论研究上有所突破。目前的深度学习理论还不够完善,我们对模型的理解还很有限。需要加强对深度学习理论的研究,才能更好地理解模型的本质,从而设计出更有效的模型。

除了模型本身,我觉得更重要的是数据集的构建。目前的数据集大多侧重于模拟现实世界,而缺乏对抽象概念和推理能力的考察。需要构建更多样化、更具挑战性的数据集,才能真正推动模型向“思考者”进化。

我觉得可以尝试引入外部知识库。模型之所以难以适应反直觉的设定,可能是因为缺乏对相关知识的理解。通过让模型查询外部知识库,可以帮助它更好地理解上下文,从而提高生成质量。例如,在生成违反物理定律的场景时,可以让模型查询一些相关的科幻概念,从而激发它的想象力。

我从另一个角度看,这可能和模型的训练目标有关。现在的模型可能更侧重于生成符合人类常识和偏好的内容,而不是生成完全符合上下文设定的内容。毕竟,完全按照上下文生成的内容可能并不美观或者符合人类的审美。如果模型的训练目标不改变,它可能很难在“适应上下文知识”方面有显著的提升。

我同意预训练知识是个阻力,但我觉得也跟模型处理多模态信息的方式有关。文章提到“交错上下文具有极高的数据密度,其中细粒度的视觉差异难以通过有限的模态编码完全捕获与表达”,这说明模型可能无法充分理解上下文的细微之处,从而难以适应其中的知识。