OpenING:面向开放式图文交错生成任务的综合评测基准

OpenING:首个开放式图文交错生成评测基准,包含多样化真实任务和高质量数据,并开源IntJudge评测模型,助力多模态大语言模型发展。

原文标题:CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

原文作者:机器之心

冷月清谈:

上海人工智能实验室提出了首个面向开放式图文交错生成任务的综合评测基准 OpenING,旨在解决当前多模态大语言模型在图文交错生成方面存在的局限性。该基准包含多样化的真实图文生成任务与高质量的标注数据,以及通过增强训练得到的可靠裁判模型 IntJudge。OpenING 收集了涵盖 23 个现实领域、56 个具体任务的 5400 个真实场景下的图文交错实例,数据来源于旅行指南、产品设计、烹饪助手、创意头脑风暴等日常高频应用场景。IntJudge 采用全新的人机协作标注方法和参考增强生成(RAG)的数据增强策略,与人类判断的一致率达到 82.42%,显著高于基于 GPT 系列的评测方法。实验结果表明,集成管道模型(如 GPT-4o+DALL・E-3)整体表现优于其它模型,但在图像生成质量和真实性方面,所有模型的生成结果仍难以企及人工标注的自然图像。OpenING 已全面开源基准数据、IntJudge 评测模型及相关代码,以推动图文交错生成领域的发展。

怜星夜思:

1、OpenING 评测基准的提出,对多模态大语言模型的发展有哪些具体意义?除了论文中提到的点,你觉得还能在哪些方面推动行业进步?
2、文章中提到 IntJudge 能够更公平地评估模型,避免 GPT-as-a-Judge 的偏见。那么,你认为在构建评估模型时,除了数据增强和人机协作,还有哪些方法可以进一步减少偏见,提高评估的客观性?
3、OpenING 的评测结果显示,目前多模态模型在图像生成质量和真实性方面仍有很大提升空间。你认为未来在哪些技术方向上突破,能够显著提升图像生成质量,使模型生成的图像更接近真实世界?

原文内容


文生图 or 图生文?不必纠结了!


人类大脑天然具备同时理解和创造视觉与语言信息的能力。一个通用的多模态大语言模型(MLLM)理应复刻人类的理解和生成能力,即能够自如地同时处理与生成各种模态内容,实现多模态交互,这也是向通用人工智能(AGI)迈进的关键挑战之一。最近爆火的新版 GPT4o 与 Gemini-2.0 在图文交互这方向上也带来了令人振奋的效果。


然而,当前大部分多模态大语言模型仍局限于处理单一的图像或文本,特别是难以实现内容流畅一致的多模态交错生成。而现实生活中,以设计、教育、内容创作等代表的任务,往往需要获取图文交错的内容作为参考,这对模型的多模态生成能力提出了挑战。



近日,上海人工智能实验室提出了首个面向开放式图文交错生成任务的综合评测基准 OpenING,相关论文成果已被 CVPR2025 接收为 Oral。该基准包含:1)多样化的真实图文生成任务与高质量的标注数据;2)通过增强训练得到的可靠裁判模型 IntJudge;3)对目前图文交错生成模型 / 统一理解生成模型进行的综合评测、排名与分析。研究中的关键发现与结论能够为下一代统一理解与生成的多模态大语言模型的研发提供了重要的启发与指导。



  • 论文标题:OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

  •  技术报告: https://arxiv.org/abs/2411.18499

  •  项目主页: https://opening-benchmark.github.io/

  •  代码地址: https://github.com/LanceZPF/OpenING


OpenING 基准:更丰富、更真实、更全面


现有评测基准(如 OpenLEAF 和 InterleavedBench)存在规模小、主题多样性不足、数据来源受限等问题,且因过于依赖开源数据集作为数据来源导致数据污染的风险,难以满足真实场景的应用需求。



为此,OpenING 应运而生!



OpenING 首次系统地构建了涵盖 23 个现实领域、56 个具体任务的图文交错生成综合评测基准,共计收集 5400 个真实场景下的图文交错实例。这些实例来源于旅行指南、产品设计、烹饪助手、创意头脑风暴等日常高频应用场景。



OpenING 特别设计了高效的标注工具 IntLabel,由超过 50 人的专业团队严格把关,并通过精细化的标注流程确保了数据的一致性与真实性。OpenING 的数据划分为开发集和测试集两个部分,为 Judge 模型的训练和评测分析提供了坚实的基础。


强大评估模型 IntJudge:告别 GPT 偏见!


传统基于 GPT 的评测模型(比如 GPT-as-a-Judge)容易受到模型本身偏见,倾向于给自家生成的内容更高的评分。另外此类评测模型因为受到潜在的数据泄露的影响,使得评测的准确性和稳定性存疑。为了获得更加公平、精准、稳定的评测结果,OpenING 团队自主研发了一款名为 IntJudge 的评估模型。


IntJudge 的训练集采用了全新的人机协作标注方法 —Interleaved Arena,并在训练过程利用一种参考增强生成 Reference-Augmented Generation(RAG)的数据增强策略。通过融合人类专家评估数据和自动生成的数据,该策略大幅提升评测模型的鲁棒性和泛化能力。



具体来讲,IntJudge 的训练数据由两部分组成:一是高质量对比数据 Interleaved Arena Data,这些数据通过对不同模型在 OpenING 开发集上生成的的图文交错内容进行人工判断获得;二是利用参考增强生成(RAG)技术构建的大规模增强数据 RAG Data,通过在每个 AB 对中认定以人工标注的金标准答案为参考的生成内容优于模型直接生成的内容。这种新颖的数据增强策略在极大丰富 IntJudge 模型训练数据量的同时确保了评测模型在多种生成风格和场景下的稳定表现。


开放式问题的正确性通常难以直接判断,为此 OpenING 采用了类 ELO 机制的相对评分策略。该策略通过采样形成模型间的两两(AB Pair)对比,获得对模型客观性能评测的排行榜。这些客观指标包括强制区分平局指标 FDT, 以及该指标在包括平局 w/ Tie 和不包括平局 w/o Tie 的两种情况的指标。此外,OpenING 还提供多种额外评估指标, 包括基于 GPT-as-a-judge 的主观评测。



凭借创新的数据构建策略,IntJudge 与人类判断的一致率达到 82.42%,相较于基于 GPT 系列的评测方法 IntJudge 显著高出 11.34% . 此外,IntJudge 不仅适用于大规模自动化评测场景,还能够作为 Reward Model 直接应用于 GRPO 等强化学习(RL)训练,对多模态生成模型的性能和生成质量进行有效提升。IntJudge 训练过程中构建的 Interleaved Arena 数据也为多模态生成领域的直接偏好优化(DPO)研究提供了宝贵资源,进一步启发和促进该方向的深入探索。

模型生成性能大揭秘,与人类差距依然明显!



基于 OpenING 的详尽评测揭示了当前主流多模态模型的表现:


  • 集成管道模型(如 GPT-4o+DALL・E-3 和 Gemini 1.5+Flux)得益于高性能基础模型的协同,整体表现优于其它模型。其生成内容在图文一致性与视觉质量方面均处领先地位。此外,这类交错生成管道的性能很大程度上取决于图像生成模型的能力。与其它主流图像生成模型相比,Flux-dev 在与多种文本模型搭配使用时展现出显著的性能提升

  • 端到端模型(如 Anole、MiniGPT-5)具有统一的图文生成模型架构,其简洁的生成方式展现出了巨大的发展潜力。然而,目前此类模型在图像和文本生成的综合能力上仍存在较大提升空间

  • 文本生成方面,GPT 系列模型的质量已达到甚至超越人类水平,但在图像生成质量和真实性方面,所有模型的生成结果仍难以企及人工标注的自然图像。


通过详细的误差分析发现当前模型普遍存在诸如图像视觉质量差、连续生成的内容不一致、以及无法有效生成图像或文本等问题。这些发现为下一步模型优化指明了明确的研究方向。此外,研究团队还针对不同类型模型(如 GPT-4o+DALL-E3、SEED-X、Anole 等)出现的具体问题进行了分析(例如事实性错误,文本或图片、图片风格不一致、生成效率不足等)并总结了问题出现的比例,为未来的方法优化提出了明确的路径。



此外,在使用 OpenING 基准对近期发布的新模型 GPT-4o-ImgGen 和 Gemini 2.0-Flash-ImgGen 和进行评测时,我们惊喜地发现他们在多个任务中展现出了较强的图文理解能力,以及更为可靠的内容编辑与交错生成能力。同时,我们也观察到一些尚待解决的问题,例如 GPT-4o-ImgGen 对 prompt 中命令顺序的高度依赖 (如需要指示模型先生成文字再生成图像)且生图效率低,而 Gemini 2.0-Flash-ImgGen 无法在图片中生成高准确度和可识别的文字等。



开放源码与数据,全社区共建


为了推动图文交错生成领域的进一步发展,OpenING 研究团队已全面开源了完整的基准数据、IntJudge 评测模型及相关代码。


未来,OpenING 团队还将继续扩展数据规模与多样性,进一步优化评测模型,并推动更接近真实应用场景的研究。团队鼓励更多研究者加入,共同推进这一前沿领域的研究。研究团队相信,OpenING 将持续助力人工智能在真实场景中的落地,让机器真正具备与人类媲美的图文交互能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

除了算法和模型,我觉得数据也很重要。现在很多模型都是在有限的数据集上进行训练,缺乏对真实世界的多样性和复杂性的学习。如果能收集更多、更真实的数据,也许就能显著提升图像生成质量。

可以尝试使用自监督学习的方法,让模型从无标签数据中学习图像的特征。这样可以大大降低数据标注的成本,同时也能让模型更好地适应真实世界的复杂场景。另外,也可以考虑使用迁移学习的方法,将模型在其他领域的知识迁移到图像生成领域,提高模型的泛化能力。

我觉得可以尝试引入更多元化的数据来源。目前 OpenING 主要还是基于现有数据集,如果能加入一些来自不同文化、不同地域的数据,也许能减少在某些特定场景下的偏见。比如,可以考虑加入一些来自发展中国家的图像和文本数据,让模型更好地理解不同文化背景下的需求。

另外,还可以尝试使用对抗训练的方法。通过让评估模型与生成模型进行对抗,可以迫使评估模型更加关注生成内容的质量,而不是简单地根据某些固定的规则进行判断。这样也许能提高评估的鲁棒性和泛化能力。

OpenING 就像是给多模态大模型做了一次全面的体检,把各种隐藏的问题都给揪出来了。以前大家都是在实验室里跑数据,现在有了 OpenING,就能更清楚地看到模型在真实世界里的表现。

而且,OpenING 的数据和模型都是开源的,这对于整个社区来说都是一件好事。大家可以基于 OpenING 做更多的研究,比如改进模型架构、优化训练方法等等。我觉得未来 OpenING 可能会成为多模态大模型领域的 ImageNet,推动整个领域的发展。

我觉得OpenING最大的意义在于它提供了一个更贴近真实场景的评估标准。以前很多评测都侧重于单一模态或简单图文组合,但现实应用中,内容是交错的,需求是多样的。OpenING 模拟了这种复杂性,能帮助研究者更准确地了解模型在实际应用中的表现。

而且,OpenING 的开源,降低了研究门槛,小型团队也能参与进来,针对性地改进模型。长远来看,也许能促进更多创新应用出现,比如个性化教育、智能设计工具等。一些小公司或者独立开发者可以基于这个基准,开发出一些有意思的demo,说不定就火了。

我个人觉得,要减少偏见,提高客观性,最根本的还是要把评估标准透明化。现在很多评估模型都是黑盒,我们不知道它是如何判断的。如果能把评估的规则、权重等公开,让大家都能了解评估的原理,就可以更好地监督和改进评估模型。

此外,还可以考虑引入多方评估机制。让不同的团队、不同的专家参与评估,综合他们的意见,也许能减少个体偏见的影响。就像奥运会打分一样,去掉最高分和最低分,取平均值,这样更公平。

我个人认为,要提高图像生成质量,需要解决的一个关键问题是细节的精细化。现在的模型在生成整体结构上还可以,但在细节方面往往比较模糊,缺乏真实感。如果能让模型更好地学习和表达细节信息,就能显著提升图像的真实性。

可以尝试使用 Transformer 架构,因为 Transformer 在处理序列数据方面有优势,可以更好地捕捉图像中的细节信息。此外,还可以使用生成对抗网络(GAN)进行训练,让生成器和判别器互相竞争,生成更逼真的图像。

OpenING的推出,我认为是给目前火热的多模态大模型研究提供了一个冷静思考的契机。现在很多模型都在追求“更大”、“更强”,但往往忽略了实际应用中的问题。OpenING 通过更细致的评测,暴露了模型在一致性、真实性等方面的不足,引导研究者更加关注如何提升模型的落地能力。

此外,OpenING 的 IntJudge 模型,可以作为 Reward Model 应用于强化学习训练,这为提升多模态生成模型的性能提供了新思路。也许未来我们可以看到更多基于 OpenING 的强化学习方法,让模型在实际交互中不断学习和进化。

我觉得提升图像生成质量的关键在于更好地理解和建模真实世界的物理规律。现在很多模型都是基于统计规律进行生成,缺乏对光照、材质、物理交互等因素的考虑。如果能将这些物理知识融入到模型中,也许就能生成更逼真的图像。

比如,可以尝试使用神经渲染技术,将 3D 模型和纹理信息融入到图像生成过程中。这样可以更好地控制图像的细节和光影效果,生成更真实、更自然的图像。

除了数据和算法,我觉得人的因素也很重要。在构建评估模型时,应该邀请更多不同背景的人参与,包括不同性别、不同年龄、不同职业等等。这样可以确保评估模型不会受到某些特定人群的偏见影响。

此外,还可以定期对评估模型进行审查,看看是否存在潜在的偏见。如果没有及时发现和纠正偏见,评估结果可能会误导研究方向,甚至会产生不良的社会影响。防微杜渐很重要!