ACL 2025 Oral:Evaluation Agent——你的AI视觉生成模型专属评估顾问

Evaluation Agent:AI模型评估新范式。它能根据用户需求高效定制评估方案,快速产出可解释性报告,助你深入理解视觉生成模型。

原文标题:ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

原文作者:机器之心

冷月清谈:

Evaluation Agent 是由上海人工智能实验室与新加坡南洋理工大学合作研发的一款面向视觉生成模型的AI评估框架,已入选ACL 2025主会Oral论文。它旨在解决传统评估方法效率低下、缺乏个性化、以及结果难以解读的痛点,为用户提供一个专业、高效且更懂需求的评估顾问。

该框架的核心优势体现在:极强的可定制性与高效性。用户只需用自然语言描述关注点,Evaluation Agent便能自动规划评估流程,并根据中间结果灵活调整方向,实现“按需评估”。同时,通过多轮交互式评估和智能采样策略,它能大幅减少所需样本数量,将评估耗时压缩至传统方法的10%左右,特别适合快速迭代开发。

此外,它还具备出色的可解释性,能生成如同人类专家撰写的分析报告,不仅量化模型能力,更指出其局限和改进方向。作为一个开放框架,Evaluation Agent还支持集成新的评估工具和指标,未来可扩展至更多视觉生成任务,如3D内容生成和多模态AI评估。

其工作原理分为提案阶段和执行阶段,并通过动态多轮交互实现评估优化。在提案阶段,Plan Agent分析用户需求并规划评估路径,PromptGen Agent为子任务生成提示。执行阶段则利用视觉生成模型生成样本,并由评估工具包分析。每一轮执行结果都会反馈给提案阶段,形成闭环优化。

研究团队在图片生成和视频生成任务上进行了全面验证,结果显示,Evaluation Agent在评估效率上显著优于现有基准框架(如VBench、T2I-CompBench),相较于传统方法节省了90%以上的时间,同时保持了评估结果的一致性。它还能灵活处理复杂的、用户定制的开放式评估需求,例如判断模型能否生成特定历史场景,或是否理解摄影概念。

未来,Evaluation Agent有望进一步扩展评估能力至更多视觉任务和多模态AI,优化开放式评估机制,甚至发展为个性化模型推荐系统,利用众包数据提升泛化能力。这一创新范式为视觉生成模型的理解和优化提供了强有力支持,有望推动更智能、更灵活的评估体系发展。

怜星夜思:

1、Evaluation Agent看起来这么厉害,各大AI公司和独立开发者是不是会立马用起来?实际落地中可能会遇到哪些挑战或阻碍呢?大家觉得呢?
2、文章提到它能像人类专家一样分析报告,甚至能处理复杂概念。但毕竟是AI评估AI,会不会存在“英雄所见略同”甚至“一丘之貉”的情况?比如模型本身有偏见,EA评估时会不会也受影响,或者难以发现更深层次的偏见?
3、Evaluation Agent效率这么高,又能定制化,那以后专业的模型评测专家是不是就“失业”了?人类在AI模型评估这块还有没有不可替代的价值?

原文内容


本文作者来自于上海人工智能实验室与新加坡南洋理工大学,分别是张凡、田淑琳、黄子琪,指导老师是乔宇老师与刘子纬老师。


怎么快速判断一个生成模型好不好?


最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。


但问题是:


  • 朋友太忙,没法一条条帮你看;

  • 你问题太多,不只是想知道「好不好」,还想知道「哪里不好」「为啥好」「适不适合我」。


你需要一位专业、耐心、随叫随到的评估顾问。


于是,来自上海人工智能实验室 & 南洋理工大学 S-Lab 的研究者合作研发了一个 AI 版本的「懂行朋友」——Evaluation Agent


它不仅评测,还能听你提问、为你定制测试、写出人类专家一样的分析报告。


  • 你问「它拍古风视频怎么样?」,它就给你规划方案;

  • 你问「懂光圈焦距吗?」,它就设计针对测试;

  • 你想知道适不适合你,它还真能给出解释。


这就是视觉生成模型评估的新范式:


Evaluation Agent 入选 ACL 2025 主会 Oral 论文。



  • 论文:https://arxiv.org/abs/2412.09645

  • 代码:https://github.com/Vchitect/Evaluation-Agent

  • 网页:https://vchitect.github.io/Evaluation-Agent-project/

  • 论文标题:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models


为什么选择 Evaluation Agent?


1. 可定制:你说关注点,它来定方案。


不同人对生成模型有不同期待 —— 风格?多样性?一致性?


只需用自然语言说出你的关注点,Evaluation Agent 就能:


  • 自动规划合适的评估流程

  • 根据中间结果灵活调整评估方向

  • 针对性地深入分析你关心的能力维度


真正实现「按需评估」,服务你的具体任务。


2. 高效率:更少样本,评得更快


传统评估动辄需要几千张样本,Evaluation Agent 通过多轮交互式评估与智能采样策略,大幅减少样本数量。整体评估过程的耗时可以压缩到传统方法的 10% 左右,尤其适合在迭代开发中快速反馈。


3. 可解释:让评估结果说人话


结果不仅是表格和数字,Evaluation Agent 会以自然语言生成分析报告,不仅涵盖模型能力的全面总结,还能指出模型的局限性和改进方向。


4. 可扩展:支持不同任务、工具、指标的集成


Evaluation Agent 是一个开放框架,支持集成新评估工具和指标,适用于不同的视觉生成任务(如图片生成和视频生成)。


框架工作原理



Evaluation Agent 框架主要由两个阶段组成:


1. 提案阶段(Proposal Stage)


  • Plan Agent:分析用户需求,动态规划评估路径。

  • PromptGen Agent:为每个子任务生成专属的评估提示(prompt)。


这一阶段的目标是:根据你的关注点,量身定制评估方案。


2. 执行阶段(Execution Stage)


框架利用视觉生成模型生成内容,并通过相应评估工具进行质量分析。


  • 视觉生成模型:根据上阶段设计的 prompt 生成样本

  • 评估工具包:根据提案阶段的规划选用合适的工具对采样内容进行评估


3. 动态多轮交互


评估不是一次性完成的。Execution 阶段的每一轮评估结果,都会反馈给 Proposal 阶段,用于优化后续 prompt 和任务设置。通过这种多轮协同,Evaluation Agent 实现了对模型能力的动态、深入评估。


结果展示


1. 对比传统评测框架


视频生成模型评测效率上与 VBench 评测框架的对比


图片生成模型评测效率上与 T2I-CompBench 评测框架的对比


研究团队在图片生成任务(T2I)和视频生成任务(T2V)上对 Evaluation Agent 进行了全面验证。结果表明,其评估效率显著高于现有基准框架(如 VBench、T2I-CompBench),相较于传统的评测框架节省了 90% 以上的时间,且评估结果具有较高一致性。


2. 用户开放式评估场景


对用户开放问题评估的部分样例


Evaluation Agent 不仅能够高效评估模型的表现,还能灵活处理用户提出的个性化评估需求,例如:


  • 模型能否生成特定历史场景的高质量视频?

  • 模型是否理解并能应用焦距、光圈、ISO 等摄影概念?


在处理用户的开放式查询时,Evaluation Agent 展现了卓越的灵活性和深度。它能够根据用户的定制需求,系统地探索模型在特定领域的能力,从基本问题开始,逐步动态深入,最终通过自然语言详细分析和总结评估结果。


例如,对于问题「模型是否能够在保持原始风格的同时生成现有艺术作品的变体?」,下面展示了完整的评估过程。



在 Evaluation Agent 工作中,开放式用户评估问题数据集 (Open-Ended User Query Dataset) 是检验框架开放式评估能力的重要组成部分。该数据集为系统提供了多样化的评估场景,特别是在面临复杂的、用户特定的评估需求时,能够展现出系统的灵活性和动态评估能力。


开放式用户评估问题数据集首先通过用户调研收集了来自用户的一系列针对模型能力的开放问题。随后,经过数据清洗、过滤、扩展以及标签打标等处理,最终完成了数据集的构建。该数据集涵盖了广泛的评估维度,能够全面评估模型的各项能力。下图展示了该数据集在不同类别下的统计分布。


开放式用户评估问题数据集统计分布


前景与进一步计划


Evaluation Agent 的初步研究已经证明其在视觉生成模型评估中的高效性和灵活性。未来,该方向可能在以下领域进一步拓展和深入研究:


1. 扩展评估能力,涵盖更多视觉任务


  • 目前 Evaluation Agent 已适用于图像和视频生成模型,未来将扩展到 3D 内容生成、AIGC 视频编辑等更复杂的生成任务。

  • 增加对多模态 AI(如结合文本、音频、视频的生成模型)的评估能力,探索不同 AI 模型在跨模态任务中的表现。


2. 优化开放式评估机制


  • 进一步完善开放式用户评估问题数据集,提升 Evaluation Agent 对复杂、抽象概念(如风格迁移、艺术融合、情感表达等)的理解和评估能力。

  • 引入强化学习机制,使 Evaluation Agent 能够利用基于用户反馈的数据实现自我优化,提高评估的精准性和适应性。


3. 从自动评测迈向智能推荐


  • 未来,该框架可拓展用于视觉生成模型的个性化推荐,依据用户的具体需求自动匹配最合适的生成模型,并生成详尽的评估报告。

  • 研究如何利用众包数据,收集不同领域的专业人士(如设计师、摄影师、影视制片人)对 AI 生成内容的反馈,以提升评估框架在多领域场景下的适应性和泛化能力。


总结


Evaluation Agent 提出了一种高效、灵活、可解释的视觉生成模型评估新范式。它突破了传统评估方式的限制,能够根据用户需求动态分析模型表现,为生成式 AI 的理解与优化提供支持。无论关注的是准确性、多样性,还是风格与创意,这一框架都能给出清晰、有针对性的评估结果。


研究团队希望这一方法能为视觉生成模型的评估带来新的思路,推动更智能、更灵活的评估体系发展。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

“Evaluation Agent出现后,专业模型评测专家会不会失业?”我的观点是:不会,但角色将发生根本性转变。Evaluation Agent承担的是高重复性、大规模、初步筛选和量化分析的工作,极大解放了人类专家的时间。人类专家的价值将从“执行者”转变为:1. **策略制定者:**设计更复杂的评估目标,定义更深层次的评估维度和标准,尤其是那些涉及创意、美学、道德等主观且难以量化的方面。2. **偏见校准者:**识别并纠正Evaluation Agent可能存在的偏见,确保评估的公平性和普适性。3. **异常分析师:**对Agent标记出的“异常”或难以解释的结果进行深度分析和诊断。4. **新范式探索者:**研究新的评估方法、新的指标体系,推动评估科学本身的发展。换言之,AI是强大的工具,提升了生产力,但“智能”的上限仍然由人类的洞察力所决定。

哈哈,‘评测专家会不会失业’?我觉得他们可能会成为‘Evaluation Agent御用顾问’!就像有了自动驾驶,司机也没失业,变成了安全员或者车队管理员。AI再厉害,也得有人告诉它‘什么才叫好’,更何况还要应对各种奇奇怪怪、人类脑洞大开的评估需求。而且,万一Agent评估出来的结果,连它自己都解释不清楚了,不还得人类专家拍板?所以啊,专业‘搞事’的专家,总会有用武之地的!:rocket:

失业?我觉得不至于,更像是‘升级打怪’!以前评估专家可能大部分时间都在做重复、枯燥的跑数据、看样本的工作,现在Evaluation Agent把这些都包了,那专家就有更多精力去干‘高级活儿’了。比如,设计更刁钻的测试用例,或者去研究更前沿的评估理论,甚至可以去跟产品经理、艺术家、社会学家合作,探索模型在更广阔领域的表现,这些才是AI暂时替代不了的‘人类智慧’。所以,不是失业,是‘升职’了!

‘AI评估AI会不会“一丘之貉”’这问题问得太对味了!就像你请了一个跟你品味很像的朋友做审美顾问,他给你推荐的肯定也是你喜欢的那一套,优点缺点都看不出新意。AI也一样,如果它“学”到的都是某一种风格或标准,那评估出来的结果自然也是同一套路。万一模型生成了一些特别创新的东西,可能还会被它“误判”为不合格。所以,我觉得它更像个“高效率的同行”,而不是能跳出圈子的“另类思考者”。除非开发团队能持续喂给它各种各样、甚至是有争议的评估案例,让它口味更广一点。

哈哈,‘立马用起来’估计有点难,毕竟新的工具上线总得适应期嘛!我觉得最大的挑战可能是“惯性”和“信任”。大家都习惯了传统流程,要改会有点痛。而且,AI评估AI,初期大家肯定会有点‘不放心’,需要时间来证明自己是真的行。不过,只要它能实打实地提高效率、降低成本,那些追求效率的大厂肯定会慢慢跟上,小公司也能沾光,这不是双赢嘛!

问到‘Evaluation Agent实际落地会遇到哪些挑战’,我第一反应就是:老板愿不愿意为它掏钱!:dog_face: 开个玩笑,但成本肯定是个考量。然后就是,再好的AI工具,最终还是要人来操作、来理解报告。如果报告生成了一大堆“人话”,但我们解读错了,或者本来就不知道该看什么,那不也白瞎?我觉得,‘使用者能否充分理解和利用’可能也是个隐形挑战。不然,工具再智能,也可能变成桌面摆件。

回看“Evaluation Agent看起来这么厉害,各大AI公司和独立开发者是不是会立马用起来?实际落地中可能会遇到哪些挑战或阻碍呢?”这个问题,我认为普及是趋势,但不会“立马”。挑战主要在几个方面:1. **集成成本:**将其整合到现有MLOps流程中,需要投入时间和资源进行适配和开发。2. **信任度建立:**团队需要时间验证其评估结果的可靠性和权威性,尤其是对核心业务影响重大的模型。3. **计算资源:**尽管EA优化了效率,但高级评估仍需一定算力支持。4. **技术门槛:**理解并有效利用其“定制化”和“动态交互”能力,对使用者本身也有一定要求。5. **数据隐私:**在某些场景下,模型评估需要接触敏感数据,框架的安全性需经严格考量。因此,逐步试点、小范围推广会是更现实的路径。

关于“AI评估AI是否存在偏见共振”的疑问,这是一个非常深刻且关键的问题。理论上,若用于训练Evaluation Agent的数据集或预设的评估标准本身就隐含了某种偏见(例如对特定风格、种族或性别的偏好),那么Agent在评估时可能会重复、甚至强化这种偏见,形成“偏见的恶性循环”(Bias Loop)。例如,如果训练数据中高质量图片多为西方白人形象,Agent在评估亚洲人像时可能会给出较低分数。解决之道在于:1. **多样化与公平性数据集:**构建更全面、平衡、无偏见的评估数据集是基础。2. **可解释性与溯源:**增强Agent的评估过程可解释性,使其能说明“为何给出此项评估”,便于人类专家介入检查偏见源。3. **多视角评估:**结合多种评估方法,包括基于数值指标、人工评估、对抗性测试等,从不同维度验证模型公平性。4. **持续审计与调优:**将偏见检测和缓解纳入常态化MLOps流程,定期对Evaluation Agent进行审计和更新。

‘AI评估AI,会不会自己骗自己?’哈哈,这问题简直是“AI版狼人杀”!:exploding_head: 我觉得肯定有这个风险啊,就像我跟我的AI助手聊得久了,有时候我觉得它都开始“学”我说话的语气和思考方式了。如果大家都是一个“模子”里刻出来的,那偏见就像病毒一样,在AI圈里传播起来可就快了。除非它能定期跟人类专家“隔离”一下,或者互相“举报”一下对方的偏见,不然真的有可能大家一起“跑偏”!是不是该引入“AI评估师证”了?:thinking: