Xbench:关注AI Agent的真实业务能力评估

红杉中国发布Xbench,双轨评估AI Agent在实际业务中的效用,从关注技术到关注生产力。

原文标题:从性能到实战,怎样才算是靠谱的 Agent 产品?

原文作者:机器之心

冷月清谈:

红杉中国团队推出了AI基准测试工具Xbench,旨在评估AI Agent在真实场景下的效用价值。该工具采用双轨评估体系,AGI Tracking评估Agent的技术能力上限,Profession Aligned量化其在招聘和营销等领域的实际效能。Xbench还提出长青评估机制,通过动态更新测试内容,确保评估结果的时效性。首期测试结果显示,不同模型在特定领域的表现差异显著,模型尺寸并非决定性因素。Xbench的出现,标志着AI基准测试开始从单纯追求难度,转向关注AI的实际业务能力和经济价值。

怜星夜思:

1、Xbench 提出的双轨评估体系,相较于传统的 AI 评测方法,有哪些优势和局限性?
2、文章中提到长青评估机制旨在解决静态评估集容易失效的问题,那么,除了定期更新测试内容,还有哪些方法可以提高评估的长期有效性?
3、Xbench 在招聘和营销领域的测试结果显示,不同模型的表现差异显著,这说明了什么?对于企业选择合适的 Agent 产品,有哪些启示?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

红杉中国团队近日提出了 AI 基准测试工具 Xbench,其双轨测评体系强调了不再单纯执着于测评问题的难度,而是重点量化 AI 系统在真实场景的效用价值。

目录

01. 基准测试要开始关注 AI 的「业务能力」了?

Xbench 是什么来历?为什么评估 Agent 产品需要双轨评估体系?基准测试不能只设计更难的问题?...

02. 什么是长青评估机制?
LLM 与 Agent 产品的测评集有何区别?IRT 如何支撑评估系统的动态更新?...
03. 当前的领先模型在「招聘」和「营销」中的表现如何?
「招聘」和「营销」任务对 Agent 产品有什么要求?Xbench 如何评估 Agent业务能力?国内外领先模型在「招聘」和「营销」测试中表现如何?...

01  基准测试要开始关注 AI 的「业务能力」了?

红杉中国的研究者近期在论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》中介绍了 XBench 基准测试,并在同期的博文中介绍了该项目的由来和更新过程。

1、Xbench 项目最早在 2022 年启动,起初作为红杉中国内部使用的工具,用于跟踪和评估基础模型的能力,其题库经历过三次更新和演变,后在 2025 年 5 月下旬正式对外公开。

① Xbench 缘起于 2022 年底 ChatGPT 发布,红杉中国开始对主流模型进行月度评测和内部汇报,后于 2023 年开始建设 Xbench 的第一批私有题库,当时主要针对 LLM 和智能体简单问答和逻辑思考能力进行评测。

② 伴随模型能力演进,Xbench 后在 2024 年 10 月进行第二次大规模更新,题目开始上升,关注 LLM 的复杂问答及推理能力,以及简单工具调用能力。

③ Xbench 的第三次升级发生于 2025 年 3 月,红杉团队在该时段开始思考现今模型能力和 AI 实际效用之间的关系,质疑测评题目难度不断升高的意义,及其对 AI 落地的实际经济价值的关联,并发现每次换题后无法追踪 AI 能力的前后可比性。

2、在 5 月公布的论文中,研究者强调了 Xbench 在评估模型技术能力上限的基础上,同样对 LLM-based Agent 在现实工作任务、关键商业指标以及经济产出的实际效能的关注。

① 在博客中,研究者表示 xbench 针对各种商业领域设计评估任务,评估任务由对应领域的专家结合实际业务需求设定,再由大学教授将评估任务转化为评估指标,通过该流程使基准与生产力价值之间建立强相关性。

② 研究者另外强调了 xbench 将工作任务的难度与各个企业的现实需求对齐,而并非单纯追求高难度。

3、出于同时对模型能力和实际「生产力」的关注,Xbench 团队构建了双轨评估体系,并设计了基于基于项目反应理论的长青评估机制,以此测试 AI 技术能力上限,同时量化真实场景效用价值。

① 双轨评估体系将评测任务划分为两条互补的主线。其中,AGI Tracking 用于评估 Agent 的能力上限与技术边界;Profession Aligned 用于量化 AI 系统在真实场景的效用价值。

② 长青评估机制通过持续维护并动态更新测试内容,以确保双轨评估结果具备时效性和相关性。

4、Xbench 首期的 AGI Tracking 线包含科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),Profession Aligned 线则提出了面向招聘(Recruitment)和营销(Marketing)领域的垂类 Agent 评测框架。

① 在首期测试中,不同模型在招聘和营销领域的表现存在显著差异,表现最好的模型是 OpenAI 的 o3 在所有测试中排名第一,GPT-4o 由于倾向于提供较短的回答,在评估中得分最低。

② 评估还发现模型的尺寸并非影响其任务表现的决定性因素,谷歌 DeepMind 的 Gemini-2.5-Pro 和 Gemini-2.5-Flash 在测试中的表现相当。

③ 此外,研究者还发现尽管 DeepSeek R1 在数学和代码基准测试中表现出色,但由于其在搜索中心任务上的适应性不足,导致其在此次评估中的表现较低。


02  什么是长青评估机制?

1、长青评估机制是 Xbench 工作提出的「动态更新的评估系统」(Continuously Updated Evaluations),用于规避静态评估集容易出现题目泄露导致过拟合,从而迅速失效的问题。[2-1] 

① 研究者指出,Agent 应用的产品版本需要考虑其生命周期。当下的 Agent 产品迭代速率很快,且 Agent 接触的外部环境也在动态变化,同样的题目在不同时间的测试效果均有不同。

② Xbench 团队计划定期测评市场主流 Agent 产品,试图在人力资源、市场营销、金融、法律、销售等领域构建匹配的动态评估机制 ...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

从统计学角度分析,Xbench的测试结果差异显著,意味着不同模型在招聘和营销领域的表现存在显著性差异。 这表明模型的架构、训练数据和优化算法等因素会对模型的性能产生重要影响。 对于企业而言,选择合适的Agent产品需要进行充分的实验和评估,并根据自身的业务需求选择最适合的模型。 此外,企业还需要关注模型的稳定性和可靠性,以及模型的可解释性和可维护性。

从技术角度来看,提升评估的长期有效性可以从以下几个方面入手:
1. 自适应评估:构建一个能够根据模型的表现动态调整测试难度的评估系统。例如,如果模型在某个难度级别的题目上表现良好,系统可以自动提升难度级别。
2. 生成式评估:利用生成式模型自动生成新的测试用例,以避免人工设计测试用例的局限性。
3. 集成多模态数据:将文本、图像、音频等多种模态的数据融合到评估中,以更全面地考察模型的能力。
4. 引入人类反馈:让人类专家对模型的输出进行评价,并将这些反馈融入到评估体系中。

Xbench的双轨评估体系确实耳目一新啊!优势在于它既关注了AI的技术上限(AGI Tracking),又兼顾了AI在实际业务中的应用价值(Profession Aligned)。 传统评测往往只关注解题的难度,容易出现“高分低能”的情况,忽略了AI在真实场景中的表现。 Xbench试图弥补这一点,让评测更贴近实际需求。 但局限性也很明显,例如Profession Aligned的评估标准可能因行业而异,如何保证评估的通用性和客观性是个挑战。 而且,这种评估方式需要大量行业专家参与,成本较高,难以大规模推广。

从学术角度分析,Xbench的双轨评估体系是一种创新性的尝试。 传统的AI评测往往侧重于通用智能的评估,例如在各种benchmark数据集上的表现。 然而,随着AI技术的快速发展,特别是大模型和Agent的出现,人们越来越关注AI在特定领域的应用能力。 Xbench的优势在于其能够更全面地评估AI的性能,既关注其解决问题的能力,又关注其在实际业务中的效用。 然而,Xbench也存在一些局限性。 首先,Profession Aligned的评估结果可能会受到领域知识和数据质量的影响。 其次,长青评估机制的实施需要持续的投入和维护,成本较高。

长青评估机制,听起来就像给AI做一个“持续升级”的挑战赛。 除了更新题库,我觉得还可以:
1. 引入“变异测试”,就像生物进化一样,给模型制造一些“突变”,看看它能不能适应。
2. 搞一个“众包评估”,让用户来评价模型的表现,集思广益。
3. 建立一个“知识图谱”,记录模型的学习过程,看看它是不是真的理解了知识,而不是死记硬背。

Xbench测试结果差异显著,说明Agent产品在不同领域的专业能力差异很大。 这给企业的启示是,选择Agent产品不能只看通用能力,要结合自身业务需求,选择在特定领域表现更优的。 就像买鞋一样,要选合脚的,而不是最贵的。 另外,企业在引入Agent产品前,最好进行小范围测试,验证其在实际业务中的效果。 不要盲目跟风,以免浪费资源。

Xbench这种双轨评估,感觉就像给AI做了一次“全面体检”。以前的评测只看“理论成绩”,Xbench还要看“实践能力”。 优势在于更贴近实际应用,能更真实地反映AI的价值。 局限性嘛,就像体检一样,指标多了,标准也更复杂了,怎么保证公平公正是个问题。 还有,这种评估方式需要大量的数据和专家支持,成本不低啊!

这个结果说明AI Agent真的不是“万金油”,在不同领域有各自的“专长”。 企业选购时,不能只看“名气”,要看“实力”,最好能针对自己的业务场景做个“定制体检”。 就像找员工,不能只看学历,要看经验和能力。 另外,别忘了“持续跟踪”,AI Agent也在不断进化,要定期评估,看看它是不是还能胜任工作。

提高评估长期有效性,除了定期更新内容,我觉得还可以考虑引入对抗性测试。 就像黑客攻击系统一样,不断寻找模型的弱点,迫使其学习更鲁棒的策略。 另外,可以采用迁移学习的思想,将在一个领域训练的模型迁移到另一个相关领域进行评估,考察其泛化能力。 还可以建立一个共享的评估平台,让更多的研究者和开发者参与到评估过程中,共同维护和改进评估体系。