LLM评测体系反思:Benchmark的局限与未来

LLM评测体系面临区分度下降和数据污染等问题,业界需关注Benchmark的有效性和可信度,以更好引导AI发展。

原文标题:AI 下半场,LLM Benchmark 要补全什么?

原文作者:机器之心

冷月清谈:

随着LLM技术的快速发展,现有的LLM Benchmark体系面临着诸多挑战。LMArena等评测平台在商业化进程中,其评估机制的科学性和公信力受到质疑,例如评估标准的主观性、易被操纵以及对资源雄厚者的偏好等。此外,Benchmark的测试任务与真实使用场景脱节、测试过程缺乏统一规范、易受人为操作影响以及公开题库区分度下降等问题日益突出。因此,业界需要探索更科学的评估范式,关注Benchmark的可区分性、长期有效性和可信度,从而引导LLM朝着更贴近实际应用的方向发展。

怜星夜思:

1、LMArena这类依赖用户投票的评测方式,真的能准确反映LLM的真实水平吗?除了主观偏好,还有哪些因素会影响投票结果?
2、文章提到Benchmark容易出现'刷分'现象,导致模型优化目标与真实使用场景脱节。那么,如何设计更贴近实际应用、更能反映LLM综合能力的Benchmark?
3、文章中提到了Benchmark的数据污染问题,这是否意味着我们要定期更新或者更换Benchmark?有没有什么方法可以尽量延长Benchmark的有效性?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


当前,LLM 评测的通用榜单和常用基准陆续暴露出区分度下降、评审口径波动与数据污染等问题,促使业界愈发重视 LLM 评测体系有效性的。在此背景下,业界对 LLM Benchmark 本身的可靠性与寿命管理关注度提升,围绕评测可区分性、长期有效性与可信度等关键问题,一批相关研究工作正进一步展开。


目录

01. LLM Benchmark「又」 不够用了?

LMArena 排名是进步指标还是情绪投票?AI 下半场需要什么样的评估指标?...

02. LLM Benchmark 的研究重心有何转变?

为什么大量 LLM Benchmark 会在短时间内快速饱和?隐藏测试集无法有效延长 Benchmark 的寿命?...

03. 近期的 LLM Benchmark 研究在补什么?

LLM 可以学会预训练之外的新规则吗?长程任务完成依旧是当前 LLM 评测的难点?...


LLM Benchmark「又」 不够用了?

1、2026 年 1 月,大模型评测平台 Arena (曾用名 Chatbot Arena、LM Arena)宣布完成 1.5 亿美元融资、投后估值约 17 亿美元,引起了 AI 社区的诸多讨论。[1-1]

① 融资资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级 AI 评估服务。投资者、Felicis 合伙人 Peter Deng 在采访中指出,一旦成为事实上的基准层,产品化将是顺理成章的演进。

② Arena 最初是 UC Berkeley 等团队为测试开源模型水平而创建的实验性项目,其核心特征在于通过真实用户参与的匿名模型对(Model Pairs)比较机制,对模型输出进行偏好评估,后来逐步发展为全球最具影响力的 AI 模型评测平台之一。

2、针对该轮融资,AI 社区中有观点认为 Arena 已成为「比较模型体验的公共层」,融资只是将这层公共能力进一步产品化和工程化。但也有声音担心融资过后该平台会被「更讨喜的表达风格」影响,从而削弱其作为行业基准的公信力。[1-2][1-3]

3、商业化进程之外,业界近期对 Arena 的讨论还涉及到平台机制在评估偏好、可操纵性和公平性等方面的问题,且质疑这种基于人类偏好的成对评估机制并不足以用来评估当前 LLM 真正的能力。[1-4]

① 今年 2 月,软件开发公司 JetBrains 的数据科学家 Jodie Burchell 发表了一篇博文,指出虽然 Arena 虽然比传统的刷分基准测试更有趣,但由于其评估标准过于主观、容易被操纵且偏向资源雄厚的巨头,它正逐渐失去作为科学评估工具的公信力。[1-5]

② 研究者认为这种基于 Vibes-based 的评估缺乏科学严谨性,主要存在用户行为的不可控性、对开源/学术模型的不公平、 「好」的定义模糊不清等问题。[1-5]

4、包含 Arena 在内,在当前 LLM 能力快速迭代的趋势下,业界一直在探索更好的评估体系,Benchmark 作为衡量 LLM 性能的定量评估工具,同样扮演了引导 LLM 发展方向、促进技术创新的核心要素,乃至被认为是 AI 下半场的重要研究方向。[1-10]

① 现任腾讯「CEO / 总裁办公室」首席 AI 科学家的姚顺雨在去年 4 月发表的《The Second Half》中提出,当一个通用训练配方能够在多个任务上持续「爬坡」,做更难的题,然后刷新分数,最后证明进步的循环会越来越快地饱和,于是竞争的核心将从「解决问题」转向「定义问题」,而评估会变得比训练更重要。[1-6]

5、在此背景下,业界始终在尝试建立更科学的评估范式。然而在密集的探索和实践过程中,不少研究者发现现有 Benchmark 体系不仅存在评测任务和真实使用场景脱节、测试过程缺乏统一规范且易受人为操作影响等问题,公开题库在高分段的区分度也在持续下降。

① 2025 年 3 月,社区内有用户认为模型密集发布期间 Benchmark 往往只覆盖「易评分」的题型,而真实的 AI 使用场景更接近「协作与多轮迭代」,导致模型优化目标向「刷分」偏移,榜单表现与用户真实体验严重脱节。[1-7]

② 同年 9 月,社区内部分用户认为 LLM Benchmark 测试存在 cherry-pick、训练污染、方法口径不统一、参数调到最好看、复现代码不公开、API 质量波动等问题,最终可能导致下游使用者的判断有误。[1-8]

③ 到去年年末,美团 LongCat 团队指出,在 AIME 等高难度数学评测上,顶尖模型的得分已进入极高区间,公开题库的污染风险令测试的区分度进一步下降。[1-9]


LLM Benchmark 的研究重心有何转变?

1、随着 LLM 能力深度和广度的快速扩展,相应 Benchmark 的数量在不断增加,评估范式也从单任务走向多任务、多领域,并逐步覆盖更复杂、更应用导向的评估场景。[1-10] ...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

要避免’刷分’现象,我觉得关键在于Benchmark的设计要更注重考察LLM在复杂、真实场景下的应用能力。不能只看单项指标,要综合评估。

可以考虑引入更复杂的任务,比如模拟真实的工作流程,让LLM参与多轮对话、信息检索、文档撰写等,考察其在协作、推理、规划等方面的能力。另外,可以增加一些开放性的问题,考察LLM的创造性和解决问题的能力。

此外,还可以引入一些评估指标,比如用户满意度、任务完成效率等,从用户的角度来衡量LLM的价值。

LMArena的模式确实存在一些争议。从统计学角度来看,用户投票可以反映一定程度的群体偏好,但这种偏好并不等同于模型能力的客观评价。社会心理学研究表明,从众效应、首因效应等都会影响投票行为,使得结果存在偏差。

要更准确地评估LLM,需要更严谨的实验设计。比如控制变量、增加客观指标、采用更专业的评估人员等等。当然,这也会增加评估的成本和复杂度。

数据污染确实是Benchmark长期有效性的一个重大威胁。如果模型在训练过程中接触到了Benchmark的数据,那么测试结果就失去了参考价值。

定期更新Benchmark是一种解决方法,但成本较高。更有效的方法可能是采用一些技术手段来减少数据污染的风险。比如,对Benchmark数据进行脱敏处理、采用隐藏测试集、或者使用一些特殊的模型训练方法来防止模型过度拟合Benchmark数据。

此外,还可以引入一些外部知识,来验证模型是否真正理解了问题,而不是仅仅记住了答案。

从信息系统工程的角度来看,设计贴近实际应用的Benchmark需要进行详细的需求分析。首先要明确LLM的应用场景和目标用户,然后针对这些场景和用户设计相应的测试用例。

测试用例的设计要遵循SMART原则,即Specific(具体的)、Measurable(可测量的)、Achievable(可实现的)、Relevant(相关的)和Time-bound(有时间限制的)。同时,要考虑到各种边界情况和异常情况,确保测试的覆盖率。

此外,可以引入一些专家评估,对LLM的性能进行主观评价,弥补客观指标的不足。

这个问题很有意思!我觉得LMArena这类平台,用户投票肯定有参考价值,但要说完全准确,那肯定是不可能的。你想啊,每个人的喜好不一样,对模型的要求也不一样。有些人可能觉得回答有趣最重要,有些人可能更看重准确性和专业性。而且,像表达风格、速度这些都会影响用户的判断。

除了主观偏好,还有很多因素会影响投票结果。比如,问题的难易程度,模型回答的先后顺序,甚至用户的文化背景都可能产生影响。所以,投票结果只能作为一个参考,不能完全依赖它来判断模型的优劣。

我觉得这个问题问得很好!但是,臣妾做不到啊!真实世界太复杂了,设计Benchmark太难了!不如躺平,让模型自己卷去吧!反正最后受益的是我们用户。

从信息安全角度来看,Benchmark的数据安全至关重要。应该建立完善的数据管理机制,防止数据泄露和篡改。

可以采用一些加密技术来保护Benchmark数据,同时对访问权限进行严格控制。此外,可以定期进行安全审计,发现并修复潜在的安全漏洞。

对于已经泄露的数据,应该及时进行清理和替换,以保证Benchmark的公正性。

谢邀,人在美国,刚下飞机。我觉得LMArena这种模式挺好的,让大家都能参与进来,选出自己喜欢的模型。至于准不准确的,who cares?重要的是开心嘛!反正都是AI,能帮我写作业、聊天就行了。要是太严肃了,那还不如用搜索引擎呢!

我觉得数据污染这个问题有点杞人忧天了。反正AI都是抄来抄去的,谁知道哪个模型用了哪个数据?与其花精力防止数据污染,不如多搞点prompt engineering,让AI更好地为我服务!