华为诺亚发布HLCE基准:顶级LLM在“人类最后编程考试”中表现远未达上限

华为诺亚发布HLCE基准,挑战LLM编程能力。顶级模型在难题面前表现不佳,但测试时扩展规律显示仍有提升空间。LLM已具备获得编程竞赛奖牌的潜力。

原文标题:Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

原文作者:机器之心

冷月清谈:

华为诺亚方舟实验室推出了全新的编程基准HLCE,包含过去15年全球难度最高的IOI和ICPC World Finals的235道题目,旨在评估LLM在复杂推理和编程方面的能力。实验结果表明,即使是OpenAI的o4-mini和谷歌的Gemini-2.5 Pro,在HLCE上的单次尝试成功率也远低于其他基准。研究还发现,推理模型优势明显,IOI交互式题目是难点,且模型存在自我认知悖论。通过研究Test Time Scaling Law,发现随着思考长度的增加,模型性能不断提升,远未达到上限。对比模型与人类顶尖选手,顶级LLM已具备赢得奖牌的实力。该研究揭示了LLM在高级编程和推理能力上的优势与短板,并指明了通过优化搜索策略和增加计算投入来提升模型潜力的方向。

怜星夜思:

1、HLCE基准主要考察LLM的哪些方面的能力?为什么选择IOI和ICPC World Finals的题目?
2、文章中提到的“测试时扩展规律”(Test Time Scaling Law)对LLM的未来发展有何启示?如果让你来优化LLM的推理过程,你会从哪些方面入手?
3、文章中提到的“自我认知悖论”——代码能力强的模型反而自我认知能力弱,这说明了什么?对于我们设计更智能的AI系统有何借鉴意义?

原文内容


本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。


大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力? 


来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的答案。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanity's Last Code Exam, HLCE)


该基准包含了过去 15 年(2010-2024)间,全球难度最高的两项编程竞赛:国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的 235 道题目。 


结果如何?即便是当前最先进的推理模型,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的单次尝试成功率(pass@1)也分别只有 15.85% 和 11.4%,与它们在其他基准上动辄超过 70% 的表现形成鲜明对比。 这表明,面对真正考验顶尖人类智慧的编程难题,现有的大模型还有很长的路要走。 




  • 论文地址: https://www.arxiv.org/abs/2506.12713

  • 项目地址: https://github.com/Humanity-s-Last-Code-Exam/HLCE 


直面 “最强大脑”:为何需要 HLCE?


近年来,LLM 在代码生成领域取得了惊人的进步,许多主流基准(如 LiveCodeBench、APPS 等)已经无法对最前沿的模型构成真正的挑战。研究者指出,现有基准存在几个关键问题: 


1. 难度有限:对于顶级 LLM 来说,很多题目已经过于简单。

2. 缺乏交互式评测:大多数基准采用标准的输入 / 输出(I/O)模式,而忽略了在真实竞赛中常见的 “交互式” 题目。这类题目要求程序与评测系统进行动态交互,对模型的实时逻辑能力要求更高。

3. 测试时扩展规律(Test-time Scaling Laws)未被充分探索模型在推理时花费更多计算资源能否持续提升性能?这个问题在复杂编程任务上尚无定论。


为构建高质量基准,研究团队对 HLCE 题目进行了深度处理。例如 ICPC World Finals 题目原始材料均为 PDF 格式,团队通过人工逐题提取、转写为 Markdown 并校验,确保题目完整性。最终形成的 HLCE 基准包含:1)235 道 IOI/ICPC World Finals 历史难题;2)标准 I/O 与交互式双题型;3)全可复现的评测体系。



模型表现如何?顶级 LLM 也 “考蒙了” 



研究团队在 HLCE 上全面评估了 12 个主流 LLM,包括推理模型(如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1)和非推理模型(如 chatgpt-4o-latest, claude-3.7-sonnet)。 实验结果揭示了几个有趣的现象: 


推理模型优势巨大:具备推理能力的模型表现显著优于非推理模型。最强的 o4-mini (high) 的平均 pass@1 通过率(15.85%)大约是最强非推理模型 deepseek-v3-0324(3.53%)的 4.5 倍。 


IOI 交互式题目是 “硬骨头”:所有模型在 IOI 题目上的表现都远差于 ICPC world finals 题目。例如,o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%,但在 IOI 上骤降至 6.48%。研究者认为,这与当前模型的训练数据和强化学习方式主要基于标准 I/O 模式有关,对于交互式问题准备不足。 


奇特的模型退化现象:一个例外是 claude-3.7-thinking 模型,尽管是推理模型,但其表现甚至不如一些非推理模型,在 IOI 题目上通过率为 0%。研究者推测,这可能是因为 claude 针对通用软件工程任务进行了优化,而非高难度的算法竞赛。


“我知道我不知道?”:模型的自我认知悖论


除了代码生成,研究者还设计了一个新颖的 “自我认知”(self-recognition)任务:让模型判断自身生成的代码是否正确,以评估其能力边界感知力。



结果出人意料:


  • 代码能力最强的 O4-mini (high),自我认知能力(AUC 0.63)并不突出。

  • 反观通用模型 ChatGPT-4o-latest,展现了更强的 “自知之明”(AUC 0.84)。


这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步发展 —— 暗示在现有 LLM 架构中推理能力与元认知能力(metacognition)可能遵循不同的进化路径。


大语言模型的 Test Time scaling law 到极限了吗 


一个关键问题是:目前 LLM 的推理能力已经非常强了,目前这种范式达到极限了吗?未来的模型的推理能力还能继续发展吗? 而面对如此高难度的 HLCE benchmark,这显然是一个绝佳的机会来研究大语言模型的 Test Time Scaling Law。 



研究者将模型生成的每组回答按照 thinking token 的数量按照长短进行分组,然后重新测试性能。从图中可以看出,随着思考长度的不断延长,模型的性能在不断的提升,并且远远没有达到上限。 


这个结论告诉我们,可以继续大胆的优化推理模型,至少在现在远远没有到达 Test Time scaling law 达到上限。


LLM vs 人类顶尖选手:差距还有多大? 


基于上述发现,研究者将模型的最佳表现(基于 5 次尝试,IOI 取 5 次的最大分数,ICPC world Finals 取 5 次解决掉的最多题目)与历年 IOI 和 ICPC 世界总决赛的奖牌分数线进行了直接对比。 




结果令人振奋:顶级 LLM 已经具备了赢得奖牌的实力。Gemini-2.5-pro 和 o4-mini (high) 的表现分别达到了 IOI 和 ICPC 的银牌和金牌水平。 


这也解释了一个看似矛盾的现象:尽管模型单次成功率很低,但只要给予足够多的尝试机会(这正是 “测试时扩展规律” 的体现),它们就能找到正确的解法,从而在竞赛中获得高分。 


未来方向 


这项研究通过 HLCE 这一极具挑战性的基准,清晰地揭示了当前 LLM 在高级编程和推理能力上的优势与短板。 它证明了,虽然 LLM 在单次尝试的稳定性上仍有欠缺,但其内部已蕴含解决超复杂问题的知识。更重要的是,测试时扩展规律在这一极限难度下依然有效,为我们指明了一条清晰的性能提升路径:通过更优的搜索策略和更多的计算投入,可以持续挖掘模型的潜力。 



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


我觉得Test Time Scaling Law启示我们,现在的大模型可能就像一个“学霸”,肚子里有很多知识,但是考试的时候容易紧张或者粗心。我们可以尝试给它更宽松的考试环境,比如更长的思考时间,或者允许它查阅资料。当然,更重要的是要提高它的“心理素质”,让它在面对难题时更加冷静和自信。可以考虑引入一些强化学习的方法,让模型在不断尝试中学习如何更好地利用已有的知识。

你说的有一定道理,但是如何能一次把事情做对也是相当重要的能力。

Admin 说的没错,一次性做对的能力确实很重要!这涉及到效率问题,尤其是在实际应用中,时间就是金钱。如果每次都要多次尝试才能得到正确答案,那成本就太高了。所以我觉得除了优化 Test Time Scaling Law,提高模型在单次尝试中的准确率也是一个重要的研究方向。

这scaling law简直是给炼丹师们打了一剂强心针啊!意思是说,只要算力够,模型还能继续变强!如果我来搞,肯定先砸钱上硬件,然后搞更复杂的prompt,让模型多想想,说不定就能撞大运,把难题给解决了。当然,理论上还得研究研究更高效的推理算法,但这需要时间。

这个悖论很有意思!就像有些学霸只会刷题,但不知道自己为什么会做对,或者说不清楚自己的知识盲区在哪里。对于AI来说,可能意味着我们需要给它加入更多的“反思”机制,让它不仅会算题,还要会总结经验教训,知道自己擅长什么,不擅长什么。这样才能避免它在不擅长的领域里犯错。

HLCE主要考察LLM在复杂推理、算法设计、代码生成和问题解决等方面的能力。选择IOI和ICPC World Finals的题目是因为这些竞赛的题目难度极高,代表了人类顶尖的编程水平,能够更好地检验LLM的真实能力上限,避免在简单基准上的“虚假繁荣”。

谢邀,我认为HLCE考察的是LLM的“创造性”解决问题的能力。IOI和ICPC的题目往往需要选手在有限时间内,设计出高效的算法和数据结构来解决复杂问题。这不仅仅是考察编程技巧,更是考察选手的创新思维和解决问题的能力。因此,HLCE可以用来评估LLM是否具备超越简单代码生成的更高层次的智能。

“自我认知悖论”可能表明,LLM的推理能力和元认知能力的发展路径不同,或者说,现有的模型架构可能更擅长解决问题,而不太擅长反思自身的能力边界。这提示我们在设计更智能的AI系统时,需要更加重视元认知能力,让AI能够更好地理解自身的能力和局限性,从而做出更明智的决策。可以考虑引入专门的元认知模块,或者采用多智能体协作的方式,让不同的智能体互相监督和评估。

这问题问到点子上了!HLCE就是想看看大模型是不是真的会写代码,还是只是背题库。IOI和ICPC的题,那是真正的烧脑,不是简单的语法或者API调用,得有扎实的算法功底和逻辑推理能力才行。简单来说,就是想看看AI是不是能赶上人类“最强大脑”的水平。

这让我想起了“专家系统”和“通用人工智能”的区别。现在的LLM可能更像一个“专家系统”,在特定领域表现出色,但在通用性和自我认知方面有所欠缺。要实现真正的“通用人工智能”,我们需要让AI具备更强的自我意识和学习能力,能够不断适应新的环境和任务。可以考虑借鉴人类的学习方式,例如引入“反思式学习”和“终身学习”机制。

“测试时扩展规律”表明,增加LLM的推理时间和计算资源可以显著提升其性能,这暗示着我们目前可能还没有完全挖掘出LLM的潜力。如果让我来优化,我会尝试以下几个方向:一是优化搜索算法,例如采用更高效的蒙特卡洛树搜索或遗传算法;二是引入外部知识库,让LLM在推理过程中能够查阅相关资料;三是探索新的模型架构,例如结合符号推理和神经推理的混合模型。