OpenAI发布AI复现新基准PaperBench,Claude 3.5 Sonnet暂居榜首

OpenAI发布PaperBench基准,评估AI自主复现AI研究的能力。Claude 3.5 Sonnet在测试中表现突出,为AI科研应用和安全发展提供新参考。

原文标题:OpenAI的AI复现论文新基准,Claude拿了第一名

原文作者:机器之心

冷月清谈:

OpenAI推出了PaperBench基准测试,旨在评估AI智能体自主复现前沿AI研究的能力。该基准测试选取ICML 2024的20篇论文,要求AI智能体在理解论文、开发代码库、执行实验和调试后,复现论文中的实验结果。测试结果表明,Claude 3.5 Sonnet在PaperBench上取得了21.0%的得分,领先于其他模型。研究团队还开发了基于LLM的自动评判系统JudgeEval,以提高评估效率。PaperBench的推出,旨在推动AI在科研领域的应用,并为AI安全发展提供评估标准。

怜星夜思:

1、PaperBench评估AI复现论文的能力,但如果模型只是记住了论文结论并加以应用,这算不算真正的复现?
2、PaperBench使用LLM进行自动评判,虽然提高了效率,但会不会因为LLM本身的局限性而导致评估结果不准确?
3、PaperBench目前主要关注的是AI复现机器学习论文的能力,未来是否可以扩展到其他学科领域,比如生物学、化学等?

原文内容

机器之心报道

编辑:+0、泽南

大模型能写出 ICML Spotlight 论文吗?

近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。


今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!



这一里程碑事件标志着 AI 在科研领域的突破,同时人们也在进一步探索 AI 智能体的自主研究能力。


4 月 3 日,OpenAI 推出了 PaperBench(论文基准测试),这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / 机器学习研究论文的能力,既可能加速机器学习领域的发展,同时也需要审慎评估以确保 AI 能力的安全发展。


PaperBench 在多个重要的 AI 安全框架中发挥评估作用:


  • 作为 OpenAI 准备框架(OpenAI Preparedness Framework)中评估模型自主性的标准

  • 用于 Anthropic 负责任扩展政策(Responsible Scaling Policy)中的自主能力评估

  • 应用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的机器学习研发评估



  • 论文标题:PaperBench: Evaluating AI’s Ability to Replicate AI Research

  • 论文链接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

  • 代码地址:https://github.com/openai/preparedness/tree/main/project/paperbench


研究团队构建了一个测试环境,用于评估具有自主编程能力的 AI 智能体。在该基准测试中,研究团队要求智能体复现机器学习研究论文中的实验结果。完整的复现流程包括论文理解、代码库开发以及实验执行与调试。这类复现任务具有较高难度,即便对人类专家而言也需要数天时间完成。


测试基准选取了机器学习顶会 ICML 2024 的 20 篇入选论文,还都是 Spotlight 和 Oral 的。这些论文覆盖了 12 个不同的研究主题,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇论文都配备了详细的评分标准,共计 8316 个可独立评估的复现成果。为确保评估质量,PaperBench 中的评分标准均与原论文作者协作制定,并采用层级结构设计,使复现进度可以在更细粒度上进行衡量。


鉴于机器学习论文的复杂性,人类专家评估单次复现尝试往往需要数十小时。为提高评估效率,研究团队开发了基于 LLM 的自动评判系统,并设计了 JudgeEval 辅助评估框架,用于将自动评判结果与人类专家评判的金标数据集进行对比。其中,使用定制框架的 o3-mini-high 评判器表现最佳,在辅助评估中获得 0.83 的 F1 分数,证明其可作为人类评判的可靠替代方案。



研究表明,智能体在复现机器学习研究论文方面展现出了不容忽视的能力。Claude 3.5 Sonnet (最新版)在配备基础代理框架的情况下,于 PaperBench 基准测试中获得了 21.0% 的得分。


研究团队选取了 3 篇论文组成的测试子集进行深入评估,以机器学习博士的表现作为人类基准(采用 3 次测试中的最优成绩)。在 48 小时的测试时间内,人类基准达到了 41.4% 的得分,而 GPT-4(o1)在相同子集上获得了 26.6% 的得分。此外,研究团队还开发了一个轻量级评估版本 ——PaperBench Code-Dev,在该版本中,GPT-4 的表现提升至 43.4% 的得分。


PaperBench


任务


对于 PaperBench 中的每个样本,受评估的智能体会收到论文及其补充说明。


在这里,智能体需要提交一个代码仓库,其中包含复现论文实验结果所需的全部代码。该仓库根目录必须包含一个 reproduce.sh 文件,作为执行所有必要代码以复现论文结果的入口点。


如果 reproduce.sh 能够复现论文中报告的实验结果,则视为成功复现该论文。 


该数据集包含了用于定义每篇论文成功复现所需具体结果的评分标准。为防止过度拟合,智能体在尝试过程中不会看到评分标准,而是需要从论文中推断出需要复现的内容。 


重要的是,该评估禁止智能体使用或查看论文作者的原始代码库(如果有的话)。这确保了评估的是智能体从零开始编码和执行复杂实验的能力,而不是使用现有研究代码的能力。



规则


PaperBench 的设计对智能体框架保持中立,因此对其运行环境没有特定要求。不过为确保公平比较,该基准测试制定了以下规则:


  • 智能体可以浏览互联网,但不得使用团队为每篇论文提供的黑名单中列出的网站资源。每篇论文的黑名单包括作者自己的代码仓库以及任何其他在线复现实现。

  • 智能体可使用的资源,如运行时间和计算资源,不受任何限制。但建议研究人员在结果中报告其具体设置。

  • 开发者应为智能体提供必要的在线服务 API 密钥(例如用于下载数据集的 HuggingFace 凭证)。获取在线账号访问权限不属于 PaperBench 意在评估的技能范畴。


评分标准


为每篇论文制定评分标准是开发 PaperBench 最耗时的部分。每份评分标准都是 OpenAI 与每篇论文的一位原作者合作编写的,从阅读论文、初步创建、评分标准审查、迭代到最终签收,每篇论文需要数周时间。


每个评分标准都以树的形式构建,该树按层次分解了复现给定论文所需的主要结果。例如,根节点以预期的最高级别结果开始,例如「论文的核心贡献已被复现」。第一级分解可能会为每个核心贡献引入一个节点。每个节点的子节点都会更详细地介绍具体结果,例如「已使用 B.1 节中的超参数在数据集上对 gpt2-xl 进行了微调」。


重要的是,满足节点的所有子节点表示父节点也已得到满足,因此对树的所有叶节点进行评分就足以全面评估整体成功率。


叶节点具有精确而细致的要求。拥有许多细致的要求使我们能够对部分尝试进行评分,并使评委更容易对单个节点进行评分。作者不断分解节点,直到它们所代表的要求足够精细,以至于估计专家可以在不到 15 分钟的时间内审查一份提交是否满足要求(假设熟悉该论文)。在 PaperBench 的 20 篇论文中共有 8316 个叶节点。表 2 显示了每个评分标准中的节点总数。



所有评分标准节点也都有权重,每个节点的权重表示该贡献相对于其兄弟节点的重要性,而不一定是节点的实施难度。加权节点奖励在复现时优先考虑论文中更重要的部分。


用大模型判断


在初步实验中,OpenAI 发现使用专家进行手动评分每篇论文需要花费数十小时,因此对于 PaperBench 的实际应用而言,采用自动化方式进行评估是必要的。


为了对 PaperBench 提交的内容进行规模评估,作者开发了一个简单的基于 LLM 的评判器 SimpleJudge,然后创建了辅助评估 JudgeEval 以评估评判器的表现。


AI 的评委实现被称为「SimpleJudge」,给定一份提交内容,PaperBench 的 AI 评委将独立地对评分标准中的每个叶节点进行评分。对于特定的叶节点,评委将收到论文的 Markdown、完整的评分标准 JSON、叶节点的要求和提交内容。


PaperBench 使用 OpenAI 的 o3-mini 作为评委的后端模型,预估对单个提交内容进行评分的成本约为 66 美元(OpenAI API 积分)。对于 PaperBench Code-Dev,成本可以降至每篇论文约 10 美元。



测试结果


OpenAI 基于全部 20 篇论文评估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 几种大模型,每篇论文评估了 3 次。


表 4 列出了每个模型的平均复现分数。可见 Claude 3.5 Sonnet 的表现不错,得分为 21.0%。OpenAI o1 表现较差,得分为 13.2%,其他模型则表现不佳,得分低于 10%。



检查智能体工作日志可以发现,除 Claude 3.5 Sonnet 外,其他所有模型经常会提前结束,声称自己要么已经完成了整个仿写,要么遇到了无法解决的问题。所有智能体都未能制定在有限时间内复现论文的最优策略。可以观察到 o3-mini 经常在工具使用方面遇到困难。


这些情况表明当前模型在执行长期任务方面存在弱点;尽管大模型在制定和编写多步骤计划方面表现出足够的能力,但实际上未能采取一系列行动来执行该计划。





OpenAI 相信,PaperBench 基准将会推动未来大模型能力继续上升。


参考内容:

https://openai.com/index/paperbench/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

从学术角度来说,复现的核心在于重现实验过程,验证结论的可靠性。如果只是记住结论,那充其量算是一个知识检索,不能等同于科学研究的复现。但从工程角度,能用就行,谁管你咋来的。

我觉得这得分情况讨论。如果模型只是简单地背诵结论,那肯定不算真正的复现,因为没有理解研究过程。但如果模型能够基于记忆的结论,进一步进行推理和拓展,那就可以认为是一种更高层次的复现,甚至是一种创新。

个人认为,LLM 评判可以作为一个初筛工具,快速排除一些明显不合格的提交。对于那些难以判断的提交,还是需要人工专家进行最终审核,这样才能保证评估的公平性和准确性。

我倒觉得可以把LLM的评判结果也作为一种有趣的参考。想象一下,AI评判AI,这本身就是一件很有意思的事情,说不定还能发现一些人类评判者注意不到的盲点。

这让我想起一个段子:考试的时候,学霸是把题做对了,学渣是把答案背下来了。PaperBench要评估的,应该是AI成为学霸的能力,而不是让AI变成一个只会背答案的“人工智障”。

LLM 评判确实存在风险。LLM 可能会受到训练数据的影响,产生偏见;也可能在理解复杂逻辑和细微差别方面存在不足。因此,自动评判的结果需要与人工评估进行对比验证,确保评估质量。

Definitely! 将 PaperBench 扩展到其他学科是很有潜力的。不同学科的研究方法和实验流程各不相同,这将对 AI 的自主研究能力提出更高的要求。如果 AI 能够在多个学科领域都表现出色,那才能真正证明 AI 具有通用智能。

如果AI能帮我把高数作业写了,我就支持扩展到所有学科!

扩展到其他学科面临的挑战也不小。不同学科的知识体系和实验规范差异很大,需要针对不同学科构建专门的评估基准和评判标准。此外,还需要大量的领域专家参与,确保评估的科学性和准确性。