MLE-bench:OpenAI评估机器学习工程能力基准

OpenAI发布MLE-bench基准测试,评估AI在机器学习工程中的能力。该基准包含75个任务,涉及训练模型、准备数据等。OpenAI认为解决MLE-bench大部分任务的AI可能带来奇点,加速科学进步、经济增长。

原文标题:OpenAI发布MLE-Bench:是AGI奇点的先兆还是炒作?

原文作者:机器之心

冷月清谈:

**MLE-bench:评估机器学习工程能力的基准**

OpenAI提出的MLE-bench基准测试包含75个机器学习工程任务,涵盖训练模型、准备数据集、运行实验等,旨在评估AI智能体在机器学习工程中的表现。MLE-bench将AI智能体提交的结果与私有排行榜进行比较,授予奖牌,并考虑了挑战性、代表性和可比性。

**MLE-bench与奇点的关联**

OpenAI认为,如果AI智能体能够解决MLE-bench中的大部分任务,表明它们具备执行许多开放式机器学习任务的能力。这可能会加速科学进步、经济增长,并可能标志着经济转型的一步。此观点引发了关于AGI(通用人工智能)和ASI(超级人工智能)概念的讨论。

怜星夜思:

1、MLE-bench基准测试的挑战性如何体现?
2、OpenAI为何认为解决MLE-bench可能带来奇点?
3、MLE-bench的局限性有哪些?

原文内容

机器之心PRO · 会员通讯 Week 42

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. OpenAI发布MLE-Bench:是AGI奇点的先兆还是炒作?

OpenAI 提出的 MLE-bench 是什么?MLE-bench 暗示了什么?为什么 OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点?AGI 和 ASI 的定义又变了?用 AI 改进 AI 真的已经实现了吗?从 AGI 到 ASI 转变的关键是什么?...

2. Ilya Sutskever:对 ChatGPT 的深层理解与对 AI 未来的思考

为何 Ilya Sutskever 的访谈再度引起关注?Ilya 在访谈中讲了哪些核心观点?为什么说 ChatGPT 不仅仅是一个 LLM?为什么 Ilya 认为确保输出内容的可靠性才是 AI 未来发展的关键?...

...本期完整版通讯含 2 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 9 项,国外方面 8 项。

本期通讯总计 26516 字,可免费试读至 8% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  OpenAI发布MLE-Bench:是AGI奇点的先兆还是炒作?

日期:10 月 11 日

事件:近日,在社交媒体平台 Reddit 的「Singularity(奇点)」板块,一个名为「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子引发大量关注。「Singularity」板块聚集了诸多对 AI 技术奇点等话题关心的网友,在该帖子下,网友们对于「AI 智能体能够解决 MLE-bench 所有问题就可能会带来奇点」的说法展开了探讨。

OpenAI 提出这个的 MLE-bench 基准测试是什么?[1]
近日,OpenAI 发表论文《MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering》,提出了一个用于评估 AI 智能体在机器学习工程中表现的基准测试「MLE-bench」。在论文的「Impact on AGI Preparedness」部分,OpenAI 提到,「能够解决 MLE-bench 中大部分任务的模型很可能具备执行许多开放式机器学习任务的能力」。
1、MLE-bench 由从 Kaggle 手动筛选了不同领域的 75 个机器学习工程任务组成,包括训练模型、准备数据集和运行实验等,涉及了机器学习领域工程师在前沿实验室中使用的核心日常技能。
2、在设计上,MLE-bench 考虑了两个要素:一是选择具有挑战性且代表现代 MLE 工程工作的任务;二是能够将评估结果与人类水平的表现进行比较。
3、MLE-bench 参考「Kaggle 根据参赛者相对于排行榜的表现向优胜的参赛者颁发铜牌、银牌和金牌」的方式,将实验中 AI 智能体提交的结果与私有排行榜进行比较,为 AI 智能体颁奖。实验结果显示,
① 基于专为 Kaggle 竞赛构建的 AIDE 开源框架,o1-preview 在 16.9%的竞赛中至少获得了 Kaggle 铜牌奖牌;
② 同时,研究发现当智能体被允许有更多的尝试次数时,获得奖牌的百分比显著增加。例如,o1-preview 当从 1 次尝试增加到 8 次尝试时,得分从 16.9%翻倍到 34.1%;
② 每项竞赛的时间上限为 24 小时,时间限制增加后,当智能体有更多的时间迭代解决方案,获得奖牌的百分比有所提高;
③ 研究者比较了 GPT-4o(AIDE)在三种不同硬件设置下的性能,结果显示,GPT-4o(AIDE)在所有实验中表现相似。这表示智能体的性能并没有随 GPU 资源的变化而显著变化,没有有效地利用额外的计算资源。

OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点?
1、OpenAI 在 MLE-bench 论文的「Impact on AGI Preparedness」章节提到,「如果我们的 AI 智能体能够自主执行机器学习研究,它们可能会带来许多积极的影响,比如加速医疗保健、气候科学等领域的科学进步,加速模型的安全和对齐研究,并通过开发新产品促进经济增长。智能体执行高质量研究的能力可能标志着经济的一个转型步骤。」这部分内容,引发了 Reddit 网友的热议。[1]
2、AI 智能体能够解决 MLE-bench 所有问题,就可能会带来奇点吗?雷·库兹韦尔定义「奇点」为加速回报定律达到了极限,技术进步以近乎无限的速度发展,而奇点之后我们将在一个完全不同的世界生活。
3、在「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子下,一类探讨是针对于 AGI、ASI 两者概念的混淆。[2]

MLE-bench的奖励机制可能会鼓励智能体利用漏洞或采取贪婪策略,而不是开发鲁棒和通用的解决方案。

MLE-bench基准测试筛选了代表机器学习工程前沿领域的任务,涵盖了训练模型、准备数据集、运行实验等。这些任务具有挑战性,能考验AI智能体的核心日常技能。

MLE-bench是基于当前的机器学习技术和数据集,随着技术和数据的进步,其挑战性可能发生变化,需要不断更新和调整。

奇点的概念是基于假设,即技术进步以指数级增长,导致技术能力和人类能力出现质的飞跃。解决MLE-bench可能标志着这一飞跃的开始,开启一个新的技术时代。

MLE-bench要求AI智能体在限制时间内完成任务,并将其提交结果与私有排行榜进行比较。通过比较与人类水平的表现,挑战AI智能体的能力。

如果AI智能体能够自主执行机器学习研究,这可能加速科学进步、促进经济增长。智能体执行高质量研究的能力被认为是技术进步达到极限的标志,即奇点。

MLE-bench仅限于机器学习工程任务,不能评估AI智能体的其他能力,如推理、规划和常识推理。

MLE-bench考虑了奖励设置和时间限制,以鼓励AI智能体多次尝试任务,促进持续改进和鲁棒性的提升。将智能体的表现与不同硬件设置下的结果进行对比,考察智能体对计算资源的利用效率。

解决MLE-bench的任务需要AI智能体具备广泛的机器学习知识和解决复杂问题的能力。这可能使它们能够自动化机器学习研究,产生突破和创新。