AI 下半场：从训练到评估，清华学霸姚顺雨解读 AI 发展新方向

DatapiTHU · 2025 年4 月 24 日 05:26

OpenAI研究员姚顺雨认为AI进入下半场，重点将从训练转向评估。需要开发更贴近现实的评估方式，以推动AI在实际应用中发挥更大价值。

原文标题：清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656020&idx=1&sn=8bc111b973a06064dddd8c8d2c429bd7&

冷月清谈：

OpenAI 研究员姚顺雨认为，AI 发展已进入“下半场”。上半场侧重于开发新的训练方法和模型，如 Transformer、AlexNet 和 GPT-3 等，推动了 AI 在各个领域的突破。当前，AI 的重点将从解决问题转向定义问题，评估的重要性将超过训练。文章指出，大规模语言预训练、规模化数据与计算能力以及推理和行动的理念是 AI 发展的关键。未来的重点在于开发新颖的评估设置或任务以服务于现实世界的实用性，并用通用方法或增强方法来解决这些任务。作者认为现在需要从根本上重新思考评估方式，质疑现有评估设置，创造更贴近现实世界的新评估方法，并打破通用性，进行真正具有变革意义的研究。

怜星夜思：

1、文章中提到“AI 在国际象棋和围棋中击败世界冠军，在 SAT 和律考中超过大多数人类，并在 IOI 和 IMO 中达到了金牌水平。但世界没有太大变化”，你怎么看待这个观点？AI 在哪些方面真正改变了我们的生活？
2、文章中反复强调了评估的重要性，如果让你来设计一个评估 AI 实用性的新标准，你会考虑哪些因素？
3、文章提到“AI 的重点将从解决问题转向定义问题”，你觉得对于AI从业者来说，这意味着什么？我们需要做出哪些改变？

原文内容

来源：机器之心
本文共4200字，建议阅读8分钟
本文一起探讨 AI 的未来会是什么样？

最近新出的《黑镜》第七季大家都看了吗？

其中第三集聚焦一个叫 ReDream 的前沿技术，允许现代演员通过 AI 和虚拟现实与经典黑白电影中的虚拟角色互动，快速重拍经典影片。随着故事发展，主角发现 AI 角色似乎拥有自我意识。

想象一下，未来的 AI 不仅能听懂你的话，还能像你一样思考、决策 —— 这正是思维树（ToT）作者、OpenAI 研究员姚顺雨正在探索的世界！

姚顺雨毕业于清华姚班，普林斯顿大学计算机科学博士，2024 年 8 月加入 OpenAI。他以语言智能体领域的开创性工作闻名：ToT 使 AI 通过多路径推理解决复杂问题，ReAct 让 AI 在推理中动态行动，CoALA 则为 AI 智能体提供了模块化的认知架构。

早在 GPT-2 刚兴起时，他就预见了语言模型的潜力，率先研究如何将其转化为「会思考的 Agent」，展现了惊人的学术前瞻性。如今，他的成果正推动 AI 在编程、教育、自动化等领域大放异彩。

近日，姚顺雨发布了一篇新博客，探讨 AI 发展的「下半场」。AI 的未来会是什么样？让我们跟随他的脚步，一起揭开人工智能的下一幕！

博客地址：https://ysymyth.github.io/The-Second-Half/

上半场

简而言之：我们正处在 AI 的中场休息时间。

几十年来，AI 主要致力于开发新的训练方法和模型，取得了显著成就，如在国际象棋和围棋中击败世界冠军，以及在多个考试中超越人类。这些成就源于基础性创新，如搜索、深度强化学习（Deep RL）和推理。

现在的不同之处在于：深度强化学习终于开始泛化，找到了一种有效的方法来解决多种 RL 任务。曾经，研究人员不相信单一方法能够应对软件工程、创意写作、复杂数学等多个领域的挑战，但如今这种情况已经改变。

接下来，AI 的重点将从解决问题转向定义问题。在这个新时代，评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展，这可能需要更接近产品经理的思维方式。

理解上半场的关键在于其赢家。影响力最大的 AI 论文如 Transformer、AlexNet 和 GPT-3 等，都是提出基础性突破的训练方法，而非基准测试。尽管 ImageNet 是一个重要的基准测试，但其引用量仍远低于 AlexNet。这表明，方法与基准测试之间的关系在其他领域更为显著。

AI 发展的上半场主要聚焦于模型和方法的创新，而非评估标准的建立。这是因为开发新的算法和模型架构（如反向传播、AlexNet、Transformer 等）需要深刻的洞察力和工程能力，远比将已有人类任务转化为基准测试更具挑战性和吸引力。

更重要的是，这些方法往往具有普适性和广泛应用价值。典型如 Transformer 架构，从最初的机器翻译扩展到计算机视觉、自然语言处理和强化学习等多个领域，产生了深远影响。这种专注于方法创新的策略在过去几十年证明是有效的，推动了 AI 在各个领域的突破性进展。而现在，随着这些创新的累积达到临界点，AI 的发展重心正在发生根本性转变。

配方

这个配方是什么？其中的成分，不出所料，包括大规模语言预训练、规模（数据和计算能力），以及推理和行动的理念。这些听起来可能像是每天都能听到的流行词，但将它们称为配方是有原因的。

通过强化学习（RL）的视角可以理解这一点，强化学习通常被认为是人工智能的「终极形态」—— 理论上强化学习保证能赢得游戏，而从经验上看，很难想象没有强化学习的超人类系统（例如 AlphaGo）。

在强化学习中，有三个关键组成部分：算法、环境和先验知识。长期以来，强化学习研究人员主要关注算法（例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等）—— 智能体学习的智力核心 —— 同时将环境和先验知识视为固定或最小化的因素。例如，Sutton 和 Barto 的经典教科书几乎全部讲述算法，几乎不涉及环境或先验知识。

然而，在深度强化学习时代，环境的重要性在实践中变得愈发明显：算法的性能通常高度依赖于其开发和测试的环境。如果忽视环境因素，研究者可能会构建出一个只在玩具场景中表现出色的「最优」算法。那么，为什么不先确定真正想要解决的环境，然后再寻找最适合该环境的算法呢？

这正是 OpenAI 最初的计划。该公司构建了 gym，一个用于各种游戏的标准强化学习环境，随后又推出了 World of Bits 和 Universe 项目，试图将互联网或计算机转变为游戏环境。一旦将所有数字世界转化为环境，并用智能强化学习算法解决它们，就能拥有数字通用人工智能（AGI）。

这是个不错的计划，但并未完全奏效。OpenAI 沿着这条路径取得了巨大进展，使用强化学习解决了 Dota 游戏、机器人手部控制等问题。但该公司从未真正接近解决计算机使用或网页导航的问题，而且在一个领域工作的强化学习智能体无法迁移到另一个领域。显然还缺少了关键要素。

直到 GPT-2 或 GPT-3 出现后，研究人员才发现缺失的部分是先验知识。需要强大的语言预训练来将通用常识和语言知识提炼到模型中，然后这些模型才能被微调成为网页智能体（WebGPT）或聊天智能体（ChatGPT）（并改变世界）。事实证明，强化学习中最重要的部分可能并不是强化学习算法或环境本身，而是先验知识，而这些先验知识可以通过与强化学习完全无关的方式获得。

语言预训练为聊天提供了良好的基础，但在控制计算机或玩视频游戏方面效果不佳，因为这些领域与互联网文本的分布差异较大。监督微调（SFT）或强化学习（RL）在这些领域表现有限。

2019 年，作者尝试通过 GPT-2 解决基于文本的游戏，但智能体需要进行数百万步的强化学习才能达到一定水平，且难以迁移到新游戏。人类可以零样本下玩新游戏并且表现更好，因为我们能够进行抽象思考，例如「地下城是危险的，需要武器来对抗，可能需要在锁住的箱子中寻找」。这种推理能力使我们能够灵活应对新情况。

思考或推理是一种独特的行动，它不直接改变外部世界，但其空间是开放和无限的。在经典强化学习中，这样的无界组合会使决策复杂化。例如，如果从两个盒子中选择一个，其中一个有 100 万美元，另一个为空，你的期望收益是 50 万美元。若增加无限多的空盒子，期望收益变为零。然而，通过将推理引入强化学习环境的动作空间，我们能利用语言预训练的先验知识，实现泛化，并在决策时进行灵活的计算。读者可以通过阅读 ReAct 以了解智能体推理的初始故事。

论文地址：https://arxiv.org/pdf/2210.03629

目前，作者的直观解释是：即使你增加了无尽的空箱子，但在一生中你已经在各种游戏中看到了它们，选择这些箱子准备你在任何给定游戏中更好地选择装钱的箱子。作者的抽象解释是：语言通过智能体中的推理进行泛化。

一旦我们掌握了正确的强化学习先验（语言预训练）和适合的强化学习环境（将语言推理作为行动），就会发现实际上强化学习算法可能是最简单的一部分。于是，我们推出了 o 系列、R1、深度研究、利用计算机的智能体，及其他将来的成果。这种变化多么讽刺！长期以来，强化学习研究者专注于算法，而忽视了环境和先验知识 —— 所有的实验都几乎从零开始。我们耗费了几十年才意识到，或许我们的优先级应该完全调整过来。

但正如 Steve Jobs 所说：你无法展望未来连接点，只能倒回来看时连接。

下半场

这个配方正在彻底改变游戏规则，回顾上半场的游戏：

我们开发新颖的训练方法或模型，以提升基准测试的成绩。
我们创建更困难的基准，并继续这个循环。

这个游戏正在被破坏，因为：

这个配方基本上标准化并工业化了基准的提升，而不需要更多的新想法。随着这个配方的扩展和良好的泛化，针对特定任务的新方法可能只会提高 5%，而下一个 o 系列模型可能在没有明确针对的情况下提高 30%。
即使我们创建更困难的基准，很快（而且越来越快）它们也会被这个配方解决。我的同事 Jason Wei 制作了一个漂亮的图来很好地可视化这个趋势：

那么下半场剩下什么可以玩？如果不再需要新方法，而更难的基准测试将越来越快地被解决，我们该怎么办？

作者认为我们应该从根本上重新思考评估。这不仅意味着创造新的和更难的基准测试，而是从根本上质疑现有的评估设置并创造新的，这样我们就被迫发明超越现有食谱的新方法。这很难，因为人类有惯性，极少质疑基本假设 —— 你只是把它们当作理所当然，未意识到它们是假设而非法律。

为了解释惯性，假设你在历史上基于人类考试发明了最成功的评估之一。它在 2021 年是一个非常大胆的想法，但 3 年后它就饱和了。你会怎么做？最可能的是创建一个更难的考试。或者假设你解决了简单的编码任务。你会怎么做？最可能的是找更难的编码任务来解决，直到达到 IOI 金牌水平。

惯性是自然的，但这是问题所在。AI 在国际象棋和围棋中击败世界冠军，在 SAT 和律考中超过大多数人类，并在 IOI 和 IMO 中达到了金牌水平。但世界没有太大变化，至少从经济和 GDP 角度来看如此。

作者称之为效用问题，并将其视为 AI 最重要的问题之一。

也许我们很快就会解决效用问题，也许不会。无论如何，这个问题的根本原因可能看似简单：我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子：

评估「应该」自动运行，因此通常一个智能体接收任务输入，独立完成任务，然后获得任务奖励。但在现实中，智能体必须在整个任务过程中与人类互动 —— 你不会只是给客服发一条超级长的消息，等 10 分钟，然后期待得到详细的回复来解决所有问题。通过质疑这种设置，新的基准被发明出来，以便在循环中引入真实的人类（例如，聊天机器人竞技场）或用户模拟（例如，tau-bench）。

评估「应该」在独立同分布（i.i.d.）的情况下进行。如果你有一个包含 500 个任务的测试集，你会独立运行每个任务，平均任务指标，然后得到一个整体指标。但在现实中，你是顺序解决任务，而不是并行进行。谷歌的软件工程师（SWE）在解决 google3 问题时，随着对代码库的熟悉程度逐渐提高，解决问题的能力也会越来越好，但一个软件工程智能体在同一个代码库中解决许多问题时，并不会获得这样的熟悉度。显然，我们需要长期记忆方法（并且确实存在），但学术界没有适当的基准来证明这种需求，甚至缺乏质疑作为机器学习基础的 i.i.d. 假设的勇气。

这些假设「一直」都是这样，在 AI 发展的前半段，在这些假设下开发基准测试是可行的，因为当智能水平较低时，提高智能通常会提高实用性。但现在，这种通用方法在这些假设下肯定能奏效。所以，在后半段的新游戏中，我们的方式是：

我们为现实世界的实用性开发新颖的评估设置或任务。
我们用通用方法解决这些任务，或者用新颖的组件增强这些方法。然后继续循环。

这个过程既困难又令人兴奋，因为它不再是我们熟悉的。前期的参与者专注于解决视频游戏和考试，而后期的参与者通过利用智能开发有用的产品，创造了价值数十亿甚至数万亿美元的公司。前期充满了增量式的方法和模型，而后期从一定程度上筛选这些方法。通用方法可能会超越增量式方法，除非你能够通过创造新的假设打破这种通用性。唯有如此，才能进行真正改变游戏规则的研究。

欢迎来到后半段！

编辑：于腾凯

校对：刘茹宁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Halo30p · 2025 年4 月 26 日 08:03

这意味着 AI 从业者需要具备更强的业务理解能力，不能只埋头写代码、调模型，还要深入了解行业痛点、用户需求，才能定义出真正有价值的问题。

同时，我们需要培养跨学科协作能力，与领域专家、产品经理、设计师等紧密合作，才能将 AI 技术更好地应用于实际场景。

最后，我们需要保持批判性思维，不断质疑现有假设，探索新的可能性，才能推动 AI 技术的创新。

GlowingStarfish420 · 2025 年4 月 26 日 12:05

emmm… 可能是因为作者期待的“改变”是指数级的、颠覆性的吧。我觉得 AI 已经改变了很多，比如购物习惯（个性化推荐）、信息获取方式（搜索引擎）、出行方式(地图导航、网约车)，这些都离不开 AI 的功劳。虽然 AI 还没有创造出新的产业或者模式，但是它提升了我们生活和工作的效率，降低了沟通成本，这难道不算改变吗？只是这种改变比较 subtle 罢了。

CrystalBear411 · 2025 年4 月 28 日 00:05

我觉得以后 AI 从业者不能只当“工具人”了，得有点“产品经理”的意识，能发现问题、提出解决方案。现在很多 AI 项目都是“为了 AI 而 AI”，没有真正解决实际问题，这是很大的浪费。

所以，AI 从业者要多跟用户交流，了解他们的需求，才能避免闭门造车。另外，也要关注行业发展趋势，看看 AI 有哪些新的应用场景。

MorningDew906 · 2025 年4 月 28 日 00:13

如果要设计评估 AI 实用性的新标准，我首先会考虑成本效益。AI 应用不能只追求高准确率，还要考虑部署和维护的成本。比如，开发一个高精度的人脸识别系统，但功耗巨大、部署复杂，那实用性就大打折扣。

此外，鲁棒性也很关键。AI 系统在面对噪声数据、对抗攻击时，是否能保持稳定可靠？一个容易被欺骗的 AI 系统，显然是不实用的。

最后，我觉得还应该加入伦理考量。AI 应用是否公平、透明、可解释？是否会加剧社会不平等？这些都是评估实用性时需要考虑的因素。

CloudySky415 · 2025 年4 月 28 日 13:20

这不就是要求我们从“码农”进化成“架构师”吗？以前是接到需求就撸起袖子干，现在要先思考：这个需求真的合理吗？有没有更好的解决方案？

说白了，就是要我们更有主观能动性，不能只会听指令，要有自己的判断和思考。看来以后要多看商业分析、产品设计的书了！

FieryPhoenix505 · 2025 年4 月 28 日 18:11

我从另一个角度来思考这个问题。与其说是设计“标准”，不如说是建立一个更接近真实场景的模拟环境。比如，我们可以模拟一个复杂的商业环境，让 AI 在其中进行决策，然后观察其表现。或者，我们可以让人类专家与 AI 协同工作，评估 AI 的辅助能力。

这种基于真实场景的评估，更能反映 AI 的实际价值，也更容易发现潜在的问题。

ThunderLion891 · 2025 年4 月 30 日 19:17

我觉得作者的观察很犀利！AI 在特定领域的超越人类，更多的是在“智力游戏”层面，而对经济和 GDP 的直接影响可能并不如我们想象的那么大。真正改变生活的 AI 应用，我认为体现在自动化、效率提升上，比如智能客服、个性化推荐、自动驾驶等，它们润物细无声地渗透到我们的日常。

当然，更深远的影响可能还在酝酿中，比如 AI 驱动的新药研发、材料科学突破，这些都有可能从根本上改变人类的未来。大家觉得呢？

CloudySky415 · 2025 年5 月 2 日 05:11

我来补充一点！除了成本、鲁棒性和伦理，我认为可解释性也很重要。一个“黑盒” AI 系统，即使效果很好，也很难让人信任。我们需要知道 AI 是如何做出决策的，这样才能更好地排查问题、改进模型。

另外，可扩展性也是一个关键指标，应用场景需要可扩展，方便复制。

最后，别忘了用户体验！AI 应用再强大，如果操作复杂、交互不友好，用户也不会买账。

Stellar82k · 2025 年5 月 3 日 00:42

同意楼上的看法！AI 在智力竞赛中的胜利，更多是算法和算力的胜利，而现实世界的问题往往更加复杂，需要综合能力。目前 AI 更多是作为工具来提升效率，例如，律师可以用 AI 快速检索案例，医生利用 AI 辅助诊断。但要说“改变世界”，我觉得还为时过早，除非 AI 能在重大科学发现、社会问题解决等方面发挥关键作用。