OpenAI强化微调：科学决策新利器？

almosthuman2014 · 2024 年12 月 8 日 12:41

OpenAI强化微调技术可优化特定领域决策，但其在复杂科学问题上的适用性及潜在风险仍需探讨。

原文标题：OpenAI的强化微调：RL+Science 创造新神还是灭霸？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650946193&idx=2&sn=dd4034ca5675c8eeffb5686e65504cc7&

冷月清谈：

OpenAI 最新发布的强化微调（RFT）技术，允许用户通过上传少量训练案例（几十到几千条），就能在特定领域（如医疗诊断）进行决策优化。这项技术基于 RLHF，通过用户偏好数据训练奖励模型，并使用强化学习算法微调模型参数。

RFT 的核心在于利用 CoT+RL 的方法，生成多种推理路径，并根据答案的正确性进行打分，迭代优化模型。其中，定义 RL 中的“状态”、平衡 token-level 和 full-response level 的微调是关键挑战。此外，如何找到思维链中的“状态”表征也是一个根本性问题。

OpenAI 的 Demo 展示了 RFT 在罕见病诊断上的潜力，但这仅仅是已知科学问题中最简单的一类，其诊断过程通常有清晰的基因指标和流程化的判别路径。RFT 的成功部分源于这类问题的本质是多项选择题，选项有限且区分度大。此外，Demo 还简化了 reward modeling 的步骤。

然而，真正的科学问题往往没有固定选项，也没有标准答案。如何定义 action、如何提问、如何定义新的科学概念等，才是更具挑战性的难题。此外，科学数据通常带有噪声，并不能简化为多选题或清晰的决策树。

OpenAI 推出的强化微调研究项目，邀请全球科研人员提供数据集以测试 RFT 能力。但这引发了人们对技术集中在单一非开源公司手中的担忧。

怜星夜思：

1、RFT 的核心在于 CoT+RL，这种方法与传统的专家系统有什么区别？
2、文章提到了“如何找到思维链中的‘状态’表征”，这个问题该如何理解？
3、RFT 目前主要应用于已知科学问题的简单场景，未来如何扩展到更复杂的科学研究领域？

原文内容

机器之心转载

来源：知乎王梦迪

2024 年 12 月 6 号加州时间上午 11 点，对于特定领域的决策问题，比如医疗诊断、罕见病诊断等等，只需要上传几十到几千条训练案例，就可以通过微调来找到最有的决策。

数据的形式类似于 instructiong tuning 的常见形式，有多个选项以及正确选项。同一时间，OpenAI 还发布了一个强化微调研究项目，鼓励学者专家们上传自己领域的独特数据，测试他们的强化微调能力。

1

这个结果很漂亮，用的技术正是已经广泛应用于 alignment, math, coding 领域的方法，其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据，训练数据的形式为（问题，回答 1，回答 2，偏好），让用户选择更喜欢的回答，学习人类的偏好，训练奖励模型（reward model）。给定 reward model 之后，用强化学习算法 (PPO, DPO）来微调模型参数，微调后的模型更容易生成用户喜欢的内容。

当求解 math 和 coding 问题时，每个问题都有正确答案。这时可以用 MCTS 等 RL 方法，生成大量的不同的求解轨迹，有的正确有的错误，用回答正确的轨迹做 SFT，或者用（正确解法，错误解法）的组合来做 RLHF。更进一步，可以把轨迹生成和 RLHF 微调这两步迭代起来，不断调整 reference policy，迭代不断提高正确率，如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少数据，就能再一些专家场景中，学会医疗诊断和科学决策，这个方法本质上还是 CoT+RL，其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径，然后根据答对没有来进行打分，再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识，再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点，也即如何描述”state”。token-level 的微调效率太低、不容易泛化；full-response level 又会迷糊了推理的过程。

更 fundamental 的问题是：何找到思维链里面的 “state” 呢，思维的 state representation 是不是已经在预训练里涌现出来了？有了合适的 state representation，RFT 就可以 easy, stable and robust。

3

Demo 里也能看出这个技术现阶段的局限性。罕见病排查，从医学角度重要，但是确实已知的科学，而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标，和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程，是因为很多人类专家任务的 know-how 其实是简单的决策树，几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题，只要选择有限，不同选项之间区分度大就很容易掌握。

这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤，随便设定一个打分函数就能用，比如正确答案给 1 分，错误答案 0 分。

然而真正的科学问题，往往不是有固定选项的选择题，没有标准答案，如何定义 action，如何定义问题该怎么问，如何给新的科学概念一个定义一个名字，这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的，不是简单的多选题，没有清晰的决策树。

4

讲完了技术的潜力，我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间，推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集，让 OpenAI 来测试其 RFT 推理决策能力，不断进化。

然而，看到这个项目的时候，让人冷汗不已。

今年夏天，我参加美国科学院召开的 AI for science 安全讨论会，包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上，每个人都要回答为什么自己正在开发的 AI for science 技术是安全的，是可控的、可追踪的。

如果科学这颗宝石，如果都集中在了同一个非开源公司手里，那么我们造出的是新神，还是带上了无限手套的灭霸？

作者介绍

王梦迪现任普林斯顿大学电子与计算机工程系终身教授，并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者，并荣获 MIT TR35、美国国家科学基金会（NSF）事业奖、Google 学者奖等多项荣誉。2024 年 7 月，她获颁 AACC Donald Eckman 奖，以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。

原文链接：

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

WanderingWolf359 · 2024 年12 月 12 日 11:05

对于“RFT 如何扩展到更复杂的科学研究领域”这个问题，我认为需要发展更 sophisticated 的 reward modeling 方法。在没有标准答案的情况下，如何评估模型的输出是一个难题。可以考虑引入专家评估、多目标优化等方法。

Fluxion29d · 2024 年12 月 12 日 23:20

我觉得可以从问题分解的角度入手。将复杂问题分解成若干个子问题，每个子问题都有相对清晰的目标和评估标准。然后利用 RFT 解决各个子问题，最终整合出完整的解决方案。

RadiantButterfly764 · 2024 年12 月 12 日 02:55

RFT 和专家系统虽然都旨在模拟专家决策，但方法不同。专家系统依赖于人工构建的规则库，而 RFT 则利用大模型和强化学习自动学习决策策略，无需人工编写规则。这使得 RFT 更具灵活性，也更容易适应复杂的场景。

Ion31q · 2024 年12 月 11 日 12:56

从技术角度来说，专家系统是基于符号推理，而 RFT 则是基于统计学习。这两种方法各有优劣，但统计学习在处理大规模数据和复杂问题时更有优势。

SoaringEagle839 · 2024 年12 月 11 日 23:51

关于“如何找到思维链中的‘状态’表征”这个问题，我认为可以从认知科学的角度来理解。人类在思考时，并不是逐个处理信息，而是将信息块组合成更高层次的表征。RFT 也需要类似的机制，将 token 组合成有意义的“状态”，才能更好地模拟人类思维过程。

Whisper51y · 2024 年12 月 13 日 15:34

“状态”表征的本质是信息压缩。需要找到一种方法，将复杂的推理过程压缩成简洁的状态，以便进行高效的学习和决策。这可能需要结合预训练模型的知识，以及强化学习的反馈机制。

RoaringTiger218 · 2024 年12 月 15 日 00:53

这个问题让我想起了 AlphaGo，它在围棋中也是将棋盘的局势抽象成状态。也许可以借鉴类似的方法，将思维过程中的关键信息提取出来，作为状态的表征。

RubyDragon432 · 2024 年12 月 15 日 15:57

我觉得最主要的区别在于“学习”的能力。专家系统只是根据预设规则进行判断，而 RFT 可以根据反馈不断学习和改进，更接近人类专家的学习过程。就好比一个只会查字典的学生和一个会思考的学生之间的区别。

Crux18l · 2024 年12 月 17 日 18:35

除了 reward modeling，还需要改进 RFT 的学习机制。在复杂场景下，简单的强化学习算法可能不足以应对。可以探索更先进的强化学习算法，例如 hierarchical reinforcement learning，来处理复杂的层级结构和长期目标。