原文标题:TLDR,o1 技术细节推测汇总了解一下?
原文作者:机器之心
冷月清谈:
o1由OpenAI推出,引起广泛关注,但未公开详细论文,且屏蔽了思维链过程,引发了社区对技术细节的分析和推测。
o1能力突破
o1在数学、代码和长远规划等问题上取得显著进步,展现了大模型更接近AGI的另一种技术方向。
o1通过增强逻辑推理能力,解锁更多复杂应用,提升整体大模型的认知水平。
Scaling Law
o1采用增强学习的搜索与学习机制,通过迭代式搜索生成合理推理过程,为「Post-Training Scaling Law」提供了支持。
复现方法
社区整理了可能与o1技术路线相关的论文,包括验证器训练、生成式数学定理证明、思维链提示和验证式方法,供研究者参考和复现。
怜星夜思:
2、你认为o1的出现会对自然语言处理领域产生什么影响?
3、o1在哪些方面还需要改进和提高?
原文内容
机器之心PRO · 会员通讯 Week 38
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. TLDR,o1 技术细节推测汇总了解一下?
o1 突破的主要影响是什么?新的 Scaling Law 已经出现了吗?o1 贡献者的哪篇论文透露了训练思路?谷歌 DeepMind 也已经有同样技术储备了?社区都在如何复现 o1?...
OpenAI 计划提高付费版模型价格?为什么说 o1 模型的计费可能是个「坑」?OpenAI 这种想要快速增加收入的方式可行吗?OpenAI 的商业模式可持续吗?实现 AGI 还是盈利,OpenAI 如何抉择?...
3. 从多方报告看 GenAI 热潮: 降本增效可以有,泡沫不至于
AI 投资热潮带来泡沫了吗?全球有多少企业已经部署了 GenAI?GenAI 在哪些业务场景更常用?采用 GenAI 的企业全都实现降本增效了吗?部署 GenAI 还有哪些风险?...
...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 8 项,国外方面 9 项。
要事解读① TLDR,o1 技术细节推测汇总了解一下?
o1 能力突破的影响都在哪些层面?[19][20]
1、相比 OpenAI 此前发布的 GPT-4o,张俊林在文章中强调了 o1 的价值在于其展现了大模型的另一条更靠近根本,也更加重要的技术方向。
① GPT-4o 主要探索的是不同模态相互融合的大一统模型,旨在提升大模型的智力水平。但由于 GPT-4o 模型本身的智力水平有限,难以处理复杂任务,无法泛化至多元的应用场景。
② o1 更侧重于探索大模型在 AGI 道路上的潜力和天花板。o1 通过增强 LLM 文本模型的逻辑推理能力,解锁更多复杂应用,进而提升整体大模型的认知水平。
③ 如果 o1 模型的能力不断提升,可以反哺 GPT-4o,通过替换基座模型、生成合成数据或蒸馏模型等方式,提升 GPT-4o 的复杂任务解决能力。
2、对于业界有关 o1 对于 Scaling Law 的影响的讨论,张俊林和北大对齐团队也在各自的文章中展开讨论。前者对「RL Scaling Law」的说法表达了看法,后者则讨论了 OpenAI 训练 o1 的做法或许象征着「Post-Training Scaling Law」的出现。
① 张俊林的文章围绕业界关于「RL Scaling Law」的说法,讨论了语言理解和表达能力、世界知识存储和查询能力逻辑推理能力,进而延展到 o1 的做法和 Scaling Law 的关系。
② 张俊林猜测,大模型的三个基础能力的能力来源都来自训练数据,而数据中包含的世界知识含量大多和训练数据量成正比,Scaling law 是数据中包含的世界知识含量关系的一个体现。
③ 然而,当大模型见过更多数据,遇到的新知识比例就越低,进而在世界知识方面出现 Scaling law 的减缓现象。
④ 逻辑推理能力 Scaling Law 看起来放缓的原因在于,体现逻辑推理能力的代码、数学题等数据在训练数据中占比远小于其他类型的数据,也侧面印证当下工作通过增加逻辑推理数据占比的原因。
⑤ 对于 o1 通过让大模型自动找寻<问题,正确答案>之间的推理步骤的做法,张俊林猜测如果 o1 仅仅是走 MCTS 搜索技术路线,通过增加搜索深度或宽度的做法自然会带来训练和推理时更大的算力,这其实是搜索树本来应有之义,不至于升格到 RL 的 Scaling Law。
3、北大对齐团队分析了 o1 的技术细节,指出 o1 的核心技术在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 bootstrap 模型产生合理推理过程(rationales),并将其融入训练过程中。而「Post-Training Scaling Laws」则为这一路径提供了支持。
① 北大团队引述 OpenAI 在 2021 年的论文,指出自回归模型在数学推理上很难进步的原因在于无法自主修正回答,仅靠生成式方法和扩大参数规模无法在数学推理任务带来明显收益,因而需要寻找额外的 Scaling Law。
② 而在 Post-Training Scaling Laws 中,训练阶段的计算量在参数量上升之外,还会包含 RL 探索时 LLM Inference 的计算量,而模型在测试阶段的推理和反思带来的计算量也将影响模型的最终表现。
4、北大对齐团队指出,OpenAI 在 o1 和 Post-Training Scaling Laws 中成功的关键在于合理使用强化学习的探索。其中:
① 文章指出,仅靠蒙特卡洛树搜索(MCTS)无法让模型学会思考问题的关联,思维链(CoT)虽然能要求模型在生成最终答案前生成中间推理步骤,但本质上并未教会模型如何从内部深入思考问题的关联。
② MCTS 和 CoT 分别的局限凸显出让模型真正学会合理推理过程(Rationales)能力的重要性,而这种思路在 STaR 和 Quiet-STaR 中也有所体现。
③ 由此,北大对齐团队认为 OpenAI o1 的做法应当与 STaR 和 Quiet-STaR 的路线相似,优化模型内部生成合理推理的过程,而他们在后训练中对强化学习的中的主要算力也应是投入在内部推理过程的优化。
5、在对 o1 的价值、影响、技术推断之上,社区中还有工作梳理了可能与 o1 有关的技术资料,支持各路研究者剖析和复现 o1 中的参考。
① 在 Github 项目 Awesome-LLM-Strawberry 中,有人汇总了近期高质量的技术解读博客和「可能」与 o1 技术路线相关的论文。[21]
② 在对于 o1 技术路线的剖析中,也有媒体发现谷歌团队也有同样的技术储备,并收集了相关论文。[22]
从 OpenAI o1 贡献者参与撰写的论文看潜在的复现方法
1、《Training Verifiers to Solve Math Word Problems 》发布于 2021 年 10 月,作者均来自 OpenAI 团队。该工作围绕数学推理任务,提出训练验证器,通过在测试时生成多个答案并选择验证器评分最高的答案来优化 LLM 的推理能力。[23]
① 该工作发布时,预研模型在多步骤数学推理任务上表现很差。该工作开发了包含 8500 个小学数学问题的 GSM8K 数据集,并通过微调和验证两种方法来解决 GSM8K 的问题。
② 该工作使用的微调是基线方法,使用与 GPT-3 相同的语言建模目标,通过更新模型参数以最小化所有训练 token 的交叉熵损失来执行。
③ 该工作提出的验证方法结合了 Generator+Verifier,训练验证器以判断模型生成解决方案的正确性,训练信号仅取决于解决方案是否达到正确的最终答案。
④ 验证器的训练过程先从训练集上微调一个生成器模型和 2 个 epoch 开始;然后,从生成器中采样 100 个完成项并为每个训练问题标记每个解决方案的正确性;最后,在这个数据集上训练验证器一个 epoch。
⑤ 经测试,Generator+Verifier 的方法在训练数据量较少时没有明显优势,但在训练数据量大时表现显著优于微调基线。6B 验证器的测试准确率达到 72%,甚至优于 175B 微调模型。
⑥ 该工作同样指出了增加参数量对 LLM 的数学推理能力提升有限,建议寻找更合适的 Scaling Law。
2、《Generative Language Modeling for Automated Theorem Proving》发布于 2020 年 9 月,作者为 Stanislas Polu 和 Ilya Sutskever。该工作提出的 GPT-f 是基于深度学习系统首次为形式数学社区贡献并被采纳的证明。[24]
① 自动定理证明是 AI 研究领域中的经典课题,旨在对数学中提出的定理或猜想寻找一种证明或反证的方法。该工作探究了如何有效地利用语言模型生成高质量的数学证明,并确保这些证明被数学界接受。
② 该工作提出了基于 GPT-3 的自动定理证明器和证明助手,称为 GPT-f,用于 Metamath 数据库的及其对应的形式化语言。GPT-f 通过预训练和微调的方式,利用 Transformer 架构生成数学证明。
③ 测试表明,GPT-f 能够完成测试集中 56.22%的证明,优于 MetaGen-IL(当前最先进的 Metamath ATP 系统)的 21.16%。
④ 该工作还验证了模型大小与性能正相关的观点,并通过迭代训练价值函数实现了证明搜索的持续改进,表明在自动定理证明任务中,增加模型大小可以显著提高系统的性能。
3、《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》发布于 2022 年 1 月,作者包括当时还在谷歌大脑的 Jason Wei。该工作提出了思维链(CoT)提示方法。[25]
① 该工作探讨了如何通过生成一系列中间推理步骤(即 CoT)来显著提高大型语言模型进行复杂推理的能力。
② 思维链提示的目标是将这些中间推理步骤嵌入到提示中,以引导语言模型生成更有条理和逻辑的推理过程。其具体实现是在 Prompt 中手动添加包含问答示例的〈输入,思维链,输出〉的三元组。
③ 经测试,思维链提示能够显著提高模型在推理等任务上的正确率。如 PaLM 540B 使用思维链提示在 GSM8K 中准确率实现了 17.9%→56.9%的提升,在 SVAMP 实现 84%→95.4%。
④ 该工作引发了后续「Let's think step by step」和「Auto-CoT」等扩展和延伸工作。
4、《Let's Verify Step by Step》发布于 2023 年 5 月,作者均来自 OpenAI 团队。该工作探讨了 LLM 在复杂多步推理任务中的表现及其可靠性问题。由于多位 o1 核心贡献者都参与了该论文,有说法猜测这是 o1 训练的方法论。[26]
① 该工作对比了结果监督(ORM)和过程监督(PRM)两种方法。ORM 仅使用模型链式思维的最终结果进行训练,而 PRM 对每一步都提供反馈,对每一个正确的推理步骤进行奖励。
② 研究者使用了主动学习策略来提高数据收集效率,使用一个小型奖励模型(PRMselector)对每个问题进行单一样本评分,然后根据这些评分选择最有说服力的错误答案进行人类标注,开发了含 PRM800K 数据集来训练最佳奖励模型。
③ 经测试,过程监督模型在大规模数据集和小规模数据集的表现均优于结果监督模型。在大规模数据集中,PRM 准确率为 86.7%,而 ORM 为 68.9%;在小规模数据集中,PRM 准确率为 78.2%,而结果监督为 77.6%。
④ 研究者还证明了过程监督的其他优势,如更易进行信用分配(credit assignment)、不受对齐税(alignment tax)影响等。