o1技术细节推测汇总

原文标题:TLDR,o1 技术细节推测汇总了解一下?

原文作者:机器之心

冷月清谈:

**o1技术细节推测汇总**

o1由OpenAI推出,引起广泛关注,但未公开详细论文,且屏蔽了思维链过程,引发了社区对技术细节的分析和推测。

o1能力突破
o1在数学、代码和长远规划等问题上取得显著进步,展现了大模型更接近AGI的另一种技术方向。
o1通过增强逻辑推理能力,解锁更多复杂应用,提升整体大模型的认知水平。

Scaling Law
o1采用增强学习的搜索与学习机制,通过迭代式搜索生成合理推理过程,为「Post-Training Scaling Law」提供了支持。

复现方法
社区整理了可能与o1技术路线相关的论文,包括验证器训练、生成式数学定理证明、思维链提示和验证式方法,供研究者参考和复现。




怜星夜思:


1、o1技术突破的影响有哪些?
2、你认为o1的出现会对自然语言处理领域产生什么影响?
3、o1在哪些方面还需要改进和提高?




原文内容



机器之心PRO · 会员通讯 Week 38

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. TLDR,o1 技术细节推测汇总了解一下?

o1 突破的主要影响是什么?新的 Scaling Law 已经出现了吗?o1 贡献者的哪篇论文透露了训练思路?谷歌 DeepMind 也已经有同样技术储备了?社区都在如何复现 o1?...

2. o1 涨价 4 倍,OpenAI 的这种商业模式可持续吗?

OpenAI 计划提高付费版模型价格?为什么说 o1 模型的计费可能是个「坑」?OpenAI 这种想要快速增加收入的方式可行吗?OpenAI 的商业模式可持续吗?实现 AGI 还是盈利,OpenAI 如何抉择?...

3. 从多方报告看 GenAI 热潮: 降本增效可以有,泡沫不至于

AI 投资热潮带来泡沫了吗?全球有多少企业已经部署了 GenAI?GenAI 在哪些业务场景更常用?采用 GenAI 的企业全都实现降本增效了吗?部署 GenAI 还有哪些风险?...


...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 8 项,国外方面 9 项。

本期通讯总计 24200 字,可免费试读至 13% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  TLDR,o1 技术细节推测汇总了解一下?

引言:o1 发布后引起轩然大波,但 OpenAI 没有发布 o1 的详细论文,还手动屏蔽了 o1 的 CoT 过程,进而引发许多国内外社区对该模型技术细节的剖析和推测。

o1 能力突破的影响都在哪些层面?[19][20]

OpenAI o1 在数学、代码和长远规划等问题上取得了显著进步,进而引发了 AI 社区大量讨论。其中,新浪新技术研发负责人张俊林和北京大学对齐与交互实验室 PAIR-Lab 的研究者分别撰文,分享了对 o1 的价值、影响和背后技术的看法。

1、相比 OpenAI 此前发布的 GPT-4o,张俊林在文章中强调了 o1 的价值在于其展现了大模型的另一条更靠近根本,也更加重要的技术方向。

① GPT-4o 主要探索的是不同模态相互融合的大一统模型,旨在提升大模型的智力水平。但由于 GPT-4o 模型本身的智力水平有限,难以处理复杂任务,无法泛化至多元的应用场景。

② o1 更侧重于探索大模型在 AGI 道路上的潜力和天花板。o1 通过增强 LLM 文本模型的逻辑推理能力,解锁更多复杂应用,进而提升整体大模型的认知水平。

③ 如果 o1 模型的能力不断提升,可以反哺 GPT-4o,通过替换基座模型、生成合成数据或蒸馏模型等方式,提升 GPT-4o 的复杂任务解决能力。

2、对于业界有关 o1 对于 Scaling Law 的影响的讨论,张俊林和北大对齐团队也在各自的文章中展开讨论。前者对「RL Scaling Law」的说法表达了看法,后者则讨论了 OpenAI 训练 o1 的做法或许象征着「Post-Training Scaling Law」的出现。

① 张俊林的文章围绕业界关于「RL Scaling Law」的说法,讨论了语言理解和表达能力、世界知识存储和查询能力逻辑推理能力,进而延展到 o1 的做法和 Scaling Law 的关系。

② 张俊林猜测,大模型的三个基础能力的能力来源都来自训练数据,而数据中包含的世界知识含量大多和训练数据量成正比,Scaling law 是数据中包含的世界知识含量关系的一个体现。

③ 然而,当大模型见过更多数据,遇到的新知识比例就越低,进而在世界知识方面出现 Scaling law 的减缓现象。

④ 逻辑推理能力 Scaling Law 看起来放缓的原因在于,体现逻辑推理能力的代码、数学题等数据在训练数据中占比远小于其他类型的数据,也侧面印证当下工作通过增加逻辑推理数据占比的原因。

⑤ 对于 o1 通过让大模型自动找寻<问题,正确答案>之间的推理步骤的做法,张俊林猜测如果 o1 仅仅是走 MCTS 搜索技术路线,通过增加搜索深度或宽度的做法自然会带来训练和推理时更大的算力,这其实是搜索树本来应有之义,不至于升格到 RL 的 Scaling Law。

3、北大对齐团队分析了 o1 的技术细节,指出 o1 的核心技术在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 bootstrap 模型产生合理推理过程(rationales),并将其融入训练过程中。而「Post-Training Scaling Laws」则为这一路径提供了支持。

① 北大团队引述 OpenAI 在 2021 年的论文,指出自回归模型在数学推理上很难进步的原因在于无法自主修正回答,仅靠生成式方法和扩大参数规模无法在数学推理任务带来明显收益,因而需要寻找额外的 Scaling Law。

② 而在 Post-Training  Scaling Laws 中,训练阶段的计算量在参数量上升之外,还会包含 RL 探索时 LLM Inference 的计算量,而模型在测试阶段的推理和反思带来的计算量也将影响模型的最终表现。

4、北大对齐团队指出,OpenAI 在 o1 和 Post-Training  Scaling Laws 中成功的关键在于合理使用强化学习的探索。其中:

① 文章指出,仅靠蒙特卡洛树搜索(MCTS)无法让模型学会思考问题的关联,思维链(CoT)虽然能要求模型在生成最终答案前生成中间推理步骤,但本质上并未教会模型如何从内部深入思考问题的关联。

② MCTS 和 CoT 分别的局限凸显出让模型真正学会合理推理过程(Rationales)能力的重要性,而这种思路在 STaR 和 Quiet-STaR 中也有所体现。

③ 由此,北大对齐团队认为 OpenAI o1 的做法应当与 STaR 和 Quiet-STaR 的路线相似,优化模型内部生成合理推理的过程,而他们在后训练中对强化学习的中的主要算力也应是投入在内部推理过程的优化。

5、在对 o1 的价值、影响、技术推断之上,社区中还有工作梳理了可能与 o1 有关的技术资料,支持各路研究者剖析和复现 o1 中的参考。

① 在 Github 项目 Awesome-LLM-Strawberry 中,有人汇总了近期高质量的技术解读博客和「可能」与 o1 技术路线相关的论文。[21]

② 在对于 o1 技术路线的剖析中,也有媒体发现谷歌团队也有同样的技术储备,并收集了相关论文。[22]

从 OpenAI o1 贡献者参与撰写的论文看潜在的复现方法

在 Awesome-LLM-Strawberry 项目页面梳理了大量有关 o1 的分析博客、推文、论文和博客等。其中,项目专门梳理了六篇来自 o1 贡献者参与撰写的论文,作为对该模型的研究思路和技术细节的参考。

1、《Training Verifiers to Solve Math Word Problems 》发布于 2021 年 10 月,作者均来自 OpenAI 团队。该工作围绕数学推理任务,提出训练验证器,通过在测试时生成多个答案并选择验证器评分最高的答案来优化 LLM 的推理能力。[23]

① 该工作发布时,预研模型在多步骤数学推理任务上表现很差。该工作开发了包含 8500 个小学数学问题的 GSM8K 数据集,并通过微调和验证两种方法来解决 GSM8K 的问题。

② 该工作使用的微调是基线方法,使用与 GPT-3 相同的语言建模目标,通过更新模型参数以最小化所有训练 token 的交叉熵损失来执行。

③ 该工作提出的验证方法结合了 Generator+Verifier,训练验证器以判断模型生成解决方案的正确性,训练信号仅取决于解决方案是否达到正确的最终答案。

④ 验证器的训练过程先从训练集上微调一个生成器模型和 2 个 epoch 开始;然后,从生成器中采样 100 个完成项并为每个训练问题标记每个解决方案的正确性;最后,在这个数据集上训练验证器一个 epoch。

⑤ 经测试,Generator+Verifier 的方法在训练数据量较少时没有明显优势,但在训练数据量大时表现显著优于微调基线。6B 验证器的测试准确率达到 72%,甚至优于 175B 微调模型。

⑥ 该工作同样指出了增加参数量对 LLM 的数学推理能力提升有限,建议寻找更合适的 Scaling Law。

2、《Generative Language Modeling for Automated Theorem Proving》发布于 2020 年 9 月,作者为 Stanislas Polu 和 Ilya Sutskever。该工作提出的 GPT-f 是基于深度学习系统首次为形式数学社区贡献并被采纳的证明。[24]

① 自动定理证明是 AI 研究领域中的经典课题,旨在对数学中提出的定理或猜想寻找一种证明或反证的方法。该工作探究了如何有效地利用语言模型生成高质量的数学证明,并确保这些证明被数学界接受。

② 该工作提出了基于 GPT-3 的自动定理证明器和证明助手,称为 GPT-f,用于 Metamath 数据库的及其对应的形式化语言。GPT-f 通过预训练和微调的方式,利用 Transformer 架构生成数学证明。

③ 测试表明,GPT-f 能够完成测试集中 56.22%的证明,优于 MetaGen-IL(当前最先进的 Metamath ATP 系统)的 21.16%。

④ 该工作还验证了模型大小与性能正相关的观点,并通过迭代训练价值函数实现了证明搜索的持续改进,表明在自动定理证明任务中,增加模型大小可以显著提高系统的性能。

3、《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》发布于 2022 年 1 月,作者包括当时还在谷歌大脑的 Jason Wei。该工作提出了思维链(CoT)提示方法。[25]

① 该工作探讨了如何通过生成一系列中间推理步骤(即 CoT)来显著提高大型语言模型进行复杂推理的能力。

② 思维链提示的目标是将这些中间推理步骤嵌入到提示中,以引导语言模型生成更有条理和逻辑的推理过程。其具体实现是在 Prompt 中手动添加包含问答示例的〈输入,思维链,输出〉的三元组。

③ 经测试,思维链提示能够显著提高模型在推理等任务上的正确率。如 PaLM 540B 使用思维链提示在 GSM8K 中准确率实现了 17.9%→56.9%的提升,在 SVAMP 实现 84%→95.4%。

④ 该工作引发了后续「Let's think step by step」和「Auto-CoT」等扩展和延伸工作。

4、《Let's Verify Step by Step》发布于 2023 年 5 月,作者均来自 OpenAI 团队。该工作探讨了 LLM 在复杂多步推理任务中的表现及其可靠性问题。由于多位 o1 核心贡献者都参与了该论文,有说法猜测这是 o1 训练的方法论。[26]

① 该工作对比了结果监督(ORM)和过程监督(PRM)两种方法。ORM 仅使用模型链式思维的最终结果进行训练,而 PRM 对每一步都提供反馈,对每一个正确的推理步骤进行奖励。

② 研究者使用了主动学习策略来提高数据收集效率,使用一个小型奖励模型(PRMselector)对每个问题进行单一样本评分,然后根据这些评分选择最有说服力的错误答案进行人类标注,开发了含 PRM800K 数据集来训练最佳奖励模型。

③ 经测试,过程监督模型在大规模数据集和小规模数据集的表现均优于结果监督模型。在大规模数据集中,PRM 准确率为 86.7%,而 ORM 为 68.9%;在小规模数据集中,PRM 准确率为 78.2%,而结果监督为 77.6%。

④ 研究者还证明了过程监督的其他优势,如更易进行信用分配(credit assignment)、不受对齐税(alignment tax)影响等。

o1有可能推动自然语言处理从数据驱动向知识驱动转变,使模型能够利用外显知识和推理能力进行更深入的语言分析。

o1体现了大模型向AGI方向前进的新趋势,通过增强逻辑推理能力,o1可以处理更复杂的任务。

o1在数学、代码、逻辑推理等方面的能力提升,为解决现实世界复杂问题提供了新的思路和可能性。

o1的突破为「Post-Training Scaling Law」提供了支持,即模型表现不仅与参数量相关,还与训练过程中的强化学习探索有关。

o1的出现可能会催生新的应用场景和商业模式,如基于推理能力的智能客服、自动代码生成工具等。

o1可以促进自然语言理解和生成领域的发展,帮助模型更好地理解和处理人类语言的复杂性和细微差别。

推理能力:虽然o1在推理方面取得了进步,但其推理过程仍有待优化,以增强其可解释性和可靠性。

o1的推出引发了业界对大模型能力上限和未来发展方向的思考和讨论。

o1让人们看到了大语言模型的潜力,同时也引发了对模型可靠性和透明度的担忧。

o1可能反哺GPT-4o,通过提升推理能力,增强整体智力水平。

知识获取:o1需要进一步提升其从外部知识库获取和利用知识的能力,以支持更广泛的推理和解决问题任务。

泛化能力:o1的泛化能力还有待提高,以使其能够在不同领域和任务中有效应用,而不受训练数据的限制。

部分观点认为,o1的突破并没有推翻传统的Scaling Law,它可能只是在搜索技术路线上的探索。

成本效率:o1的训练和部署成本亟需优化,使其能够更广泛地应用于现实世界应用中。

o1的突破激励了研究者们探索新的训练方法和评估指标,为大语言模型的进一步发展提供了新方向。

o1也可能带来一些挑战,如模型偏见、误差传播和可解释性等问题,需要研究者们进一步解决。

安全性:需要探索技术和机制,以确保o1的输出安全、无害且符合道德规范。

可控生成:o1应加强可控生成的训练和评估,使其能够生成满足特定约束和要求的文本。

总之,o1的出现为自然语言处理领域带来了新的机遇和挑战,对其未来发展的影响值得期待。