长链思维:推理模型的“思维模板”新玩法

探索“长链思维”如何赋能推理模型,提升复杂问题解决能力。多种CoT变体涌现,优化推理效率,突破模型上限。

原文标题:Long-CoT 后,推理模型的「思维模板」有哪些新玩法?

原文作者:机器之心

冷月清谈:

本文探讨了基于思维链(CoT)的推理模型如何通过“长链思维”提升在复杂场景下的推理能力。文章首先指出,CoT 为推理模型提供了一套“思维模板”,在后训练中扮演重要角色,能够帮助模型分解问题、逐步阐述解法。随后,文章讨论了如何通过优化“思维模板”提高推理效率,以及哪些“思维模板”能够提高模型的推理能力上限。此外,文章还提到了多模态推理模型的“思维模板”构建问题。近期出现多种 CoT 优化或变体,针对不同场景提供适配的“模板”,以加强模型的推理性能、效率或节省预算。

怜星夜思:

1、文章提到了多种 CoT 的优化变体,例如 XoT、CoX 等,它们在哪些具体场景下能够发挥更大的优势?这些变体之间有什么根本区别?
2、文章中提到,DeepSeek 团队为 R1-Zero 设计了一个简单的 模板。这种模板的有效性体现在哪里?如果没有这个模板,模型会发生什么?
3、文章提到 Long-CoT 数据可以用于 SFT 和 RL 训练,那么,如何保证 Long-CoT 数据的质量?如果数据质量不高,会对模型产生什么负面影响?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


基于思维链(Chain-of-Thought)的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长链思维」的「模板」怎么魔改更高效?哪些「模板」能带来更高的推理能力上限?


目录

01. 推理模型后训练效果好,「思维模板」少不了?
「思维模板」可用在哪些后训练环节?近期有哪些新的模板设计?...
02. 提高推理效率,「思维模板」是如何工作的?
长链思维的模板怎么改更高效?...
03. 哪些「思维模板」能提高模型的推理能力上限?
CoT 怎么设计能让LLM的推理效果更好?把代码改成CoT会更强吗?
04. 多模态推理模型的「思维模板」应如何构建?
多模态推理有哪些思维模板?现有的模板哪些更强?
01  推理模型后训练效果好,「思维模板」少不了?
在 LLMs 中的「推理」仍然是一个有争议的话题,现有的许多模型可以产生看起来逻辑连贯的回应,但它们的推理方式与人类的逻辑推理截然不同。而近期许多推理模型在 test-time Scaling 中取得突破,通过让模型产生更长的 CoT 来实现更强的推理能力,也引发了许多对该技术的深入研究。CoT 如同推理模型提供了一套套「思维模板」,在后训练的多个环节里扮演着重要角色。
1、在推理模型的后训练中,以思维链(CoT)为代表的推理策略的核心在于类似提供一套「思维模板(Template)」,让模型将问题分解为逐步的中间推理步骤,逐步阐述解法,从而提升模型的推理能力。[1-1] 
① 让模型按照思维模板进行推理为研究者提供了观察模型为何会犯错的窗口,从而为优化和 debug 提供了更多机会。
② 让模型按照模板思考适用于数学应用题、常识推理和符号操作,也允许用在其他能用人类通过语言解决的问题,从而加强 few-shot 样例的效果,同时增强准确性和可解释性。
2、 在「思维模板」的探索和优化中,近期如 OpenAI o1、DeepSeek R1 和 Kimi 1.5 等工作证明了将长链思考(Long-CoT)形式的模板用作推理模型后训练,可以有效提高其性能上限,进而带来了更多有关这种推理策略的研究。
① 通过思维模板学会长链思考的模型不仅具有更长的符号长度,还具备「分支和回溯」即「错误验证和纠正」等复杂能力。[1-3] 
② 以 DeepSeek 团队为例,其为 R1-Zero 设计了一个简单的<think><answer>模板来引导模型在强化学习中遵循指令,确保模型在生成答案之前先进行逐步推理,更清晰地表达其思考过程,减少直接跳跃到错误答案的可能性。[1-2] 
③ 仅通过简单的模板,R1-Zero 在训练过程中自然学到了 Long-CoT(长链推理)的能力,即通过生成较长的推理步骤来逐步解决问题,取得了更优的推理效果。[1-2] 
3、当模型遵照「思维模板」学会分步骤推理后,其生成的 CoT 数据,尤其是 Long-CoT 数据能够进一步用作 SFT 和和强化学习中奖励模型或奖励机制的一部分,进一步用作推理模型的训练。[1-2] 
① 在 DeepSeek R1 的训练过程中,研究者通过收集数千条 Long-CoT 数据用作 R1 的冷启动微调,为后续强化学习训练打下基础。
② 在 R1 的推理导向的 RL 训练中,DeepSeek 团队通过语言一致性奖励机制对模型在推理时生成的 CoT 进行评估,从而确保 R1 在处理多语言混合问题时推理过程的可读性。
③ 此外,在训练生成的 checkpoint 通过拒绝采样收集高质量的的推理(Long-CoT)数据可用作新一阶段或新模型的 SFT。DeepSeek 团队用这种方法,通过 R1 训练得到了一系列蒸馏模型。
4、除了 DeepSeek 和 Kimi,近期有许多工作尝试翻新「思维模板」设计,进而带来 许多「XoT」「CoX」等 CoT 的优化或变体,分别针对不同场景的推理任务提供适配的「模板」以加强模型的推理性能、效率或节省预算。

02  提高推理效率,「思维模板」是如何工作的? 
在追求高效推理的过程中,研究者们提出了多种创新的 CoT 模板,旨在减少计算资源的浪费,同时保持模型的准确性和推理能力。这些模板通过优化推理过程、动态调整计算量等方式,实现了在不同场景下的高效推理。近期出现的 Dynasor、LCPO 和 CoD 均尝试设计独特的机制在保证推理质量的同时显著降低计算成本。类应用,另一类是代码工具类应用,包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台......



 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

从信息论的角度来看,Long-CoT 数据可以看作是模型学习推理过程的“信号”。如果数据中包含噪声,即错误的或不相关的推理步骤,那么模型就会学到错误的模式,导致推理能力下降。 为了保证数据质量,可以采用以下方法:一是使用高质量的专家标注数据;二是设计有效的奖励函数,鼓励模型生成正确的推理步骤;三是利用数据增强技术,增加数据的多样性和鲁棒性。 此外,还可以采用一些主动学习的方法,让模型主动选择需要标注的数据,从而提高数据利用率。

可以这样理解,这个模板实际上是在模仿人类解决问题的过程——先思考,再回答。通过强制模型将思考过程显性化,可以提高模型的可解释性。如果没有这个模板,模型可能会直接给出答案,但这种“端到端”的方式缺乏中间推理过程,难以进行有效的监督和干预。此外,显性的思考过程也可以作为一种知识,用于指导模型的后续训练。

我认为保证 Long-CoT 数据质量的关键在于建立一套完善的评估机制。这个机制需要考虑多个维度,例如逻辑一致性、事实准确性、推理深度等。 可以采用人工评估和自动评估相结合的方式,对 Long-CoT 数据进行打分和筛选。此外,还可以引入一些数据增强技术,例如反向推理、推理路径扰动等,来提高数据的多样性和鲁棒性。 如果数据质量不高,可能会导致模型学习到错误的推理模式,从而降低其泛化能力和鲁棒性。

从学术角度讲,CoT 的变体是为了弥补原始 CoT 在某些方面的不足。例如,如果原始 CoT 在处理需要复杂推理链的任务时效率较低,可能就会出现一些变体来优化推理过程,减少计算量。XoT 和 CoX 的根本区别可能在于它们对推理过程的建模方式不同,或者它们利用的外部知识来源不同。评估这些变体的优劣需要严谨的实验设计和统计分析,最好能有公开的数据集和评估指标。

这个问题问得好!XoT、CoX 这些变体就像是给 CoT 这位老朋友换了身行头,让他更适应不同的场合。具体哪个场景更适合哪个变体,这得看咱们想解决什么问题。 比如,如果面对的是需要多轮对话才能搞定的任务,可能 XoT 这种能记住上下文关联的变体就更厉害。而 CoX,如果擅长处理特定类型的数据,那在相关场景下肯定更胜一筹。 至于它们的根本区别,我觉得就像是同样是做饭,有人擅长炒菜,有人擅长煲汤,虽然都是为了填饱肚子,但用的方法和侧重点完全不一样。

我觉得这个<think><answer>模板就像是给模型加了个“思考再回答”的开关。有了它,模型就得先把自己思考的过程写下来,然后再给出答案。 它的有效性在于能让模型的思考过程更透明,方便我们debug。如果没有这个模板,模型可能直接给出答案,虽然速度快了,但就像黑盒一样,我们不知道它为什么会得出这个答案,一旦出错就很难找到原因。

从工程角度来看,<think><answer>模板实际上是一种约束模型输出格式的手段。这种约束带来的好处是多方面的:一是方便后续对模型输出的解析和处理;二是引导模型进行更结构化的思考,避免随意发散;三是有利于奖励模型的训练,因为奖励模型可以更容易地根据<think>部分的内容来判断推理质量。如果缺少这个模板,模型输出可能会变得难以控制,从而影响整体性能。

我倾向于认为,CoT 的各种变体是为了解决原始 CoT 在特定任务上效率或准确性不足的问题而产生的。XoT 和 CoX 的区别可能在于它们优化的侧重点不同。XoT 也许更关注如何更有效地组织和利用知识,而 CoX 则可能更关注如何将 CoT 与其他技术(例如外部知识库或工具)结合使用。要确定它们在哪些场景下表现更好,需要进行大量的实验评估,并深入分析它们在不同任务上的表现。

这个 Long-CoT 数据啊,就像是给模型喂的“营养餐”,营养不好,那肯定长不好! 保证质量,我觉得得从两个方面入手:一是数据源头,得找那些“学霸”生成的推理过程;二是数据清洗,得把那些乱七八糟的、不靠谱的推理过程剔除掉。 如果数据质量不高,轻则模型学歪了,推理能力停滞不前,重则模型直接崩溃,变成人工智障!