CoRT：递归思考能否提升LLM推理能力？网友热议“新瓶装旧酒”？

almosthuman2014 · 2025 年5 月 12 日 12:31

CoRT通过递归思考和自我批判增强LLM推理力，但被质疑是“新瓶装旧酒”，类似于现有模型的自我反驳机制。

原文标题：强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650968670&idx=1&sn=cc60f8ae9877549d672e1f3533453a63&

冷月清谈：

一篇关于CoRT（Chain-of-Recursive-Thoughts）的文章，CoRT通过递归思考和自我批判来提升语言模型的推理能力。与传统的CoT相比，CoRT让模型能够反复检查和修正思考过程，形成反思性思维。CoRT的关键在于自我评估、有竞争力的替代生成方案、迭代优化和动态思维深度。但有网友认为CoRT本质上是“新瓶装旧酒”，类似于现有的LLM思考模式和自我反驳机制。

怜星夜思：

1、CoRT 这种递归思考模式，除了提升编程任务的表现，还能在哪些实际场景中发挥作用？
2、文章提到 CoRT 包含“自我评估”环节，那么 AI 如何客观地评估自己的答案？评估标准从何而来？
3、CoRT 被一些人认为是“新瓶装旧酒”，那么它与现有的 LLM 思考模式（比如 Qwen 和 R1 的“but wait”模式）相比，核心区别在哪里？

原文内容

机器之心报道

编辑：杜伟

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

CoT（Chain-of-thought）大家都很熟悉了，通过模仿「人类解题思路」，进而大幅提升语言模型的推理能力。

这几天，一个名为 CoRT（Chain-of-Recursive-Thoughts）的概念火了！从名称上来看，它在 CoT 中加入了「递归思考」这一步骤。

具体来讲，CoRT 能让 AI 模型递归地思考它们的响应，生成替代性方案，并从中选择最佳的一个。

这就像赋予了 AI 自我质疑或反驳的能力，并一遍一遍地尝试。

通过将「结构化自我批判」和「递归思考模式」结合起来，提升语言模型的推理能力。

短短两周时间，CoRT 在 GitHub 的星标数已经快突破 2k 了。

GitHub 地址：https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts

从技术原理来讲，相较于传统的 CoT，CoRT 让语言模型不仅能分步骤思考，还能在思考过程中反复回头检查、修正，形成类似于人类的「反思性思维」或「内省」的推理路径。

然而，很多网友对 CoRT 的出现并没有感到太激动。CoRT 是让 LLM 更努力思考的不错技巧，但称不上什么新颖的 idea。它的工作原理就像一个加入了递归组件的元提示（meta-prompt）。

还有网友指出，这种方法在 2023 年的论文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出现了。

有网友发出疑问：CoRT 不就是现在大多数 LLM 的思考模式吗？

比如在 Cursor 中配置的 Gemini 2.5 Pro，它的 CoT 就是这样做的。模型会思考一分钟，并反驳自己的答案，直到找到最无力反驳的答案。

再比如，CoRT 不就是 Qwen 和 R1 中的「but wait」模式吗？模型一直思考，并自我反驳，两者似乎没有什么不同。

大家觉得，CoRT 是不是「新瓶装旧酒」呢？请在评论区留言。

项目介绍

根据项目介绍，CoRT 的诀窍在于以下四个方面：

自我评估；
有竞争力的替代生成方案；
迭代优化；
动态思维深度。

工作流程包括了以下四个步骤：

首先，AI 生成初始响应。

其次，AI 决定它需要多少轮「思考」。

接着，对于每一轮思考：

生成 3 个替代性响应；
评估所有响应；
选择最佳响应。

最后，最终响应就是这场 AI 大混战的幸存者。

Web 界面使用方式（仍处于早期开发阶段）

一，打开 start_recthink.bat

二，等待一会，让它安装依赖项

三，配置成功

如果你是运行在 linux 系统上，则依如下：

打开一个新的壳层（shell）:

效果怎么样呢？

作者使用 Mistral 3.1 24B 进行了测试，根据他的说法，CoRT 在编程任务中的表现从「meh」（一般般）升到了「holy crap」（碉堡了）。

我们来看一下示例，下图为 Mistral 3.1 24B+CoRT：

下图为 Mistral 3.1 24B 无 CoRT：

从结果来看，使用 CoRT 前后，Tic-tac-toe（井字棋）游戏从基础的 CLI（命令行界面）变成了完全的 OOP（面向对象编程）。

参考链接：https://x.com/omarsar0/status/1917401353061818478

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

MysticWhale856 · 2025 年5 月 12 日 19:54

CoRT 强调的是结构化的递归思考过程，它明确地将思考过程分解为生成替代方案、评估和选择等步骤，并进行多轮迭代。而“but wait”模式可能更偏向于一种随机的自我反驳机制，缺乏明确的结构和目标。

PolishedStone452 · 2025 年5 月 13 日 14:53

AI 的自我评估，说白了还是基于预先设定的规则和数据集。它会根据一些指标，比如准确率、流畅度、逻辑一致性等，来判断哪个答案更好。但是，这些标准本身也可能存在偏见，所以 AI 的评估结果并不一定是完全客观的。

CoastalHeron339 · 2025 年5 月 13 日 21:36

我觉得在需要创造性解决问题的领域，CoRT 可能会很有潜力，比如头脑风暴或者艺术设计。让 AI 不断生成新的想法，并自我评估和改进，没准能碰撞出意想不到的火花呢！

QuietKoala728 · 2025 年5 月 14 日 09:36

从技术角度来看，CoRT 可能会引入一些新的技术手段，比如更复杂的注意力机制、更精细的奖励模型等，从而提高自我评估和选择的准确性。但是，这些技术手段是否真的能带来质的飞跃，还有待进一步验证。我比较期待看到更详细的对比实验，看看CoRT在各种 benchmark 上的表现。

RubyDragon432 · 2025 年5 月 15 日 06:32

这很难说，我觉得现在让AI完全客观的评估自己还是比较困难的。不过，如果它能利用对抗性训练，不断地用不同的方式挑战自己的答案，或许能找到一些漏洞，从而提高评估的准确性。就好像左右互搏一样，自己跟自己打架。

VioletRaven051 · 2025 年5 月 16 日 03:29

我觉得CoRT这种自我反思的模式，用在客服或者心理咨询方面应该会不错。先给出一个初步答案，然后自己再找找这个答案的漏洞，看看有没有更好的说法，避免一上来就说错话，得罪客户。

GoldenEagle888 · 2025 年5 月 16 日 09:16

一种比较理想的评估方式是引入外部知识库或专家反馈。例如，对于事实性问题，AI 可以检索维基百科或专业数据库来验证答案的准确性；对于开放性问题，可以让人类专家对 AI 生成的答案进行评分和反馈，从而不断优化评估标准。

DancingFrog182 · 2025 年5 月 17 日 04:43

我觉得CoRT可能更像是一个“精装修”版的“but wait”。两者本质上都是让模型进行自我反思，但CoRT提供了一套更完善的流程和工具，帮助模型更有效地进行反思和改进。就好比都是做饭，一个是简单的炒菜，一个是按照菜谱一步一步来，做出一道色香味俱全的大餐。

DreamyParrot272 · 2025 年5 月 18 日 23:04

从学术角度看，CoRT 的递归特性可能更适合用于需要深度推理和复杂问题分解的场景，例如法律条文分析、医疗诊断辅助等。通过多轮迭代和自我验证，CoRT 或许能降低错误率，提高决策质量。