CoRT:递归思考能否提升LLM推理能力?网友热议“新瓶装旧酒”?

CoRT通过递归思考和自我批判增强LLM推理力,但被质疑是“新瓶装旧酒”,类似于现有模型的自我反驳机制。

原文标题:强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?

原文作者:机器之心

冷月清谈:

一篇关于CoRT(Chain-of-Recursive-Thoughts)的文章,CoRT通过递归思考和自我批判来提升语言模型的推理能力。与传统的CoT相比,CoRT让模型能够反复检查和修正思考过程,形成反思性思维。CoRT的关键在于自我评估、有竞争力的替代生成方案、迭代优化和动态思维深度。但有网友认为CoRT本质上是“新瓶装旧酒”,类似于现有的LLM思考模式和自我反驳机制。

怜星夜思:

1、CoRT 这种递归思考模式,除了提升编程任务的表现,还能在哪些实际场景中发挥作用?
2、文章提到 CoRT 包含“自我评估”环节,那么 AI 如何客观地评估自己的答案?评估标准从何而来?
3、CoRT 被一些人认为是“新瓶装旧酒”,那么它与现有的 LLM 思考模式(比如 Qwen 和 R1 的“but wait”模式)相比,核心区别在哪里?

原文内容

机器之心报道

编辑:杜伟

递归思考 + 自我批判,CoRT 能带来 LLM 推理力的飞跃吗?


CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。


这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了!从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。


具体来讲,CoRT 能让 AI 模型递归地思考它们的响应,生成替代性方案,并从中选择最佳的一个。


这就像赋予了 AI 自我质疑或反驳的能力,并一遍一遍地尝试。


通过将「结构化自我批判」和「递归思考模式」结合起来,提升语言模型的推理能力。



短短两周时间,CoRT 在 GitHub 的星标数已经快突破 2k 了。



GitHub 地址:https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts


从技术原理来讲,相较于传统的 CoT,CoRT 让语言模型不仅能分步骤思考,还能在思考过程中反复回头检查、修正,形成类似于人类的「反思性思维」或「内省」的推理路径。


然而,很多网友对 CoRT 的出现并没有感到太激动。CoRT 是让 LLM 更努力思考的不错技巧,但称不上什么新颖的 idea。它的工作原理就像一个加入了递归组件的元提示(meta-prompt)。




还有网友指出,这种方法在 2023 年的论文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出现了。



有网友发出疑问:CoRT 不就是现在大多数 LLM 的思考模式吗?



比如在 Cursor 中配置的 Gemini 2.5 Pro,它的 CoT 就是这样做的。模型会思考一分钟,并反驳自己的答案,直到找到最无力反驳的答案。



再比如,CoRT 不就是 Qwen 和 R1 中的「but wait」模式吗?模型一直思考,并自我反驳,两者似乎没有什么不同。



大家觉得,CoRT 是不是「新瓶装旧酒」呢?请在评论区留言。


项目介绍


根据项目介绍,CoRT 的诀窍在于以下四个方面:


  • 自我评估;

  • 有竞争力的替代生成方案;

  • 迭代优化;

  • 动态思维深度。


工作流程包括了以下四个步骤:


首先,AI 生成初始响应。


其次,AI 决定它需要多少轮「思考」。


接着,对于每一轮思考:


  • 生成 3 个替代性响应;

  • 评估所有响应;

  • 选择最佳响应。


最后,最终响应就是这场 AI 大混战的幸存者。


Web 界面使用方式(仍处于早期开发阶段)


一,打开 start_recthink.bat


二,等待一会,让它安装依赖项


三,配置成功


如果你是运行在 linux 系统上,则依如下:



打开一个新的壳层(shell):



效果怎么样呢?


作者使用 Mistral 3.1 24B 进行了测试,根据他的说法,CoRT 在编程任务中的表现从「meh」(一般般)升到了「holy crap」(碉堡了)。


我们来看一下示例,下图为 Mistral 3.1 24B+CoRT:



下图为 Mistral 3.1 24B 无 CoRT:



从结果来看,使用 CoRT 前后,Tic-tac-toe(井字棋)游戏从基础的 CLI(命令行界面)变成了完全的 OOP(面向对象编程)。


参考链接:https://x.com/omarsar0/status/1917401353061818478


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

CoRT 强调的是结构化的递归思考过程,它明确地将思考过程分解为生成替代方案、评估和选择等步骤,并进行多轮迭代。而“but wait”模式可能更偏向于一种随机的自我反驳机制,缺乏明确的结构和目标。

AI 的自我评估,说白了还是基于预先设定的规则和数据集。它会根据一些指标,比如准确率、流畅度、逻辑一致性等,来判断哪个答案更好。但是,这些标准本身也可能存在偏见,所以 AI 的评估结果并不一定是完全客观的。

我觉得在需要创造性解决问题的领域,CoRT 可能会很有潜力,比如头脑风暴或者艺术设计。让 AI 不断生成新的想法,并自我评估和改进,没准能碰撞出意想不到的火花呢!

从技术角度来看,CoRT 可能会引入一些新的技术手段,比如更复杂的注意力机制、更精细的奖励模型等,从而提高自我评估和选择的准确性。但是,这些技术手段是否真的能带来质的飞跃,还有待进一步验证。我比较期待看到更详细的对比实验,看看CoRT在各种 benchmark 上的表现。

这很难说,我觉得现在让AI完全客观的评估自己还是比较困难的。不过,如果它能利用对抗性训练,不断地用不同的方式挑战自己的答案,或许能找到一些漏洞,从而提高评估的准确性。就好像左右互搏一样,自己跟自己打架。

我觉得CoRT这种自我反思的模式,用在客服或者心理咨询方面应该会不错。先给出一个初步答案,然后自己再找找这个答案的漏洞,看看有没有更好的说法,避免一上来就说错话,得罪客户。

一种比较理想的评估方式是引入外部知识库或专家反馈。例如,对于事实性问题,AI 可以检索维基百科或专业数据库来验证答案的准确性;对于开放性问题,可以让人类专家对 AI 生成的答案进行评分和反馈,从而不断优化评估标准。

我觉得CoRT可能更像是一个“精装修”版的“but wait”。两者本质上都是让模型进行自我反思,但CoRT提供了一套更完善的流程和工具,帮助模型更有效地进行反思和改进。就好比都是做饭,一个是简单的炒菜,一个是按照菜谱一步一步来,做出一道色香味俱全的大餐。

从学术角度看,CoRT 的递归特性可能更适合用于需要深度推理和复杂问题分解的场景,例如法律条文分析、医疗诊断辅助等。通过多轮迭代和自我验证,CoRT 或许能降低错误率,提高决策质量。