MetaGPT团队提出“原子化思考 (AoT)”,AI推理新范式:像人类一样思考

MetaGPT团队提出“原子化思考 (AoT)”,将复杂问题拆解为独立“原子问题”,无需依赖历史信息,提升AI推理效率和准确性。

原文标题:AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

原文作者:机器之心

冷月清谈:

MetaGPT团队提出了名为“Atom of Thoughts (AoT)”的全新推理框架,旨在解决大语言模型在推理过程中过度依赖历史信息的问题。AoT的核心思想是将复杂问题拆解为一系列相互独立的“原子问题”,通过马尔可夫过程进行状态转移,逐步简化问题直至易于求解。这种“原子化思考”方式摆脱了对完整历史信息的依赖,提高了推理效率和稳健性。AoT具有良好的通用性和可扩展性,可以作为插件集成到现有的推理框架和模型中,显著提升多跳推理等复杂任务的性能。Christopher Manning等AI大佬纷纷点赞,开源社区也已开放代码,欢迎开发者和研究者试用。

怜星夜思:

1、AoT的核心思想是通过将复杂问题分解为原子问题来简化推理,你觉得这种思路在其他领域(如软件开发、项目管理等)是否也有借鉴意义?
2、文章提到AoT可以作为插件集成到现有推理框架中,你认为这种即插即用的特性,对AI技术的普及和应用会产生什么影响?
3、AoT在多跳问答任务中表现出色,甚至超越了一些大型推理模型,你认为AoT的核心优势是什么?未来还有哪些潜在的应用场景?

原文内容


AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学(广州)的博士生张佳钇和助理教授骆昱宇。


  • 论文标题:Atom of Thoughts for Markov LLM Test-Time Scaling
  • 论文地址:https://arxiv.org/abs/2502.12018
  • 项目地址:https://github.com/qixucen/atom

从 “长链推理” 到 “原子思维”:AoT 的诞生

大语言模型(LLM)近年来凭借训练时扩展(train-time scaling)取得了显著性能提升。然而,随着模型规模和数据量的瓶颈显现,测试时扩展(test-time scaling)成为进一步释放潜力的新方向。然而,无论是思维链(CoT)、思维树(ToT)等提示策略和推理框架,还是 OpenAI o1/o3 和 DeepSeek-R1 等推理模型,在推理时都过度依赖完整历史信息,导致计算资源浪费,同时冗余信息干扰有效推理。

具体来说,基于链的方法每进行一步推理,都需回顾已有的完整链条;基于树的方法则需要追踪祖先和同层节点;基于图的方法允许节点任意连接,进一步加重了历史信息依赖,导致计算复杂度上升。随着推理规模扩大,特别是以 OpenAI 的 o1/o3 和 DeepSeek-R1 为代表的推理模型,飙升的计算资源需求用于处理不断积累的历史信息。相比之下,人类推理倾向于将复杂问题拆分为独立的子问题,逐步解决并整合后续推理所需的信息,而不执着于保留每步细节。这种 “原子化思考” 启发了 AoT 的设计,使其专注当前状态的推理,摒弃历史依赖。

基于此观察,研究人员推出了 Atom of Thoughts(AoT),AoT 的核心洞察是:复杂推理可通过一系列轻量的 “原子问题” 实现,这些问题的执行仅依赖自身,摆脱历史信息依赖。AoT 将推理过程构建为马尔可夫过程(Markov process),通过不断进行状态转移,逐步简化问题并始终保持和原问题等价,最终求解轻量的原子问题来回答原问题。

AoT 论文 X 平台获得近 40 万浏览量,并获 NLP 巨匠、2024 冯诺伊曼奖得主 Christopher Manning 转发。

AoT 如何推理?
由拆解收缩双阶段组成的马尔可夫转移过程

在马尔可夫过程中,状态从原问题 Q0 初始化,问题所需的推理时间可通过拆解生成的 DAG 结构复杂度反映。随着拆解和收缩迭代,当前状态 Qi 的推理时间逐步降低。

AoT 的一次状态转移由两个核心步骤组成:拆解(Decomposition)和收缩(Contraction)。这两个步骤共同完成一次状态转换,生成一个简化的问题作为下一轮拆解与收缩的 “原问题”。这一过程不断迭代,直到达到最大次数限制 —— 该限制由首次拆解生成的图的深度确定,以避免无限循环。

1. 拆解(Decomposition)

AoT 首先将当前问题分解为一个临时的、基于依赖关系的有向无环图(DAG)。在这个 DAG 中,节点代表子问题,边则表示它们之间的依赖关系。临时 DAG 提供的结构信息为后续收缩阶段奠定了基础,帮助消除因复杂结构带来的历史信息负担。

2. 收缩(Contraction)

拆解完成后,DAG 以规则化的方式区分子问题:无入边的节点被定义为独立子问题,有入边的节点被定义为依赖子问题。独立子问题的信息转化为已知条件,依赖子问题的描述则被整合为一个更简洁的独立问题,从而形成新的原子状态。这一状态的答案与前一状态的问题保持等价。由于马尔可夫过程从原问题初始化,所有状态均与原问题维持等价关系。

AoT 马尔可夫式的状态转移和原子化的状态表示极大地消除了对历史信息的依赖,将计算资源聚焦于当前的原子问题,提高推理的稳健性。

原子性带来即插即用
兼容一切框架和模型

主实验结果,其中评估了三个变体:基础版本(AoT),作为插件与 FoT 集成的版本(AoT (d=1)+FoT (n=2)),以及一个计算密集型版本(AoT∗)

AoT 不仅是一个独立的推理框架,更是一个强大的插件。其每一次状态转移得到的原子状态中的问题都可以无缝嵌入现有的推理手段,无论是提示策略、推理框架,代理工作流还是多智能体代理系统,AoT 都能通过预处理简化输入问题,同时保持答案等价性,来优化后续推理效率和效果。

在 MATH 数据集上的性能比较。绿色线条显示 FoT 在不同树数(2^k,k=0,1,2,…)下 scaling 的情况,而灰色趋势线(代表其他基线方法)则共同展示了性能提升与计算成本之间的权衡。AoT(d=1)结合 FoT(n=2)在保持较低计算需求的同时,达到了稍优于 FoT(n=8)的性能。

AoT 的原子性设计天然契合多跳推理场景的需求。QwQ-32B-Preview、DeepSeek-R1 和 o3-mini 等模型通过延长思维链展现出强大的推理能力。例如以 gpt-4o-mini 作为执行模型的 AFlow 在多跳任务中仍与 o3-mini 的直接求解存在差距。然而,AoT 通过原子化分解,使得即便仅以 gpt-4o-mini 这种短思维链模型作为推理基座,也能在性能上超越这些强大的长思维链模型。更进一步,当 o3-mini 被用作 AoT 的推理基座时,原子性设计的优势得以充分发挥,带来更加显著的性能提升。

多跳问答任务中推理模型性能比较

开源与社区


AoT 延续了 MetaGPT 社区的开源精神,代码已公开于 GitHub。欢迎开发者与研究者尝试 AoT,无论是独立使用还是集成到现有方法,并持续关注后续研究和功能更新。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

即插即用绝对是王道!想想电脑的USB接口,极大地简化了硬件连接和使用。AoT如果能做到像USB一样方便,就能降低AI的使用门槛,让更多人能用上更强大的AI能力,加速AI技术的普及。

我觉得吧,在软件开发中,我们可以借鉴AoT的思想,将大型项目分解为小的、可管理的模块(原子任务),每个模块专注于完成特定的功能,并通过清晰定义的接口进行交互。这样不仅可以提高开发效率,而且更容易进行测试和维护,有点像微服务架构的意思了。

在项目管理中,WBS(工作分解结构)就是一个很好的例子。通过将项目目标分解为更小的、可交付的任务,可以更好地进行资源分配、进度控制和风险管理。每个任务就像一个原子问题,专注解决一个特定的方面,从而实现整个项目目标的达成。

谢邀,人在工地,刚下航母。
AoT这种思路,让我想起了咱们搞工程的“单元格法”。把整个工程分解成一个个小的、标准化的单元格,每个单元格的任务明确,责任到人。这样不仅施工效率高,而且质量也更容易保证。而且出了问题,也容易定位,快速解决。所以说,万变不离其宗嘛,各行各业都有共通之处。

AoT的核心优势在于其原子化的分解能力和马尔可夫式的状态转移过程。通过将复杂问题分解为一系列独立的原子问题,AoT可以有效地减少对历史信息的依赖,降低计算复杂度,并提高推理的稳健性。

未来,AoT在智能客服、智能投顾、智能制造等领域都有很大的应用潜力。例如,在智能客服中,AoT可以将用户提出的复杂问题分解为多个简单的子问题,逐一解决,最终给出完整的答案。在智能投顾中,AoT可以分析用户的投资偏好和风险承受能力,并将投资目标分解为多个阶段性的任务,逐步实现投资目标。

将复杂问题拆解为小而独立的原子任务,这个思路绝对有普适性啊!软件开发里的模块化设计,项目管理里的WBS(Work Breakdown Structure)工作分解结构,本质上都是异曲同工。把大问题拆小,各个击破肯定更高效。

AoT的核心优势我认为是它抓住了人类思考的本质——化繁为简。多跳推理说白了就是多个简单推理的组合。AoT把复杂问题拆成原子问题,各个击破,自然更有效率。至于未来应用…感觉需要复杂决策的场景都可以试试,比如金融风控,医疗诊断啥的。

想象一下,以后开发AI应用就像搭积木一样,各种AI模块像乐高积木一样,可以随意组合和拼装。AoT这种即插即用的特性,让开发者可以快速构建各种各样的AI应用,极大地提高了开发效率。而且,用户也可以根据自己的需求,定制个性化的AI服务,AI不再是高高在上的技术,而是触手可及的工具。

这种即插即用的特性,我认为会极大地加速AI技术的普及和应用。一方面,它可以降低AI开发和应用的门槛,让更多的开发者和企业能够快速地集成和使用AI技术。另一方面,它可以促进AI技术的创新和发展,让开发者能够更加专注于解决特定领域的问题,而无需从头开始构建整个AI系统。

当然,这种即插即用的特性也带来了一些挑战,比如需要有统一的标准和接口规范,以确保不同AI模块之间的互操作性。但是,我相信随着AI技术的不断发展,这些问题最终都会得到解决。

我觉得AoT最牛的地方在于,它让小模型也能发挥大作用!以前我们总觉得模型越大越好,参数越多越强。但AoT证明了,好的算法可以弥补模型规模的不足。未来在资源受限的场景下,比如移动设备、嵌入式系统,AoT的应用前景非常广阔。说不定以后手机上的AI都靠它了!