人大&通义提出IterResearch:让Agent在40K上下文完成2048轮交互

人大&通义提出IterResearch,Agent在40K上下文内完成2048轮交互不退化,具有Interaction Scaling特性。

原文标题:ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化

原文作者:机器之心

冷月清谈:

当前Search Agent面临上下文管理的挑战,传统ReAct范式在长程任务中易导致上下文窒息和噪声污染。IterResearch 提出一种迭代式深度研究范式,通过马尔可夫决策过程重构工作空间,Agent 在每一轮主动决定信息的保留与丢弃,从而在恒定复杂度的空间中推理。实验表明,IterResearch 具有Interaction Scaling特性,Agent能在更多交互轮次中持续提升性能,且无需微调即可提升闭源模型性能。该研究为长程Agent的能力边界提供了新的方向。

怜星夜思:

1、IterResearch 通过让 Agent 学会“边做边清理”来解决上下文膨胀问题,这个思路在其他 AI 领域,比如图像生成、语音识别等方面,是否有借鉴意义?
2、IterResearch 强调 Interaction Scaling 特性,即 Agent 交互轮数越多,性能越高。但实际应用中,无限增加交互轮数是否可行?是否存在一个“收益递减点”,超过这个点后,增加交互轮数带来的收益会越来越小,甚至适得其反?
3、IterResearch 提到可以将迭代逻辑作为提示策略应用于闭源模型。那么,这种“提示工程”的潜力究竟有多大?是否有可能通过巧妙的提示,让闭源模型在特定任务上达到甚至超越开源模型的水平?

原文内容


以 40K 上下文,让 Agent 搜索 2048 轮,性能还能一路涨?这几乎是不可想象的。


当前主流的 Search Agent 都面临同一个尴尬:Agent 需要反复搜索网页、比对线索、验证假设、回溯修正,交互轮次动辄数十上百轮。但以 ReAct 为代表的传统范式,把每一轮的思考和工具返回结果不断追加到同一个上下文窗口中 —— 做得越多,上下文越臃肿,留给推理的空间越少,早期的噪声和错误路径还被永久「焊死」在记忆里。


结果就是:Agent 搜得越深入,反而「想」得越糊涂。


能不能让 Agent 在探索过程中不断「清理工作台」,始终在一个干净的空间里思考?


来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。


通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。


目前,该论文已被 ICLR 2026 接收。



  • 论文链接:https://arxiv.org/pdf/2511.07327

  • 代码链接:https://github.com/Chen-GX/IterResearch


「堆上下文」为什么难以实现 Interaction Scaling?


在 Search Agent 场景下,Agent 的工作本质上是一个与外部环境不断交互的循环。传统 ReAct 范式将这一过程建模为「单上下文堆叠」:每一轮的推理和工具返回被持续追加到同一个上下文窗口中,形成线性增长的记忆链。


这种看似自然的设计,在长程任务中会引发两个结构性问题:


  • 其一是上下文窒息(context suffocation):上下文窗口的总容量是有限的,历史信息不断堆积意味着留给后续推理的「生成预算」被持续压缩。Agent 被迫给出更短、更浅的回答,最终滑向草率的结论;

  • 其二是噪声污染(noise contamination):搜索过程中产生的大量网页摘要、早期的错误路径和无关线索被永久写入上下文,对后续推理产生级联干扰,信噪比持续走低。


社区已经意识到了这些问题,陆续提出了 context folding、summary 等缓解策略,试图为摇摇欲坠的上下文「续命」。但这些方法本质上是在补救,并未从根本上改变上下文线性增长的结构 —— 给 Agent 256K 甚至更长的窗口,也只是推迟崩溃,而非避免崩溃。


不再「堆叠」,而是「重构」:IterResearch 的核心思路


IterResearch 对这一问题的回应不是修修补补,而是从范式层面重新思考:与其不断往上下文里塞东西,不如让 Agent 学会「边做边清理」。



研究团队将长程研究过程形式化为一个马尔可夫决策过程(MDP)。核心思想是:Agent 不再维护一个不断膨胀的完整历史,而是通过一个持续进化的「演进式报告」(evolving report)来综合已有成果、压缩无关信息、更新推理状态。每一轮推理都在一个被重构过的、恒定复杂度的工作空间中展开。


具体来说,Agent 的每一步包含两个核心动作:


  • 决策阶段:Agent 基于当前状态,输出三部分 —— 思考过程(Think)、更新后的演进报告(Report)和本轮工具调用请求(Action)。报告在这里扮演了「压缩记忆」的角色,Agent 需要在每一轮主动决定哪些信息值得保留,哪些应该被丢弃。

  • 状态转移阶段:进入下一轮时,完整的历史轨迹被有意丢弃,Agent 仅保留更新后的报告、上一轮的工具调用及其返回结果,三者共同构成新的推理起点。


从上下文管理的视角看,传统 ReAct 的状态空间随交互轮次 t 线性增长(O (t)),而 IterResearch 的工作空间始终保持恒定(O (1))。


研究团队指出,这种机制与 RNN/LSTM 中的隐状态更新有结构上的相似性 —— 都通过一个隐状态来承载记忆并逐步更新。不同之处在于,IterResearch 的「隐状态」是一份显式、可解释的研究报告,既能浓缩历史,又能为下一步推理提供清晰的起点。



40K 上下文,2048 轮交互不退化:Interaction Scaling 的威力


这项工作中最核心的发现,就是 Interaction Scaling 特性 —— 给 Agent 更多的交互预算,性能就能持续提升,而不会像传统方法那样因为上下文溢出而崩溃。



在 BrowseComp 基准上,研究团队将 Agent 的最大交互轮次从 2 逐步放宽到 2048。结果显示,IterResearch 的准确率从 3.5% 一路攀升到 42.5%,且在 2048 轮时依然没有出现明显的退化迹象。而传统单上下文方法在几十轮后就已经不堪重负。


值得强调的是,2048 并非 IterResearch 的交互上限,而仅是实验评测范围的终点。模型在 2048 轮时性能曲线仍保持上升趋势,表明该范式在理论上具备进一步扩展的潜力。


这一结果传递了一个重要信号:长程任务的「难」,可能并非完全来自模型推理能力不足,更有可能是探索深度受限。当 Agent 拥有一个干净的思维空间并被允许充分探索时,它确实有能力在超长任务中持续进步。


另一个有意思的发现是:尽管最大轮次被设置为 2048,Agent 实际上平均只用了约 80 轮。它学会了在获取足够信息后主动终止,而非机械地耗尽预算 —— 这说明 Agent 不仅学会了「走得远」,还学会了「知道何时停」。


「即插即用」的推理范式:不训练也能提升闭源模型


如果仅把 IterResearch 的迭代逻辑作为提示策略(prompting strategy),直接应用于闭源模型而不做任何训练,效果会怎样?


研究团队在 o3 和 DeepSeek-V3.1 上做了验证。在完全相同的任务设定下,相比传统的 ReAct 提示范式,IterResearch 在最具挑战性的 BrowseComp 上分别为 o3 带来了 12.7 个百分点、为 DeepSeek-V3.1 带来了 19.2 个百分点的提升。



这说明 IterResearch 的核心优势在于结构性的认知机制,而非依赖特定数据或微调技巧。无论底层模型是什么架构,它触及的都是长程推理中的共性瓶颈。


总结


IterResearch 提出了一个简洁而有效的范式转换:与其不断修补一个注定会崩溃的线性上下文,不如从结构上让 Agent 学会「边做边重构思维」。


这一思路在训练框架、提示策略和跨范式迁移三个层面都展现了一致的有效性,而其揭示的 Interaction Scaling 特性更是为长程 Agent 的能力边界打开了新的想象空间。在 Agent 走向真正长期、持续运行的未来,IterResearch 提供了一个值得关注的方向。


作者介绍


第一作者陈国鑫,中国人民大学高瓴人工智能学院博士生,导师为赵鑫教授和宋睿华教授,研究方向为 LLM 推理与 Agent,聚焦搜索智能体与代码智能体。曾在阿里巴巴通义实验室等机构实习,在 ICLR、ICML、NeurIPS、ACL 等顶级会议发表多篇论文。本工作由中国人民大学与阿里巴巴通义实验室合作完成。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得“演进式报告”的设计核心在于平衡信息的精简度和完整度。一方面,要像记者写摘要一样,抓住核心论点和关键证据;另一方面,又不能丢失上下文,避免后续推理时出现信息缺失。可以考虑引入attention机制,让Agent自己学习哪些信息更重要。当然,这涉及到大量的实验和调优,需要根据具体应用场景来摸索。

从信息论的角度来看,演进式报告的目标是最大化互信息,即报告内容与原始历史信息之间的相关性。设计报告时,可以考虑使用一些信息论的方法,例如最小描述长度(MDL)原则,来选择最能代表历史信息且复杂度最低的报告。此外,还可以借鉴知识图谱的思想,将Agent的知识表示成图结构,然后使用图嵌入等技术来生成报告。

理论上来说,Interaction Scaling肯定会有一个收益递减点。毕竟,任何模型的能力都是有限的。当Agent学到的知识足够多时,再多的交互也无法带来显著的提升。而且,随着交互轮次的增加,Agent可能会面临“过拟合”的问题,即过于关注细节而忽略了全局。

图像生成可以参考 attention 机制,让模型关注重要的像素点,从而忽略背景等噪声信息,另外可以参考由粗到精的生成方式,先生成图片的整体框架,然后逐步细化,避免一开始就陷入细节而迷失方向。
语音识别的话,我觉得可以参考目前主流的 transformer 架构,它对长序列的处理能力非常出色,也能避免像 RNN 那样的信息丢失问题。当然,也可以考虑在 transformer 的基础上,引入一些记忆机制,让模型能够更好地记住历史信息,并在需要的时候进行回顾。

我觉得这个思路很有启发性,尤其是在处理长序列数据时。在图像生成领域,可以借鉴这种“边做边清理”的思想,例如,在生成对抗网络(GANs)中,判别器可能会受到生成器早期生成的不真实图像的影响,导致训练不稳定。通过引入类似 IterResearch 的机制,让判别器能够“遗忘”早期生成的图像,可能有助于提高 GANs 的训练效果。同样,在语音识别领域,一些模型可能会受到长语音开头部分的噪声干扰,导致整体识别准确率下降。通过引入“遗忘”机制,可以让模型更加关注语音的有效部分,从而提高识别的鲁棒性。

我觉得“收益递减点”肯定是存在的。首先,从信息论的角度来讲,随着交互轮数的增加,Agent 获取的信息熵会逐渐饱和,新增信息带来的价值会越来越小。其次,从认知心理学的角度来讲,人类的认知资源是有限的,长时间的思考和决策会导致疲劳和认知偏差。同样,对于 Agent 来说,过多的交互轮数可能会导致其陷入局部最优解,难以跳出思维定势。因此,在实际应用中,我们需要根据任务的特点和 Agent 的能力,合理设置交互轮数的上限,避免过度探索。

你说的很对,收益递减是必然存在的。现实世界的任务往往存在信息冗余和噪声,Agent 在达到一定程度的理解后,继续探索可能只会陷入细节的泥潭,反而影响判断。而且,过多的交互也会带来更高的计算成本和时间成本。因此,我们需要找到一个平衡点,在保证探索深度的同时,避免过度探索带来的负面影响。这个平衡点可能与任务的复杂度、Agent 的能力以及环境的特征有关,需要具体问题具体分析。

这个问题很有意思!图像生成和语音识别也面临信息过载的问题。例如,在图像生成中,如果模型需要逐步完善图像细节,如何避免早期生成的粗糙轮廓对后续精细化过程造成干扰?在语音识别中,如何处理长语音中的噪声和口音差异?或许我们可以借鉴 IterResearch 的思路,让模型在生成或识别过程中,动态地清理和重构内部表征,只保留对当前步骤最关键的信息。图像生成可以尝试在细化阶段屏蔽低分辨率特征,语音识别可以尝试在识别过程中进行口音迁移。

提示工程就像是给闭源模型开了个“外挂”,能让它在某些任务上表现更好。但要说完全超越开源模型,我觉得有点难。开源模型的优势在于透明度和可定制性,我们可以根据自己的需求进行修改和优化。而闭源模型就像一个“黑盒子”,我们只能通过提示来影响它的输出,没办法改变它的内部结构。所以,提示工程更像是一种“锦上添花”,而不是“雪中送炭”。

提示工程的潜力确实非常大,但要超越开源模型,我觉得还是有难度的。闭源模型背后往往有强大的数据和算力支撑,模型规模也更大。提示工程可以引导闭源模型更好地利用其已有的知识,但在模型结构和知识边界上,提示的作用是有限的。不过,在特定任务上,如果提示设计得非常巧妙,充分激发了闭源模型的潜力,确实有可能达到接近甚至超越开源模型的水平。但这更多的是一种“巧劲”,而非根本性的超越。

我认为在某些特定领域,提示工程完全有可能让闭源模型超越开源模型。原因在于,闭源模型通常拥有更加庞大的训练数据集,这些数据可能包含了大量特定领域的知识。而开源模型往往受限于数据获取和算力资源,难以达到闭源模型的水平。通过精心设计的提示,我们可以引导闭源模型充分利用其特定领域的知识,从而在相关任务上取得更好的表现。当然,这种超越是有前提的,即提示必须能够有效地引导模型,并且任务必须与模型训练数据高度相关。

从工程角度看,无限增加交互轮数肯定不现实。算力是有限的,时间也是金钱啊!假设 Agent 每轮交互都要搜索网页、分析数据,那成本会非常高。而且,随着轮数增加,Agent 可能会遇到各种意想不到的错误,比如网络故障、数据源失效等等,这些都会影响最终结果。所以,我们需要设计一个合理的“停止策略”,让 Agent 在达到一定目标后,能够主动停止探索,而不是一直死磕到底。