RAGEN:DeepSeek前员工联手李飞飞开源框架,提升AI智能体推理能力

RAGEN是由DeepSeek前员工等人推出的新框架,旨在提升AI智能体在真实世界中的推理能力和稳定性,通过强化学习和优化策略,让AI更好地理解和适应复杂任务。

原文标题:AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理

原文作者:AI前线

冷月清谈:

本文介绍了由前DeepSeek研究员王子涵主导,与李飞飞等合作推出的新系统RAGEN,旨在提升AI智能体在真实世界中的稳定性和可靠性。RAGEN构建于StarPO强化学习框架之上,让LLM通过“经验”学习而非“死记硬背”,重点训练智能体完成完整的决策路径。为解决训练中模型容易“崩溃”的问题,RAGEN提出了增强版本StarPO-S,引入了基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁等机制。实验结果表明,RAGEN及其配套框架能有效提升智能体的决策能力和训练稳定性。尽管RAGEN在技术上有所突破,但应用到真实企业环境仍面临挑战,如如何处理抽象符号类问题,以及如何保证在开放式任务中始终维持推理能力。RAGEN的意义在于,它标志着我们向“具备自主推理能力的智能体”的目标迈进了一步。

怜星夜思:

1、RAGEN 通过强化学习来提升 AI 智能体的推理能力,但文章也提到了“回声陷阱”问题。除了文章中提到的方法,你认为还有哪些策略可以帮助 AI 智能体跳出“回声陷阱”,避免推理能力退化?
2、RAGEN 目前主要处理的是高度抽象的符号类问题。你认为将 RAGEN 应用到更复杂的、非符号类的实际业务场景中,最大的挑战会是什么?
3、文章提到 RAGEN 的一个目标是训练出“具备自主推理能力的智能体”。在你看来,“自主推理能力” 的核心是什么?你认为目前 AI 在实现真正 “自主推理” 的道路上,还有哪些关键的瓶颈需要突破?

原文内容

编译 | Tina

很多人都觉得 2025 年会是“AI 智能体元年”,也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等机构提供的大语言模型,打造专注特定任务的智能体系统。

但是,最近在社交平台 X 上有个调查显示,现在大部分 Agent 都在“玩票”阶段,还没真正走出实验室,普遍滞留在“企业试点”的状态中。

不过,李飞飞所在的一支团队或许即将带来改变:他们与西北大学、微软、斯坦福大学和华盛顿大学的研究人员合作,最近推出了一套名为 RAGEN 的新系统。这个系统旨在提升人工智能在真实世界,尤其是在企业应用中的稳定性和可靠性。

据悉,该项目由前 DeepSeek 研究员、现就读于西北大学计算机科学博士的王子涵主导。王子涵研究聚焦于大语言模型(Foundation Models)的自主性、效率以及长文本理解。此前,王子涵曾在 DeepSeek 担任研究员,并参与了 DeepSeek-V2 等重要项目。

推理智能体训练框架已开源

与解题或代码生成等静态任务不同,RAGEN 聚焦在多轮交互场景中训练智能体,要求它们能在不确定性中进行推理、记忆历史对话并灵活应对变化。

RAGEN 构建于一个名为 StarPO(State-Thinking-Actions-Reward Policy Optimization,即“状态 - 思维 - 动作 - 奖励 策略优化”)的定制强化学习框架之上,核心思想是让 LLM 通过“经验”学习而非“死记硬背”。系统重点在于训练智能体完成完整的决策路径,而不是仅仅优化某一次回答。

StarPO 包括两个交替进行的阶段:在 rollout 阶段,LLM 基于推理生成完整的交互序列;而在 update 阶段,模型根据归一化后的累计奖励进行参数更新。相比传统的策略优化方法,这种设计让训练过程更加稳定,学习结果也更易于解释。

研究团队在实验中使用了阿里巴巴开源的 Qwen 系列模型(包括 Qwen 1.5 和 Qwen 2.5)作为基础语言模型进行微调。这些模型具有开放权重、指令执行能力强等优点,有助于确保实验结果的可复现性,并支持在符号任务上的一致性对比。

这一系统为有志于开发更具“思考力、规划能力和自我进化能力”的 AI 智能体提供了坚实基础。RAGEN 不只是关注任务是否完成,更重视模型是否真正经历了学习与推理过程。随着 AI 技术朝着更高程度的自主性发展,像 RAGEN 这样的项目正在帮助我们理解:如何训练出不仅依赖数据、还能从自身行为后果中学习的模型。

RAGEN 及其配套的 StarPO 和 StarPO-S 框架现已开源,项目托管于 GitHub 上,采用的是 MIT 协议。

GitHub 地址:https://github.com/RAGEN-AI/RAGEN

Agent 强化学习训练如何才能不崩溃?

王子涵在一条广泛传播的 X 贴文中指出了训练中的核心难题:为什么 RL(强化学习)训练总是会“崩”?

团队发现,训练初期的智能体通常能生成结构清晰、逻辑合理的回答,但随着训练推进,强化学习系统更倾向于奖励“捷径式”回答,最终导致模型反复输出相似内容、推理能力逐渐退化。这种现象被他们称为“回声陷阱(Echo Trap)”。

这种退化通常由反馈回路驱动:某些回答在早期获得高奖励,从而被模型频繁复制使用,抑制了探索其他可能性的动机。

但这种问题有明确的迹象可循:比如奖励波动剧烈、梯度异常增大、推理痕迹逐渐消失等。

为了在可控环境中系统性研究智能体的行为,RAGEN 设计了三个符号化测试环境,用于评估智能体的决策能力:

  • Bandit(老虎机):一个单轮的随机任务,用于测试智能体在不确定条件下的符号化风险 - 收益推理能力;

  • Sokoban(推箱子):一个多轮、确定性的益智任务,涉及不可逆决策,考验智能体的规划能力;

  • Frozen Lake(冰湖):一个具有随机性的多轮任务,要求智能体具备适应性和前瞻性思考能力。

这些测试环境的共同特点是:尽量剥离现实世界中的先验知识干扰,让智能体仅依赖训练中学到的策略进行决策。

以 Bandit 为例,智能体会被告知“龙”和“凤凰”代表不同的奖励分布,但不会直接获得概率信息。它必须进行类比式推理,比如把“龙”理解为“力量”、将“凤凰”理解为“希望”,并据此预测潜在结果。这类设定鼓励模型生成可解释、具备抽象类比能力的推理路径。

为解决训练过程中模型容易“崩溃”的问题,研究团队在原有 StarPO 框架的基础上提出了增强版本 StarPO-S,引入了三项关键机制来提升训练稳定性:

  1. 基于不确定性的 rollout 筛选:优先选用那些智能体对结果感到“犹豫”的交互序列,提升训练数据的有效性;

  2. 移除 KL 惩罚项:放宽模型对初始策略的约束,让它更自由地探索新的行为方式;

  3. 非对称 PPO 剪裁:对高奖励路径加大学习力度,相对降低对低奖励路径的关注,从而提升整体学习效率。

这些策略显著减缓甚至避免了训练过程中的崩溃问题,同时在所有三个任务环境中均带来了更好的表现。正如王子涵所说:“StarPO-S 在三个任务上都表现不错,不仅解决了训练崩溃问题,奖励水平也更高。”

落地企业应用,

还有哪些现实难题?

强化学习的效果不仅依赖模型本身的结构,还与智能体在训练过程中所生成的数据质量密切相关。团队总结了三个对训练效果影响最大的关键因素:

  • 任务多样性:让模型接触更多样的起始情境,有助于提升泛化能力;

  • 交互粒度:支持每轮多个动作,能够带来更细致的计划和更丰富的策略;

  • rollout 新鲜度:确保训练数据与当前模型策略保持一致,避免旧策略“过时”的学习信号干扰训练。

这三个维度共同提升了训练过程的稳定性与实用性。

尽管显式推理在 Bandit 这类简单的单轮任务中表现出色,但在多轮任务的训练中,推理能力往往会随着训练进度逐渐减弱甚至消失。即使采用了结构化提示词或 <reasoning> 等显式标记,推理过程仍可能无法维持,除非模型在训练中直接因推理质量获得奖励。

这暴露出当前奖励机制的一大短板:它更多聚焦于“结果对不对”,而忽视了“过程好不好”。

为此,团队尝试通过格式惩罚等方式,引导模型生成结构更清晰的推理过程,但他们也指出,要真正解决这个问题,仍需进一步优化奖励设计逻辑。

尽管 RAGEN 论文提出了清晰的技术方向,但要真正将其应用到真实的企业环境中,仍然存在不少实际的挑战。例如,RAGEN 目前主要处理的是高度抽象的符号类问题。那么,它的方法是否能顺利应用到像发票处理、客户支持这类真实的业务流程中呢?企业是否需要为每个具体的应用场景重新设计任务环境和奖励机制?

另一个核心问题是可扩展性。即便引入了 StarPO-S 等稳定性优化机制,论文仍坦承:当任务长度足够长时,模型训练最终仍可能崩溃。这不禁让人反思,是否存在某种理论或工程路径,能让智能体在开放式、持续演进的任务中始终维持推理能力?

RAGEN 的意义,实际远不止于技术上的突破。它不仅是对强化学习技术的一次重要尝试,更标志着我们向“具备自主推理能力的智能体”的目标迈进了一步。虽然现在还不能确定它是否会成为未来企业人工智能技术的重要组成部分,但它在智能体学习机制上的新颖见解,已经悄然改变着我们对大型模型训练边界的理解和想象。

参考链接:

https://x.com/wzihanw/status/1915052871474712858

https://venturebeat.com/ai/former-deepseeker-and-collaborators-release-new-method-for-training-reliable-ai-agents-ragen/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文

图片
你也「在看」吗?👇

我来抖个机灵:

直接给 AI 智能体放点摇滚乐,让它躁起来,打破常规!或者干脆让它去跟人吵架,在辩论中学习新的姿势(划掉)。

认真说的话,我觉得最重要的是让 AI 能够理解 “为什么” 要这么做,而不仅仅是 “怎么” 做。如果 AI 只是在重复训练数据中的模式,那它永远也无法真正进行推理。

我认为“自主推理能力”的核心在于**“理解” 和 “创造”** 。

* 理解: AI 能够真正理解问题的本质,而不仅仅是记住问题的答案。它需要能够将问题分解成更小的部分,并理解这些部分之间的关系。

* 创造: AI 能够基于已有的知识,创造出新的解决方案。它需要能够进行抽象、类比、推理,并能够从不同的角度看待问题。

目前 AI 在实现真正 “自主推理” 的道路上,还有以下关键瓶颈需要突破:

* 常识知识的获取: AI 需要掌握大量的常识知识,才能更好地理解世界。但目前 AI 在获取常识知识方面还存在很大的困难。

* 因果推理能力的提升: AI 需要能够理解事物之间的因果关系,才能更好地进行预测和决策。但目前 AI 在因果推理方面还比较薄弱。

* 可解释性的增强: AI 的决策过程需要更加透明和可解释,才能让人类信任它。

谢邀,抛砖引玉一下。

感觉可以尝试以下方法:

* 增加训练数据的多样性: 喂给模型更多不同类型、不同风格的数据,让它见多识广,不容易被困在舒适区。

* 定期进行“遗忘”训练: 类似于人类的“睡眠”,让模型忘记一些之前学到的东西,以此来打破固有的思维模式,促进新的连接。

* 引入人类反馈: 让人类专家来评估智能体的推理过程和结果,并根据他们的反馈来调整模型的训练方向。这可以帮助模型更好地理解人类的价值观和偏好。

与其说是“自主推理”,我更愿意说是“涌现的智能”。

就像蚁群一样,单个蚂蚁并没有什么智能,但整个蚁群却能够完成复杂的任务。AI 的 “自主推理能力”,可能也来自于大量简单规则的组合和演化。

所以,我觉得与其纠结于如何让 AI 像人类一样思考,不如 focus on 如何设计更有效的训练方法和更强大的模型架构,让 AI 在不断地学习和进化中,自然而然地涌现出智能。

我觉得大家说的都有道理,我补充一点:算力

处理真实世界的复杂业务场景,需要消耗大量的算力,训练一个能够胜任这些任务的 AI 智能体,可能需要花费巨大的成本。这对于一些中小企业来说,可能是一个难以承受的负担。

我觉得最大的挑战在于如何定义清晰的奖励函数。在符号类问题中,奖励往往是明确的,比如完成推箱子任务或者在老虎机游戏中获得高收益。但在现实世界的业务场景中,奖励往往是模糊的、多维度的,而且难以量化。

例如,在客户支持场景中,我们希望 AI 智能体能够快速、准确地解决客户的问题,同时还要保持友好的态度和专业的形象。如何将这些目标转化为可量化的奖励,是一个很大的挑战。

同意楼上的观点,奖励函数确实是个大问题。

此外,我觉得数据质量也是一个很大的挑战。现实世界的数据往往是noisy、incomplete、inconsistent的,这会严重影响 AI 智能体的训练效果。我们需要花费大量的时间和精力来清洗、预处理数据,才能让 AI 能够从中学习到有用的信息。

还有一个潜在的挑战是可解释性。在企业应用中,我们需要能够理解 AI 智能体的决策过程,才能信任它并放心地使用它。但 RAGEN 基于强化学习,其决策过程往往是黑盒的,难以解释。这可能会成为企业应用的一个障碍。