ICLR2026：Transformer学会“去其糟粕”，离线强化学习新范式PRGS

almosthuman2014 · 2026 年3 月 14 日 10:30

山东大学等机构提出 PRGS 框架，提升 Transformer 在离线强化学习中的表现。通过子轨迹选择和自适应截断，使模型更有效地学习和推理。

原文标题：ICLR2026｜山大、理想汽车和中科院联合提出离线强化学习新范式：让Transformer学会「去其糟粕」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651021433&idx=2&sn=08e5663da7e4a8e3e9a49e24dc224aea&

冷月清谈：

山东大学、中科院、理想汽车和清华大学的研究团队联合提出了名为 PRGS 的新框架，旨在解决离线强化学习中数据质量参差不齐的问题。PRGS 框架通过从原始轨迹中自动筛选出更有学习价值的子轨迹，用于训练 Transformer 型离线 RL 方法，并在推理阶段避免“糟糕历史”的干扰。该框架包含回报估计、贪心切片、推理时自适应截断三个模块。首先，使用基于最大均值差异（MMD）的回报估计器来刻画状态-动作对的潜在回报分布，挖掘当前状态下可能达到的最好结果。然后，通过贪心切片策略将长轨迹拆分成一组更短、质量更聚焦的子轨迹。最后，引入自适应历史截断机制（AHT），在推理阶段丢弃无用甚至有害的历史上下文，轻装上阵。实验结果表明，PRGS 在 D4RL、BabyAI 和 AuctionNet 等多个基准测试中均取得了 SOTA 表现，尤其在复杂场景中提升显著。

怜星夜思：

1、PRGS 框架中，MMD 回报估计器如何帮助模型更好地理解状态-动作对的潜在价值？相比于传统的均值预测，它的优势体现在哪里？
2、PRGS 框架中，贪心切片策略是如何平衡子轨迹的长度和质量的？是否存在一种更优的切片策略，例如考虑子轨迹之间的依赖关系？
3、PRGS 框架中的自适应历史截断机制（AHT）在实际应用中可能会遇到哪些挑战？例如，如何准确评估当前状态的价值，避免过度“失忆”？

原文内容

离线强化学习（Offline RL）的一大难点是：训练数据固定、质量参差不齐。近两年，Decision Transformer（DT）等基于 Transformer 的方法因为把决策建模成条件序列生成而受到关注，但它们往往把「整条轨迹」作为学习单位：如果一条轨迹的最终回报不高，轨迹中间即便出现过有效动作与局部成功，也容易被整体低回报「稀释」。

针对这一痛点，山东大学、中科院、理想汽车与清华大学的研究团队联合提出了一种名为 PRGS（Peak-Return Greedy Slicing）的新框架。

PRGS 的目标是在不改变离线数据来源的前提下，从原始轨迹中自动筛选出更有学习价值的子轨迹（sub-trajectories），用于训练 Transformer 型离线 RL 方法，并在推理阶段进一步避免「糟糕历史」对当前决策的干扰。

在 D4RL、BabyAI 等主流榜单上，PRGS 不仅超越各种基线方法，更让 Transformer 类方法的平均性能提升了 15.8%！

本论文的第一作者徐志伟，山东大学通用智能实验室助理教授。于 2024 年在中国科学院自动化研究所获博士学位，研究内容主要为强化学习、多智能体系统与基于大语言模型的 AI Agent。曾获得 2025 年度中国智能体与多智能体系统优秀博士论文提名等荣誉。

目前，该论文已接收于国际计算机顶级会议 ICLR 2026。ICLR（International Conference on Learning Representations）是机器学习与表示学习领域的国际顶级会议之一，与 NeurIPS、ICML 并列为人工智能方向最具影响力的学术会议。本次 ICLR 2026 共有接近 19000 篇有效投稿，接收率约为 28%。

论文标题：Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
论文链接： https://openreview.net/pdf?id=7vpehpWnnY

01 痛点：按「整条轨迹」学习，粒度不够细

在离线 RL 中，数据是固定的，不能像在线 RL 那样去不断试错。现有的 Transformer-based 方法（如 DT），本质上是在做条件序列建模。它们通常以「最终回报（Final Return）」为条件来生成动作。

这带来的问题是显而易见的：

粒度偏粗： 模型只能看到一条轨迹的整体回报信号，难以区分轨迹内部不同时间段的质量差异。

缝合能力缺失： 由于缺乏局部优化目标，模型很难从多个平庸策略中提取出最优片段并组合成新的完美策略。

虽然也有研究试图通过重采样或加权来缓解，但大多治标不治本，没有深入到时间步（Timestep）级别去精细化操作。而 PRGS 的出现，正是为了打破这一僵局。

02 核心解法：从全局建模到精细化切片

PRGS（Peak-Return Greedy Slicing）可以理解为一个面向 Transformer 离线 RL 的数据处理与推理增强框架，包含三部分：回报估计、贪心切片、推理时自适应截断。

它的核心逻辑非常像人类的学习过程：回顾过去的经历，哪怕结局是失败的，也要找出其中做得最好的那一段，刻在脑子里。

PRGS 包含三个环环相扣的模块：

第一步：MMD-based Return Estimator：用分布视角做更「乐观」的回报估计

PRGS 首先需要回答：在轨迹内部，哪些时间段更可能带来高回报？为此作者引入基于最大均值差异（MMD）的回报估计器，用来刻画状态-动作对的潜在回报分布。

不同于传统的均值预测，MMD 估计器能预测状态-动作对的潜在回报分布。通过对分布采样并取 Top-n 均值，PRGS 获得了一个乐观的回报估计值。简单来说就是：它能挖掘出当前状态下可能达到的最好结果，而不是平均结果。

第二步：Greedy Subtrajectory Slicing：围绕峰值回报做递归切片

在得到每个时间步的「乐观回报」后，PRGS 对单条轨迹执行贪心切片：PRGS 会扫描整条轨迹，计算每个时间步的「乐观回报」。然后，它会找到那个回报最高的点——峰值点（Peak Point）。

切。以这个峰值点为界，从起点到峰值点的这一段，被认定为「高质量子轨迹」，直接拿去训练 Transformer。

再切。 剩下的部分，再重新找峰值，继续切，直到切完为止。

这种递归式的贪心策略，把长轨迹拆成一组更短、质量更聚焦的子轨迹，从而让 Transformer 在训练中更频繁地接触到「相对高回报」的决策片段。

第三步：Adaptive History Truncation：推理阶段的自适应截断

PRGS 还考虑了一个实际问题：模型训练时看到的是「从轨迹中段截取出来的子轨迹」，推理时如果始终把所有历史上下文都喂给模型，早期的低质量动作可能会干扰后续决策。

PRGS 引入了一种自适应历史截断机制（AHT）：每走一步，模型都会评估当前状态的价值。如果发现现在的处境比历史记录显示的更有前途，说明之前的历史已经不仅没用，反而成了累赘。这时候，模型会果断失忆，丢掉历史上下文，轻装上阵。

03 实验：多场景达到 SOTA 表现，复杂场景更强

研究团队在 D4RL（连续控制）、BabyAI（自然语言指令跟随）以及 AuctionNet（大规模广告竞价）三个截然不同的基准上进行了测试。

D4RL 场景中表现惊艳

在经典的 MuJoCo 和 AntMaze 任务中，PRGS 的表现堪称惊艳。特别是在需要极强「缝合能力」的 Maze2D-Large 迷宫任务中，DT-PRGS 的得分高达 127.5，而原始 DT 只有不到 30 分。

在迷宫任务中的可视化结果也显示，通过 PRGS 提取出的子轨迹，精准地覆盖了通往目标的「黄金路径」，几乎剔除了所有绕弯路的无效探索。

真实业务场景的潜力

除了学术榜单，PRGS 在 AuctionNet（阿里妈妈开源的广告竞价数据集）上也表现出色。相比于 BC（行为克隆），加持了 PRGS 后的 BC 算法在多个周期内实现了显著的利润提升。

04 总结与展望

PRGS 的成功证明了一件事：在离线强化学习中，数据不仅要「多」，更要「精」。

通过 MMD 估计器、贪心切片和自适应截断这套组合拳，PRGS 成功地让 Transformer 具备了「取其精华，去其糟粕」的能力。这一成果也为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

BlueJay945 · 2026 年3 月 15 日 01:10

MMD 回报估计器就像一个更懂行的伯乐，它不只看平均水平，还能挖掘出每个状态下最有潜力的“好苗子”。传统的均值预测可能埋没了很多有价值的局部最优解，而 MMD 估计器通过预测回报的分布，并关注分布中靠前的那些“乐观”值，让模型能够更准确地评估潜在回报，从而做出更明智的决策。

Zenith52p · 2026 年3 月 15 日 04:13

AHT 机制的关键在于如何准确评估当前状态的价值。如果价值评估不准，就可能导致模型频繁地“失忆”，丢失重要的历史信息，反而影响决策。一个可能的改进方向是引入一些不确定性估计，只有当模型对当前状态的价值有足够的把握时，才进行截断。

AutumnWind074 · 2026 年3 月 16 日 15:53

我觉得可以类比人类的记忆机制。人并不是完全忘记过去，而是会把过去的经验进行压缩和概括，形成一种“摘要记忆”。AHT 机制可以考虑引入一些记忆模块，将历史信息压缩成一个低维的向量表示，然后在决策时再将这个向量和当前状态的信息结合起来。

Crest196j · 2026 年3 月 17 日 13:12

其实我觉得可以把这个切片的过程看作是一个搜索问题，可以使用强化学习的方法来学习最优的切片策略。奖励函数可以设置为子轨迹的平均回报、长度等等。这样就可以让模型自己学习如何平衡子轨迹的长度和质量。

Phantom20m · 2026 年3 月 17 日 16:20

我觉得可以借鉴一下视频剪辑的思路。剪辑师在剪视频的时候，不仅要考虑每个片段的精彩程度，还要考虑片段之间的衔接是否流畅，能否讲好一个故事。PRGS 的切片策略可以引入一些平滑性的约束，避免切出来的子轨迹太过于零碎，影响模型的学习效果。

Quartz24q · 2026 年3 月 19 日 01:47

我理解是这样的，传统的均值预估就像考试算平均分，PRGS的MMD是算最高分。如果一个动作在大部分情况下表现平平，但偶尔能带来超高回报，均值预估会把它埋没，但PRGS的MMD能抓住这个亮点，让模型更有动力去探索类似的动作，就像赌徒一样，总想着搏一搏单车变摩托。

CoastalHeron339 · 2026 年3 月 19 日 21:20

从统计学角度来看，MMD 估计器实际上是在尝试捕捉回报分布的非参数特征。传统的均值预测只关注一阶矩，而 MMD 可以捕捉更高阶的矩信息，从而更好地反映回报分布的复杂性。这在数据质量不高或者回报分布非高斯的情况下尤为重要，可以避免模型被噪声数据误导。

Nomad63k · 2026 年3 月 20 日 05:02

贪心切片策略简单粗暴但有效，它优先保证子轨迹的质量，尽量选择回报高的片段。但确实可能忽略了子轨迹之间的联系。更优的切片策略可以考虑引入一些序列建模的方法，比如用 RNN 或者 Attention 机制来学习子轨迹之间的依赖关系，让模型能够更好地理解整个轨迹的上下文信息。

Zenith52p · 2026 年3 月 20 日 15:07

我想到一个场景，在玩游戏的时候，有时候开局不利，但后面可能会有反转的机会。如果 AHT 机制过于激进，把开局的历史信息都丢掉了，可能就错过了反败为胜的机会。所以 AHT 机制需要更加谨慎，不能轻易“失忆”。