DVDF:兼顾动力学与价值对齐的跨域离线强化学习新框架

DVDF为跨域离线强化学习引入“动力学+价值”双重对齐,显著提升迁移效果。

原文标题:重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

原文作者:机器之心

冷月清谈:

这篇文章介绍了一项关于跨域离线强化学习的研究,核心在于解决“目标域数据太少、源域数据又未必能直接用”的难题。以往方法大多只关注源域和目标域的动力学是否一致,即优先保留转移规律更接近目标域的样本,但论文指出,这种做法忽略了源域数据本身的质量,可能把“动力学接近但价值很低”的随机数据留下来,反而过滤掉“有偏差但高质量”的专家数据。

论文从理论上重构了跨域离线强化学习的分析目标,不再只盯着源域和目标域之间的性能偏差,而是直接分析目标域策略学习的次优性上界。由此得出结论:有效迁移不仅要考虑动力学对齐,还要考虑价值对齐,也就是源域数据是否真正包含有助于学习好策略的有效信号。

基于这一结论,作者提出DVDF框架,通过“双重对齐”过滤源域数据:一方面利用现有方法衡量动力学对齐程度;另一方面通过在源域上预训练离线RL模型,估计样本优势函数,用来评估数据价值。论文还比较了IQL和SQL作为预训练方法的效果,发现SQL能给出更准确的优势估计,从而提升过滤质量。

实验覆盖hopper、walker2d、halfcheetah、ant等多个控制任务,并设置关节偏移和形体偏移两类跨域场景。结果显示,DVDF作为插件接入IGDF、OTDF等方法后,在大多数任务上都带来稳定提升,说明“既像又值”的数据筛选思路比单纯看动力学更有效。

怜星夜思:

1、问题1:如果源域数据和目标域动力学很接近,但数据质量很差,这类数据到底值不值得保留?
2、问题2:DVDF强调“价值对齐”,这是不是意味着以后跨域迁移里,数据质量会比动力学一致性更重要?
3、问题3:论文里用SQL而不是IQL来预训练优势函数,你觉得这说明离线RL里的“价值估计偏差”已经成了更核心的问题吗?
4、问题4:DVDF这种“先打分再过滤”的思路,能不能推广到机器人、自动驾驶之外的其他领域?

原文内容


本文作者来自香港城市大学、伊利诺伊大学厄巴纳 - 香槟分校、腾讯、中国电信人工智能研究院、清华大学等机构。作者包括乔钟健、杨瑞、吕加飞、白辰甲、李秀、高思阳、邱爽。其中,第一作者为香港城市大学乔钟健,通讯作者为香港城市大学邱爽。



  • 论文标题:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering

  • 文章链接:https://arxiv.org/pdf/2512.02435


在现实世界中通过强化学习训练智能体,往往需要大量在线试错与环境探索,这不仅成本高昂,还可能带来显著安全风险:机器人可能因试错而损坏,自动驾驶的在线探索可能危及行车安全,而持续采集交互数据本身也代价巨大。因此,离线强化学习(offline RL)通过直接利用历史静态数据进行策略学习,规避了持续在线交互需求,为在高成本、高风险场景中应用强化学习提供了更可行的路径,成为推动强化学习走向真实世界的关键方向。


然而,当目标环境数据时(例如,新部署的机器人仅拥有少量演示数据),仅凭目标域数据难以支撑高性能策略的学习。这一困境催生了跨域离线强化学习(Cross-Domain Offline RL)这一范式 —— 它致力于借助源域(如动力学存在差异但数据丰富的仿真环境)中的知识,弥补目标域数据不足,为数据匮乏的目标域注入学习动能,促进目标域完成策略学习。


虽然跨领域离线强化学习的出发点很好,但源域与目标域之间往往存在力学偏移(Dynamics Misalignment),即状态转移动力学规律不一致。在这种情况下,直接合并源域和目标域数据进行训练会引发严重的分布外动力学 (OOD Dynamics)问题:模型学习到的转移规律难以在目标域成立,因而性能往往会迅速退化,最终令训练崩溃。 目前解决这一问题的主流范式是动力学对齐驱动的数据过滤:首先通过对比学习或最优传输等方式度量源域样本和目标域的动力学偏移程度,然后过滤掉部分动力学明显不一致的源域数据,只保留那些动力学行为更接近目标域的样本参与训练。


然而,这一范式在逻辑上依赖于一个极强的隐藏假设:动力学相似性足以刻画源域数据的可迁移性,只要源域样本在转移动力学上与目标域的 “足够接近”,源域数据便一定值得保留并用于训练。但这一假设忽略了源域数据的另一项关键属性 —— 数据质量在现实问题中,源域不仅仅与目标域存在动力学偏移,更重要的是源域数据所含学习信号也未必同等有效,进而影响其对目标域策略学习的实际贡献。如果一组源域数据在动力学上与目标域完全一致,却是从环境中随机收集的低质量数据,它对学习目标域策略的贡献真的大吗?


研究动机:动力学对齐真的充分吗?



为了探究上述问题,作者们设计了一个启发性实验:在 Hopper 机器人控制任务中,源域数据由两种类别构成:动力学对齐,但低质量的随机样本;以及存在动力学偏差,但高质量的专家样本。按照现有的 IGDF 等方法,由于专家样本存在动力学偏差,它们会被立刻过滤掉,最终只会保留随机样本进行策略训练。然而,随机样本对策略性能的提升是相当有限的,这导致最终策略仅仅收敛到次优性能。这表明,低质量源域数据提供的有效信息较少,进而削弱其对目标域策略学习的贡献。


针对现有方法所存在的问题,论文首先从理论层面定位了其根源所在:现有跨域离线强化学习的主流分析框架与其真正的学习目标并不匹配。这一错位直接导致现有方法只聚焦于动力学对齐,系统性忽视了源域数据质量。为此,论文进一步重构理论框架,通过直接推导目标域策略学习的次优性差距(sub-optimality gap)上界,从理论上明确:高效的跨域离线强化学习必须兼顾动力学偏移与价值偏差。在该理论结论驱动下,论文提出 DVDF 方法:设计统一的数据过滤框架同时实现源域样本的动力学对齐与价值对齐,选择 “既像又值” 的源域数据用于训练。DVDF 可作为插件(plug-in)模块无缝集成到现有的方法中(如 IGDF、OTDF 等),并带来稳定的性能提升。


理论重构:修正跨域离线强化学习的优化目标


文章对现有的跨域离线强化学习的理论框架进行了重新审视。作者指出,以往的研究大多依赖于分析并优化以下源域 与目标域 的性能偏差界限:



其中   为常数。由上式可见,对任意的策略  , 该性能偏差   仅由源域状态转移模型   和目标域状态转移模型   之间的动力学偏移项   直接控制。想要保证目标   尽量小,优先选择动力学对齐的样本是该理论推导的自然结果。


然而,文章指出,上述优化目标和跨域强化学习的根本目标 —— 最大化策略在目标域的性能 —— 并不一致,因此优化这一性能界限并不能保证充分有效的策略迁移。基于该观点,文章重构了跨域强化学习的理论分析,提出直接优化策略在目标域   上的价值的次优界,即


 


其中   为目标域最优策略,  代表通过特定的源域数据学习所得的策略。这样的优化目标直接和强化学习的目标对齐,能够训练出更加有效的迁移策略。文章中进一步推导出了这样的次优界的上界,并引出价值对齐 (Value Alignment) 的概念:



其中,  为常数,  为源域样 本内最优策略   与源域最优策略   的价值函数差异,可视为常数的统计误差。上述的理论结果显示   主要是由动力学偏移   和价值偏移   来共同控制,从而揭示了一个新的结论:有效的策略迁移不仅需要关注动力学是否对齐,还需要关注价值是否对齐,即源域数据是否是高质量数据。数据质量则是通过在数据上所学策略   与源域样本内最优策略   所对应价值是否足够对齐来体现。而现有研究普遍忽略了价值对齐这一关键因素,这也为其性能次优提供了合理解释。


动力学和价值双对齐的数据过滤框架


基于以上分析,我们需要同时度量价值对齐和动力学对齐程度。对于动力学对齐,我们可采用现有工作中成熟的方案,如对比学习和最优传输等。文章需要解决的关键问题在于价值对齐程度的度量。为了解决这个问题,文章首先推导出了价值对齐项的上界:



其中,  为源域数据采样的行为策略。由上式可见,价值偏移项被源域样本内最优策略   所对应的优势函数   所控制,这启发我们可以使用源域数据上样本内最优策略的优势函数进行价值对齐的评估。然而在现实中,我们无法直接获得这样的优势函数。针对这一挑战,文章提出可使用特定的离线强化学习算法在源域数据上进行预训练,得到一个预训练策略   以估计样本内最优策略  ,预训练后得到的估计的 Q 函数   和价值函数  ,并估计策略   下的优势函数:



值得注意的是,预训练得到的优势函数的近似误差不可忽视。为了进一步降低近似误差的影响,文章首先推导出了优势近似误差的具体形式:



其中 。这里   是预训练策略   的真实优势函数(理论上存在但不可知),而   衡量的是估计值与真实值之间的差距。这一结果说明,想要最小化优势近似误差,我们选择的离线强化学习需要满足以下两个条件:(1) 优秀的性能,以最小化  ; (2) 准确的优势估计,以最小化  。IQL 作为一个常用的离线强化学习算法,具有优势估计简单以及性能卓越的优势。


然而,IQL 学习价值函数时,易受数据集中次优动作的影响,导致价值函数常被低估,从而导致优势函数被高估。进一步,为了解决该问题,我们选用了 Sparse Q-learning (SQL) 算法进行预训练。SQL 通过在价值函数训练中显式引入稀疏性,从而降低了次优动作对价值估计的影响,能够估计出更准确的优势函数。


在使用 SQL 算法在源域数据上进行预训练得到优势函数之后,文章提出动力学和价值双对齐的数据过滤算法框架 DVDF (Dynamics- and Value-aligned Data Filtering)。该框架的核心在于定义了一个重要的评分函数   用来过滤源域样本:



其中函数   是通过对比学习或最优传输得到的评估动力学对齐的得分函数,  是优势函数估计值以体现价值对齐程度,  是最小 - 最大归一化算子。由此可见,评分函数   同时考虑了动力学对齐和价值对齐,并且通过一个可调整的超参数   来平衡动力学对齐和价值对齐在源数据过滤的重要性。文章根据得分函数   来选择更好的源域样本,并通过最小化   训练得到 Q 函数:



其中,  为指示函数,用于过滤出给定比例的源域样本,  表示样本对应的   数值的第   分位数。对于策略优化,该方法利用学好的 Q 函数,通过标准的 IQL 算法进行训练得到最终的输出策略。



实验验证


1. 动力学偏移场景下的性能对比


论文中设计了多个动力学偏移场景以验证 DVDF 的有效性。论文通过在四种机器人控制任务中(halfcheetah, hopper, walker2d, ant)引入两种动力学偏移:关节偏移(kinematic shifts)和形体偏移(morphology shifts)以构建源域环境,并在相应环境中收集不同质量的离线数据以构建源域数据集。同时,论文直接从标准的 D4RL 数据集中进行采样以构建目标域数据集。下表展示了在动态偏移场景下 DVDF 和多个基线方法的标准化得分(Normalized Score)对比。可以看出,DVDF 在绝大多数数据集中的性能都优于基线方法,这是因为 DVDF 利用了源域数据集中的数据质量的信息,能够筛选出更具有价值的高质量样本。


具体而言,在关节偏移场景下,DVDF 与多个基线方法的标准化得分对比。DVDF 为基础算法 IGDF 和 OTDF 带来了显著的性能提升:DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法,总分从 1001.6 提升至 1164.7,增幅达 16.3%;DVDF-OTDF 则在 15 个任务上超越了原 OTDF 方法,总分从 986.5 提升至 1172.3,增幅达 18.8%。在形体偏移这一设定下,DVDF 依然保持了显著的性能优势。DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法,总分从 1039.0 提升至 1198.7,增幅达 15.4%;DVDF-OTDF 则在 14 个任务上超越了原 OTDF 方法,总分从 1042.1 提升至 1156.3,增幅达 11.0%。




2. 消融实验


在消融实验部分,论文主要分析了分别使用 SQL 和 IQL 算法进行优势函数预训练对策略性能和优势估计偏差的影响。如下图所示,相比于 IQL 算法,使用 SQL 算法进行优势函数预训练能够得到更高的策略性能以及更低的优势估计误差。



3. 参数敏感性实验


论文中探究了两个主要的超参数:对齐平衡系数   以及数据选择比例   对策略最终性能的影响。如下图所示,对于不同的数据集,最优的超参数各不相同。然而,论文中发现设置   以及   在大部分数据集上都能取得不错的性能,由此避免了繁重的超参数微调步骤。



总结


本论文聚焦于动力学偏移下的跨域离线强化学习,通过实验和理论层面的探究,证明了动力学和价值双重对齐对于跨域离线强化学习至关重要。基于这一发现,论文提出全新的跨域离线强化学习框架 DVDF。通过在源域上预训练优势函数来度量样本价值,并与动力学对齐相结合,DVDF 能够识别并筛选出对策略学习有价值源域样本。在多种场景下的实验结果表明,DVDF 都展示了比基线算法更高的性能,充分验证了其有效性。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


咱们换个角度想想,与其纠结于选择哪个离线强化学习算法,不如考虑结合一些其他的技术。比如,可以先用一些数据增强的方法来提高数据的质量,然后再用一个简单的离线强化学习算法进行预训练。或者,可以考虑用一些元学习的方法,让模型自己去学习如何更好地估计优势函数。条条大路通罗马,关键在于找到最适合自己问题的方法。

我觉得最直接的方法就是看实际应用的效果了。比如,如果你的目标是训练一个自动驾驶系统,那就把 DVDF 集成到你的系统中,然后跑一些测试,看看它的性能有没有提升。当然,这个过程可能比较耗时,但是最能反映真实情况。

从更加学术的角度来说,评估性能提升的显著性需要进行统计显著性检验。可以使用 t-test 或者 Wilcoxon signed-rank test 来比较 DVDF 集成前后的性能差异。此外,还可以考虑使用一些其他的评估指标,比如:1)样本利用率:衡量算法利用离线数据的效率。如果 DVDF 能够更有效地利用数据,那么它的样本利用率应该更高。2)策略鲁棒性:衡量策略在不同环境下的泛化能力。如果 DVDF 能够学到更鲁棒的策略,那么它在不同的测试环境下的性能应该更稳定。3)收敛速度:衡量算法达到最优性能所需的时间。如果 DVDF 能够加速收敛,那么它可以在更短的时间内达到更高的性能。

除了量化的指标之外,我觉得还可以关注一些定性的指标。比如,可以观察 DVDF 过滤掉的源域数据是什么样的,保留下来的数据又是什么样的。这可以帮助我们更好地理解 DVDF 的工作原理,并且发现一些潜在的问题。另外,还可以和领域专家进行交流,听取他们的意见和建议。毕竟,他们才是最了解实际应用场景的人。

我个人觉得可以借鉴迁移学习中的领域对抗思想。可以训练一个判别器来区分源域和目标域的数据,然后根据判别器的输出结果来动态调整 λ 值。如果判别器很容易区分两个域,说明动力学差异很大,就需要增大 λ 值;反之,如果判别器很难区分,说明价值差异可能更重要,就需要减小 λ 值。总而言之,λ 的选择应该是一个动态调整的过程,而不是一成不变的。

λ 值的选择确实是个关键问题。从理论上讲,最优的 λ 值应该能够最小化目标域策略学习的次优性差距上界。然而,这个上界在实际中很难精确计算。一个可能的思路是,可以考虑使用 validation set 在目标域上进行验证,通过调整 λ 值来最大化 validation set 上的性能。另外,也可以借鉴 AutoML 的思想,使用一些自动超参数优化算法,比如 Grid Search、Random Search、或者 Bayesian Optimization,来自动搜索合适的 λ 值。

与其绞尽脑汁评估源域数据的“绝对价值”,不如换个思路,评估其“相对价值”。我的意思是,不要试图弄清楚这批数据本身有多好,而是要看它能给现有的模型带来多大的提升。

可以采用A/B测试的思路,分别使用包含和不包含特定源域数据的训练集训练模型,然后在目标域上进行测试。如果包含源域数据的模型表现更好,说明这批数据是有价值的。

这种方法简单粗暴,但非常有效。而且,它可以灵活地应用到各种不同的场景和模型中。

当然,这种方法也有缺点,就是需要一定的计算资源和时间来训练多个模型。但在资源允许的情况下,这绝对是一种值得尝试的方法。

【回答第1个讨论】如果放到工业或机器人场景,我反而觉得前期常常低估环境差异,后期才发现数据质量同样致命。也就是说,这两个问题可能不是谁绝对更重要,而是谁更容易在不同阶段被忽略。论文的价值就在于把这两个维度放到一个统一框架里讨论,而不是二选一。

【回答第3个讨论】我认为可以推广,但门槛不低。强化学习中的优势函数提供了相对自然的样本价值度量,而在推荐、分类、生成等任务中,‘高价值样本’未必有统一标准。未来如果能找到与最终任务目标直接对齐的价值指标,这种‘先估价值、再筛数据’的范式可能会很有普适性。

问题2我的看法是:在很多真实应用里,数据质量的重要性可能被长期低估了。因为动力学偏移更容易被看见、被度量,所以大家自然先去处理它;但真正决定上限的,往往是数据里有没有足够强的策略信号。DVDF比较有意思的地方就在于,它把这个隐性因素显式拿出来了。

回复问题1:这篇论文其实就在挑战一个默认前提——“像就够了”。但现实里很多迁移问题不是地图像不像,而是源数据里有没有可学习的策略结构。我的理解是,低质量但高相似的数据可以少量保留,作为覆盖状态空间的补充,但不能把它当主力数据源。