异构智能体协同强化学习:北航、清华、北大联合提出HACRL新范式

北航、清华、北大联合提出HACRL:一种新的异构智能体协同强化学习范式,实现异构智能体训练时协同优化、推理时独立执行,有效提升性能并降低采样成本。

原文标题:北航,清华,北大联合发布: 异构智能体协同强化学习!

原文作者:机器之心

冷月清谈:

本文介绍了北京航空航天大学、清华大学、北京大学联合提出的异构智能体协同强化学习(HACRL)新范式。该范式旨在解决大模型强化学习微调中Rollout采样成本高、异构数据价值未被有效发掘的问题。HACRL允许多个异构智能体在训练阶段共享Rollout进行协同策略优化,推理阶段则各自独立部署执行,实现了异构智能体间的双向互学与独立部署的统一。核心算法HACPO通过四项关键技术弥合智能体间的能力与策略分布差异,在多个数学推理基准上验证了其有效性,能够一致提升所有参与智能体的性能,同时降低采样成本。HACRL为高效的多智能体协同学习指明了新方向,并有望拓展至代码生成、多模态理解等更广泛的应用场景。该研究还探讨了构建跨模型、跨领域的统一知识学习平台的重要性。

怜星夜思:

1、HACRL范式中,异构智能体之间是如何实现“取长补短”的?除了文中的例子,你还能想到哪些实际应用场景可以利用这种互补性?
2、HACPO算法中的“能力感知的优势估计”是如何避免“强者恒强,弱者恒弱”的马太效应,从而保证所有智能体都能受益的?
3、HACRL范式在未来的发展中,可能面临哪些挑战?你认为应该如何应对这些挑战?

原文内容



  • 论文标题:Heterogeneous Agent Collaborative Reinforcement Learning

  • 论文链接:https://arxiv.org/abs/2603.02604

  • Github Page: https://zzx-peter.github.io/hacrl/

  • Huggingface: https://huggingface.co/papers/2603.02604


主要贡献


  • 异构协同强化学习(HACRL新范式:多个在参数状态、模型规模乃至架构家族上存在异构性的智能体,在训练阶段共享经过验证的 rollouts 实现协同策略优化,而在推理阶段各自独立部署执行。该范式既不同于需协同执行的多智能体强化学习,也区别于单向的 "教师 — 学生" 知识蒸馏 ——HACRL 首次实现了异构智能体间的双向互学与独立部署的统一:训练时协同优化,推理时各自独立运行

  • 异构协同策略优化(HACPO 算法,通过四项关键技术弥合智能体间的能力与策略分布差异

  • 实验结果:在多个数学推理基准上,使所有参与智能体的性能均获得一致提升,平均性能超越基线方法 3.3%,同时仅需一半的采样成本,为实现高效的多智能体协同学习指明了新方向。


问题背景:昂贵的 “单打独斗”,宝贵的 “异构数据”


  • 当前大模型强化学习微调中,rollout 采样与校验成本是整个微调流程的核心瓶颈,严重制约训练效率与规模化落地。同时,现有的强化学习微调范式普遍采用孤立优化范式,模型各自独立采样、验证与策略更新。这就导致模型生成的高质量轨迹仅用于自训练迭代,宝贵探索经验无法复用,样本利用率极低,造成巨大算力浪费。

  • 与此同时,大模型生态呈现显著异构性,不同架构、尺寸、状态的模型面向同一任务生成的 rollouts,在任务目标与格式上高度兼容,且携带互补知识。然而现有多智能体强化学习主要针对多智能体组成统一的系统,无法支持异构模型训练时协同优化推理时各自独立运行的场景;知识蒸馏难主要针对同构模型单向学习,难以支持异构模型的双向学习。目前的范式中,异构数据的价值没有被有效发掘。


论文的核心问题是:一个智能体能否利用其他异构智能体生成的 rollouts 来同时提升效果和效率?


异构智能体共享 Rollout:HACRL 范式


为了解决训练过程中模型的 “单打独斗”,该工作提出了一个新方法 HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多个异构智能体在训练时可以共享彼此的 Rollout (Response + Reward),推理时则各自独立完成任务。HACRL 范式使得原本独立的智能体可以互相学习,同时提高了 Rollout 利用率。


HACRL 和现有的其它范式可不能混为一谈:


  • HACRL 不同于多智能体强化学习 (MARL): HACRL 强调多个独立的智能体在训练时共享 Rollout 进行协同优化,但是在推理时彼此是独立的;MARL 则是多个智能体在推理时相互合作。总结来说,HACRL 训练多个独立的模型,而 MARL 则是在训练一个整体的系统

  • HACRL 也不同于在线 / 离线的蒸馏: HACRL 支持多个异构的智能体相互学习,而蒸馏则是更强的教师模型单向地向弱小的学生模型传递知识。总结来说,HACRL 是异构模型的相互学习,而蒸馏则是同构模型的单向传递


异构智能体强化学习 (HACRL) 与多智能体强化学习 (MARL)、知识蒸馏 (KD)


核心算法:HACPO


HACRL 可不是简单的 Rollout 共享!因为异构智能体之间存在着能力差异策略分布差异,如果异构模型来自于不同的厂家,那么模型的分词器也会不同,在共享数据时出现工程问题。


为了求解 HACRL 问题,该工作提出了一个新算法 HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基础的强化学习优化方法之上,引入了四项量身定制的修改,以弥合异构智能体之间的能力与分布差异。同时,该工作在理论证明了,利用自身和其它智能体 rollout 进行的梯度更新方向,在期望上具有小于 90 度的夹角。这表明 HACPO 是有效的。


HACPO 的算法流程图


1. 智能体能力感知的优势估计 (Agent-Capability-Aware Advantage Estimation)


该工作提出了一种能力感知的估计器,它根据每个智能体的相对性能,为其分配不同的组间优势基线。直观上,如果一个回应由更强的智能体生成,其优势应更高;若由更弱的智能体生成,则其优势应更低。理论上,该估计器是无偏的。


在训练步骤   中,针对智能体   的第   个响应的优势是:

基线   的计算方式为:

其中,  是能力比率(  是智能体   在步骤   时的平滑准确度)。


2. 模型能力差异系数 (Model Capabilities Discrepancy Coefficient)


为了鼓励向更强的智能体学习,同时对较弱的智能体保持保守,该工作使用能力比率来调节有效优势。能力比率

ω

扮演两个互补的角色:(i)基线校准 — 在估计能力感知基线时重新缩放奖励,以对齐异构智能体间的奖励统计量;(ii)梯度调制 — 它作为一个类似学习率的因子,放大来自更强智能体的梯度,并衰减来自更弱智能体的梯度。调制后的优势为:




3. 指数重要性采样 (Exponential Importance Sampling)


该工作采用序列级别的重要性比率并将其扩展到异构多智能体设置,同时引入了非梯度指数重加权。这种设计使智能体偏向于从那些输出分布与其自身更一致的 rollout 中学习。对于具有不兼容分词器的异构智能体组合,将对应反分词器(detokenizer)得到文本,再使用目标智能体的分词器(tokenizer)重新进行分词。



其中,  控制保守性的程度。


4. 逐步裁剪 (Stepwise Clipping)


跨智能体重要性采样比率在步骤之间和步骤内部都会不规则地波动。该工作首先对跨智能体回应应用非对称裁剪边界,以确保跨智能体回应只能被降权,而永远不会被增权。然后,应用逐步裁剪策略,以防止跨智能体经验在批次内的后期更新中占据主导地位,从而提高训练稳定性。



其中,  表示当前步骤内执行的参数更新次数,  表示每次更新的收紧因子。


实验现象:尺有所短,寸有所长
异构模型间的取长补短


实验设置与对比基线


该工作在 MATH 数据集 上选取 7500 道高质量数学问题,并在 七个具有挑战性的基准测试 上评估 HACPO 的性能。为严格验证协同训练范式的有效性,将 HACPO 与下列三类基线方法进行了对比:


  • 标准单智能体基线:包括 GRPO、GSPO(Rollout 成本相同,参数更新成本只有 HACPO 的一半

  • 等资源基线(GSPO×2):用双倍 rollout 和更新次数,以排除因为数据量增大带来的提升(Rollout 成本是 HACPO 的一倍,参数更新成本相同

  • 朴素协同基线(Naive):简单共享 rollouts 的多智能体设置,但不包含 HACPO 的创新模块(Rollout 和参数更新成本都和 HACPO 相同


该工作总结了三类异构,并分别进行了验证实验:


异构类型

定义

示例

状态异构

架构和参数相同,权重不同

Qwen3-4B 和 Qwen3-4B-Instruct

尺寸异构

同一模型厂家,不同参数规模

Qwen3-1.7B-Base 和 Qwen3-4B-Base

模型异构

不同模型厂家,架构、分词器都不同

Qwen3-4B-Base 和 Llama3.2-3B-Instruct


主实验结果


结果分析


该工作在状态异构、尺寸异构、模型异构三中 setting 下进行了多种实验,实验结果表明了 HACPO 的有效性。同时,将 HACPO 的效果归因为以下两种机制:


  • 能力驱动的指导:强模型提供更多高质量正确解,帮助弱模型更快提高。  

  • 互补知识的交换:弱模型作为 “不同探索器”,会产生强模型较少覆盖的推理路径与信息性错误,甚至少量强模型未采到的正确解,从而使强模型也获得可学习的补充信号。


状态异构:


弱模型(Qwen3-4B)提高 7.1%,强模型(Qwen3-4B-Instruct)提高 1.4%。模型异构性低,因此主要是强模型帮助弱模型,而弱模型难以对强模型有帮助。



尺寸异构:


大小模型都有提升,Qwen3-1.7B-Base 提升 2.6%,Qwen3-4B-Base 提升 2.3%。尽管小模型的准确率低于大模型,其仍然可以为大模型提供一些难以覆盖到的错误路径和少量正确路径,提供互补知识



模型异构:


即使模型异构程度很大,两个模型也都有提升。Qwen3-4B-Base 提高 1.9%,Llama3.2-3B-Instruct 提高 3.9%。这表明 HACPO 算法的通用性和鲁棒性。



效率、效果双提升:


等资源基线(GSPO×2)进行对比,HACPO 仅使用一半的 Rollout 成本,就实现了 3.3% 的性能提升


消融实验


对于核心算法 HACPO 中的四个模块进行消融,实验证明了缺失任何一个模块都会导致模型性能的下降,表明了四个模块都是有效的。同时,指数重要性采样中的最佳指数在不同的模型组合上也会有不同。


讨论和展望


本文针对当前智能体强化学习面临的孤立优化采样成本高、异构大模型生态知识利用效率低的核心行业痛点,提出了异构智能体协同强化学习(HACRL)全新范式。该范式突破知识蒸馏单向师生传递的固有局限,实现了训练阶段异构智能体协同优化、推理阶段独立执行的核心设计。


面向未来,HACRL 范式的拓展方向主要包括以下几个方面:一是将适用场景从数学推理任务延伸至代码生成、多模态理解等更广泛的大模型核心下游任务,以验证其在通用场景下的普适性;二是探索更大规模的异构智能体协同训练网络,深入研究智能体间相互学习的效果边界与影响机制。此外,HACPO 的提出为跨异构智能体的数据统一复用奠定了初步框架,未来在迈向通用人工智能(AGI)的进程中,构建跨模型、跨领域的统一知识学习平台同样是不可或缺的重要方向。


作者:第一作者为北京航空航天大学本科生张之夏与博士生黄子轩,通讯作者为北京航空航天大学班义琨教授。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

可以使用强化学习来进行超参数优化!把HACRL的协同效果作为奖励,让一个专门的优化器agent来学习如何配置HACPO的参数。这样就形成了一个嵌套的强化学习系统,想想就powerful!

在自动驾驶领域应用HACRL,最大的挑战可能在于安全性的保障。如果一个智能体学到了错误的驾驶策略,可能会导致严重的交通事故。因此,在应用HACRL之前,必须进行严格的安全测试和验证。

文章里提到了状态异构(权重不同)、尺寸异构(参数规模不同)、模型异构(架构不同)这三种。我觉得“异构”还可以体现在训练数据上,比如用不同领域的数据训练出来的模型,或者用不同语言的数据训练的模型也可以算作异构。甚至,可以考虑智能体所处的环境的异构,例如在不同计算设备或者网络环境下运行的智能体。

从学术角度看,HACRL 的挑战主要在于理论完备性。虽然文章证明了 HACPO 的有效性,但在更复杂的场景下,其收敛性、稳定性和泛化性还需要进一步研究。此外,如何量化异构智能体之间的差异,并将其纳入到算法设计中,也是一个值得深入探讨的问题。

因为要避免“一棒子打死”和“捧杀”两种情况!

首先,我们要理解重要性采样的作用。重要性采样是通过调整样本的权重,来修正不同分布之间的差异。在HACPO中,我们需要对来自不同智能体的 Rollout 进行重要性采样,以便让智能体能够更好地学习其他智能体的经验。

但是,重要性采样的权重可能会出现剧烈波动,导致训练不稳定。为了解决这个问题,我们需要对权重进行裁剪。

对称裁剪会同时限制权重增大和减小的幅度,这可能会导致有用的 Rollout 被过度抑制,而有害的 Rollout 却得不到充分的惩罚。

非对称裁剪则只限制权重增大的幅度,而不限制权重减小的幅度。这样可以确保有害的 Rollout 能够被充分抑制,而有用的 Rollout 仍然可以发挥作用。简单理解就是,好的可以学,但是不能过度神话,不好的必须得改,而且要狠狠的改。

我觉得这个问题问得很实在!数学推理任务的特殊性在于它的逻辑性很强,解题步骤相对固定。HACRL通过共享rollout,相当于共享了“解题套路”,这在数学题上很有效。

但是,图像识别和自然语言处理任务更加复杂,任务目标也更加多样。如果直接把HACRL应用到这些任务上,可能会遇到以下问题:

1. rollout的定义:在图像识别中,rollout可能指的是对图像的某种处理方式,或者对特征的某种提取方法。如何定义有意义的rollout,本身就是一个挑战。
2. 异构性的来源:在数学推理中,异构性可能来自于模型大小、训练数据等。但是在图像识别中,异构性可能来自于backbone架构、预训练任务等。不同的异构性来源,需要不同的处理方法。
3. 任务目标的对齐:不同的图像识别模型,可能关注不同的图像特征,或者对噪声的鲁棒性不同。如何对齐不同模型的任务目标,也是一个需要考虑的问题。

总而言之,HACRL在其他任务上的应用,需要具体问题具体分析,不能简单照搬。

指数重要性采样,本质上就是在“信任”和“怀疑”之间找到平衡。τ 值越大,就越“信任”其他智能体的经验,但也可能引入更大的偏差;τ 值越小,就越“怀疑”,只相信自己的经验,但可能导致学习效率降低。所以,τ 的调整实际上是在探索一个最优的信任区间,找到那个既能充分利用异构知识,又能有效避免偏差的甜蜜点。

我认为,未来的研究方向可以重点关注以下几个方面:一是探索更有效的智能体能力评估方法,比如,可以引入一些可解释性的技术,帮助我们更好地理解智能体的行为和决策过程;二是研究更高效的协同训练算法,比如,可以借鉴联邦学习的思想,实现分布式的协同训练;三是加强HACRL在实际应用中的验证,不断优化算法,提升其鲁棒性和泛化能力。只有这样,HACRL才能真正成为一种实用、高效的强化学习范式。

这让我想到了集成学习中的boosting算法,比如AdaBoost。boosting算法也是通过调整样本权重,使得模型更加关注之前被错误分类的样本,从而提升整体的性能。HACPO的“能力感知的优势估计”和boosting算法的思想有异曲同工之妙,都是为了避免模型陷入局部最优,实现更好的泛化能力。当然,HACPO针对的是异构智能体,boosting针对的是同构模型,应用场景还是有所区别的。

文章提到了能力驱动的指导和互补知识的交换这两种机制。例如,在医学诊断中,不同专长的AI模型(比如一个擅长图像识别,一个擅长数据分析)可以互相学习,一个模型可能更擅长识别X光片中的细微病灶,另一个则擅长分析患者的病史数据来提高诊断的准确率。又或者在自动驾驶领域,一个模型擅长路径规划,另一个擅长感知环境,二者结合提升自动驾驶的安全性。

我觉得最大的挑战可能在于如何有效地衡量和利用异构智能体之间的差异性。毕竟,不同的模型架构、训练数据、目标函数等等,都会导致智能体之间的能力差异。如果不能准确地评估这些差异,就很难制定合理的协同策略。另一方面,随着智能体数量的增加,协同训练的复杂性也会呈指数级增长。如何设计高效的训练算法,避免资源浪费,也是一个需要重点关注的问题。

HACRL的核心在于打破了传统强化学习中智能体“单打独斗”的局面,实现了异构智能体之间的协同。实际上,在很多现实场景中,不同类型的智能体本身就具备不同的优势,但也存在各自的局限性。将HACRL应用于这些场景,将能够实现更好的效果。如果再结合联邦学习,在保护数据隐私的前提下,是不是能进一步扩大HACRL的应用范围?

这个“能力感知的优势估计”确实是关键。它不是简单地一概而论,而是会根据每个智能体的能力来调整学习的“力度”。就像老师给不同学生布置作业,对掌握好的学生就布置更难的,对基础薄弱的学生就布置更基础的。这样才能保证大家都能进步,而不是让强者越来越强,弱者越来越弱。HACPO 通过动态调整优势估计的基线,使得弱势智能体也能从自身的成功经验中获得有效的学习信号,避免了完全被优势智能体的经验所淹没。