ICLR 2025 Spotlight:中山大学提出ADPA方法,助力小模型高效对齐人类偏好

中山大学&Meta AI提出ADPA方法,利用大模型指导小模型对齐人类偏好,显著提升小模型性能,相关论文入选ICLR 2025 Spotlight。

原文标题:ICLR 2025 | 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破!

原文作者:数据派THU

冷月清谈:

本文介绍了一种由中山大学&Meta AI提出的名为ADPA(Advantage-Guided Distillation for Preference Alignment)的创新方法,旨在解决小型语言模型(SLMs)在对齐人类偏好时遇到的难题。该方法通过知识蒸馏,利用已对齐的大模型指导小模型,使其能够理解“好”与“不好”的回答,从而提升对齐效果。ADPA包含双重约束知识蒸馏(DCKD)和优势引导蒸馏两部分,其中ADPA+结合了DCKD和ADPA的优势。实验结果表明,ADPA及其变体在多个评测基准上均优于现有方法,尤其是在小模型上表现突出。消融实验进一步验证了ADPA中优势函数和DCKD中反向信号的重要性。该研究还从理论上分析了ADPA的低样本复杂度优势。这项研究为轻量AI的普及带来了新的可能性。

怜星夜思:

1、ADPA方法确实有效提升了小模型的对齐能力,但这种依赖大模型“手把手”教学的模式,会不会让小模型在某些方面过度模仿,反而失去了自身的独特性和创新性呢?
2、文章提到ADPA在小模型上表现更优,那么这项技术未来在哪些实际应用场景中最有潜力?例如,智能家居、可穿戴设备或者其他边缘计算设备?
3、文章中提到了“对齐税”的概念,即小模型在对齐人类偏好后,通用性能反而下降。ADPA 在提升对齐效果的同时,是如何避免或缓解“对齐税”问题的?

原文内容

本文约3300字,建议阅读6分钟

本文介绍了一种全新方法ADPA让小模型对齐突破。


背景


在 AI 的世界里,大型语言模型(LLMs)凭借强大的参数量和计算能力,已经能够生成与人类偏好高度一致的回答,成为 ChatGPT 等明星产品的核心。然而,这些“大块头”模型对算力和内存的需求极高,难以在手机、边缘设备等资源受限场景中普及。


于是,小型语言模型(SLMs)成为了备受关注的替代方案——它们轻量、高效,却面临一个棘手的问题:在对齐人类偏好后,效果往往不佳,通用性能甚至会下降。这种现象被研究者称为“对齐税”(Alignment Tax),仿佛小模型在努力“理解”人类时,付出了额外的代价。


1.1 小模型对齐的难题:Hugging Face的坦言


Hugging Face 首席科学官(CSO)之一托马斯·沃尔夫(Thomas Wolf)在 2024 年 8 月发布著名的 SmolLM 小模型系列时,也直言不讳地指出小模型在对齐方面的不足。


他在 X 上表示:“另一个问题是模型对齐,即如何微调这些模型以遵循指令。我们已经为大型模型开发了一些非常有效的数据集和方法(如监督微调 SFT、直接偏好优化 DPO、近端策略优化 PPO 等),但如果你尝试‘即时 SmolLM 演示,你会发现对齐后的小模型在这方面仍存在不足”。来源:

https://x.com/Thom_Wolf/status/1825094850686906857


这一坦言揭示了目前 SLMs 的对齐仍存在很多挑战。


1.2 新突破:大模型带小模型“飞”


针对这一难题,一项由中山大学 & Meta AI 最新研究提出了一种创新解决方案,利用已经对齐好的大模型“手把手”教小模型,通过知识蒸馏(KD)让小模型直接继承大模型对于人类偏好的理解能力。


该研究的核心在于,通过大模型的分布粒度的指导和 O(1) 的样本复杂度,小模型不仅能学会“什么是好的回答”,还能明白“什么是不好的”,从而大幅提升对齐效果。


目前这项工被国际机器学习顶级会议 ICLR 2025 接受,成功入选 Spotlight。



论文标题:
Advantage-Guided Distillation for Preference Alignment in Small Language Models
论文地址:
https://openreview.net/pdf?id=xsx3Fpo3UD
论文仓库:
https://github.com/SLIT-AI/ADPA



02 方法介绍


研究团队提出了两种创新方法,以下是详细介绍:


2.1 双重约束知识蒸馏(DCKD)


DCKD 利用偏好数据,从对齐好的大模型(教师模型)向未对齐的小模型(学生模型)传递知识。


为了让小模型同时捕捉正向(喜欢的回答  )和反向(不喜欢的回答  )信号,DCKD 在传统知识蒸馏的基础上增加了一个额外的 KL 散度约束。公式如下:

其中,  和   分别是教师模型和大模型在输入   下生成正向输出  (wining response)和反向输出  (losing response)的概率分布,  是超参数,用于平衡正向和反向信号的权重。


这种设计让学生模型不仅要模仿教师模型对正确答案的预测,还要理解教师模型对错误答案的判断。这样,学生就能更全面地掌握教师的决策逻辑,通过“双重约束”(正向和反向信号)提升对偏好的理解能力。


2.2 优势引导蒸馏(ADPA)


ADPA是这项研究的亮点,作为“主菜”,它通过引入“优势函数”(Advantage Function)进一步优化训练过程,显著提升小模型的对齐能力。具体来说,优势函数的计算基于经过直接偏好优化(DPO)训练的大模型(对齐模型)和一个未训练的参考模型(未对齐模型)。  


优势函数的计算:ADPA 中的优势函数   通过比较对齐后的教师模型(DPO Teacher, )和参考教师模型(reference Teacher, )在同一输入下的输出概率分布之差来计算,告诉学生在特定情况下哪些行为更符合人类偏好。



原论文附录 A 中给出了其完整的证明过程。这种设计利用了大模型对齐后的分布优势,捕捉偏好与非偏好的相对差异,作为小模型优化的指导信号。优势函数的在强化学习中用于衡量特定动作(或输出)相对于平均行为的优劣。 


基于最大化优势函数期望的目标,ADPA 的损失函数被定义如下:


其中, ,其中   是学生模型针对提示   生成的响应,  是提示   的真实响应。  表示监督微调损失,用于保留基本能力并避免过度优化,超参数   用于平衡监督微调项和优势引导蒸馏项(这里借鉴了 RPO 中使用 SFT 项避免过度优化的思路)。


通过这种明确的奖励引导,学生模型能直接学习到偏好相关的动作,而不仅是模仿输出分布,从而更高效地实现偏好对齐。


2.3 ADPA+——先DCKD,后ADPA  


研究还提出了 ADPA+,它对 DCKD 训练后的学生模型进行 ADPA 训练。ADPA+ 首先使用 DCKD 进行初步知识蒸馏,让小模型初步模仿大模型的行为,然后通过 ADPA 利用优势函数进一步细化对齐效果。


实验表明,ADPA+ 在性能上远超单独使用 DCKD 或 ADPA,尤其在小模型(如 Danube3-500M)上表现更优。


DCKD 先通过分布对齐让学生模型大致掌握教师的偏好知识,打下基础;然后 ADPA 利用优势函数提供更精确的指导,优化学生的偏好对齐能力。ADPA+ 的流程如下:



03 实验


测评方法上,论文主要使用了 MT-Bench、AlpacaEval,和OpenLLM Leaderboard(OLL)。由于小模型的能力还不足以与 GPT-4 相媲美,比较胜率会引入较大的噪声,导致不同方法之间难以比较,所以论文中在测试 AlpacaEval 时,使用 ADPA 训练的小模型作为基线。


文中使用的教师-学生模型组合有:Llama3.1-8B->Llama3.2-1B、Mistral7B->Danube3-500M, Danube2-1.8B、Llama2-13B->Llama2-7B;文中使用的指令微调数据集为 Deita-10K,使用的偏好数据集为:DPO-MIX-7K 和 HelpSteer2。


实验结果如下:


实验结果表明,DCKD 和 ADPA 显著优于基线方法(如 DPO、SimPO、VanillaKD 等)。


以 LLaMA-3.2-1B 为例,在 DPO-MIX-7K 上,DCKD 和 ADPA 分别比 DPO 提升了 0.10 和 0.48 的 MT-Bench 评分,而 ADPA+(DCKD与 ADPA 结合)进一步提升至 4.02,胜率在 AlpacaEval 中达 53.8%。在 Open LLM Leaderboard 上,ADPA+ 也展现出最佳平均性能(如 43.07 on HelpSteer2)。


04 ADPA 为何有效?消融实验的启示

4.1 消融实验


ADPA 的优势函数中引入了参考教师,论文中对此进行了消融实验,尝试在优势函数中去掉  ,仅保留  ,损失函数改变为:,相当于反向的交叉熵损失函数。


此外,论文中还尝试了更多的消融实验,如 DCKD 中取消教师的 DPO 训练阶段(仅使用 SFT 后的教师),或者取消反向信号(不喜欢的回答  )上的蒸馏。消融实验的结果如下:



可见 ADPA 中优势函数的 reference 教师,以及 DCKD 中对教师进行 DPO 训练和加入反向信号的蒸馏都会提升学生模型的对其效果。


4.2 细粒度奖励的好处——O(1)级别的样本复杂度:


ADPA 能提供分布级别的对齐信号,这一点有何优势?文中从样本复杂度上进行了理论分析,并对不同粒度的奖励信号进行了对比实验。


文中先定义了奖励信号的样本复杂度为:在这种奖励信号的指导下,找出状态   下的最优动作  所需要的样本数量级。然后分别对本文提出来的分布级优势、token 级奖励和 sequence 级奖励的样本复杂度进行分析:



分布级优势(distribution-level advantage),即:


图片

这种奖励机制通过教师模型和参考模型的策略分布直接计算优势函数 ,只需利用当前状态   下教师模型   和参考教师   的策略分布,无需对未来状态或动作进行采样。


这种方法不依赖于额外的环境交互或模拟,因此每次计算仅涉及当前状态和动作,样本需求是常数级别的,即 O(1)。


token级奖励(distribution-level advantage),即:


图片

这种奖励机制模型需要评估当前状态   下所有可能的动作   的奖励,其中   是动作空间的大小(例如词汇表大小)。


为了准确计算每个动作的奖励,模型需要对词表中每个动作都采样一次,这意味着需要   次计算或采样。因此,样本复杂度为 


序列级奖励(sequence-level reward),即:


图片

在序列级奖励中,当前动作   的价值依赖于从当前时间步   到序列结束   的所有未来奖励。


为了评估这一影响,模型需要考虑从   开始的所有可能序列。每个时间步有   个可能的动作,剩余   步的序列总数为  。这意味着需要模拟或计算指数级的序列数量来估计当前动作的价值。因此,样本复杂度为 


论文中也对不同的奖励级别进行了实验,其中分布级优势使用 ADPA 进行优化,而 token 级和 sequence 级奖励使用 PPO 进行优化,并以 ADPA 作为基线,在 AlpacaEval 上(GPT-4Turbo 作为 judger)进行了测评,结果如下:



可见,虽然 ADPA 的细粒度奖励和更低的样本复杂度使得小模型更加受益。


4.3 其他基于 函数的蒸馏方法


传统策略蒸馏工作中,Q 函数或优势函数常通过 softmax 或 argmax 操作后,结合 KL 散度或交叉熵损失进行蒸馏,而 ADPA 是以最大化优势期望作为目标。


为了对比这几种基于优势的蒸馏方法,论文使用 ADPA 作为基线,在 AlpacaEval 的指令上进行胜率比较。由于优势函数可视为 Q 函数的偏移,softmax 和 argmax 结果相同,故分别以 KL 散度和交叉熵为目标进行蒸馏。



以 ADPA(胜率 50.0%)为基准,Q-argmax KD 胜率 41.8%,Q-softmax KD 的胜率为 28.2%。这提示在蒸馏过程中,保留优势函数的原始分布特征可能对性能提升更为关键。



结语

从大模型“一枝独秀”到小模型“迎头赶上”,AI 对齐技术正在迎来新的转折点。这项被 ICLR 2025 接受并入选 Spotlight 的研究意义重大,不仅在于技术突破,更在于它让我们看到:即使是“小个子”模型,也能通过“借力”大模型和优化方法(如 ADPA+),变得更聪明、更贴近人类需求。

结合 Hugging Face 的 SmolLM 实践和这项创新,我们或许正站在轻量 AI 普及的门槛上。你觉得未来小模型会有多大的潜力?欢迎留言讨论!

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

除了智能家居和可穿戴设备,我认为工业领域的边缘计算设备也有很大的应用潜力。在智能制造中,需要在生产线上实时处理大量的传感器数据,并做出相应的决策。ADPA 可以帮助这些设备搭载更智能的小模型,提高生产效率和产品质量。当然,前提是需要针对具体的工业场景,对模型进行定制化的训练和优化。

可穿戴设备也是一个很有前景的应用方向。像智能手表、智能手环等设备,由于算力有限,很难运行大型的 AI 模型。ADPA 可以帮助这些设备搭载更智能的小模型,实现更精准的健康监测、运动指导等功能。

我持不同意见,我认为ADPA更像是一种高效的“素质教育”。大模型相当于经验丰富的老师,ADPA是老师总结出的高效学习方法,小模型通过这种方法掌握的不仅仅是具体的“知识点”(即大模型的输出),而是学会了“学习的方法”(即对齐人类偏好的能力)。有了这种能力,小模型完全可以在新的场景下,根据实际情况进行调整和创新,并不会被大模型束缚。

这个问题让我想到了“师傅领进门,修行在个人”这句话。ADPA 提供了一种高效的入门方式,但最终小模型能否青出于蓝,还是要看它自身的努力和天赋。我觉得未来的研究方向可以关注如何设计更灵活的知识蒸馏策略,比如可以根据小模型的特性,动态调整蒸馏的强度和侧重点,让它们在学习的同时,也能保持自身的独特性。

ADPA 避免“对齐税”的思路,有点像“四两拨千斤”。它没有试图通过增加模型规模来硬抗对齐的压力,而是通过巧妙的方法,让小模型更高效地学习偏好。 这种思路也启发我们,在解决类似问题时,可以尝试从优化学习策略入手,而不是一味地追求更大的模型。

“对齐税”确实是个令人头疼的问题。ADPA 的高明之处在于,它通过知识蒸馏,让小模型直接学习大模型的“偏好知识”,避免了自己去“摸着石头过河”。这种方式相当于站在巨人的肩膀上,可以更高效地实现对齐,从而在一定程度上缓解“对齐税”。 此外,ADPA+ 中先使用 DCKD 进行初步知识蒸馏,让小模型大致掌握教师的偏好知识,打下基础;然后 ADPA 利用优势函数提供更精确的指导,优化学生的偏好对齐能力。这个流程也有助于避免小模型在对齐过程中迷失方向,从而更好地保留通用性能。

我觉得智能家居领域非常有潜力。现在很多智能音箱、智能电视都内置了语音助手,但这些语音助手的智能化程度还有待提高。如果能将 ADPA 应用于这些设备中的小模型,让它们更准确地理解用户的意图,就能显著提升用户体验。

楼上的观点很有意思!我觉得这个问题确实值得思考。ADPA 像是给小模型开了个“快速通道”,直接学习大模型的经验,避免了自己摸索的弯路。但任何事情都有两面性,如果小模型过于依赖这种方式,可能会陷入“路径依赖”,难以突破大模型的框架。未来的研究或许可以探索如何在知识蒸馏的过程中,保留小模型的自主学习空间,鼓励它们在继承的基础上进行创新。

我理解“对齐税”的本质是小模型在有限的参数空间内,为了满足对齐的需求,不得不牺牲一部分用于通用任务的能力。ADPA 通过优势引导,让小模型更精准地学习偏好,避免了盲目试错,从而提高了参数的利用率。 此外,文章中提到,ADPA 的损失函数中包含了监督微调损失,用于保留基本能力并避免过度优化。这相当于给小模型加了一个“安全锁”,防止它在对齐的过程中,把原有的技能都忘记了。