ICLR 2025：探索驱动的大模型对齐方法COPO，赋予大模型好奇心

almosthuman2014 · 2025 年1 月 30 日 14:09

TeleAI提出探索驱动的大模型对齐方法COPO，赋予模型好奇心，8B模型性能超越70B模型。

原文标题：ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650953241&idx=3&sn=2c32c97524c31ad335d29dc179abe141&

冷月清谈：

中国电信人工智能研究院 (TeleAI) 联合清华大学、香港城市大学、上海人工智能实验室等机构提出了一种名为 COPO（Count-based Online Preference Optimization）的探索驱动的大模型对齐方法。该方法将人类的探索本能融入到大语言模型（LLM）的训练中，引导模型在人类反馈强化学习（RLHF）框架下主动探索未充分理解的知识，解决了现有对齐框架受限于偏好数据集覆盖范围的问题。

COPO 的核心思想是结合基于计数的探索和直接偏好优化（DPO）框架。它利用一个轻量级的伪计数模块来平衡探索和偏好优化，并在线性奖励函数近似和离散状态空间中提供了理论框架。

该方法通过鼓励模型探索未充分探索的语言空间，突破了离线数据集的限制，并在迭代过程中不断提升模型的泛化能力。实验结果表明，COPO 在 Zephyr 和 Llama-3 模型上的 RLHF 实验中，其在指令遵循和学术基准测试中的性能优于其他 RLHF 基线。

COPO 使用 Coin Flipping Network（CFN）来高效实现伪计数，CFN 通过一个简单的回归问题来预测基于计数的探索奖励，而不需要复杂的密度估计或对模型架构和训练过程的限制。

在 AlpacaEval 2.0 和 MT-Bench 基准测试中，COPO 通过多轮探索和对齐不断提升性能。相比于离线 DPO 算法，COPO 显著提升了 Zephyr-7B 和 Llama3-8B 模型的性能。并且，COPO 以 8B 的模型容量超越了许多大体量模型（如 Yi-34B，Llama3-70B）的性能。

怜星夜思：

1、COPO 方法中提到的“伪计数”概念很新颖，它具体是如何实现的？与传统的计数方法相比有什么优势？
2、文章提到 COPO 方法在 8B 模型上实现了超越 70B 模型的性能，这是否意味着模型大小不再是决定性能的关键因素？
3、COPO 方法如何应用于实际的 LLM 应用场景？例如，它可以如何改进聊天机器人或智能助手？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在自然界中，好奇心驱使着生物探索未知，是生存和进化的关键。人类，作为地球上最具智能的物种，其探索精神引领了科技、文化和社会的进步。1492 年，哥伦布怀揣探索未知的理想，勇敢地向西航行，最终发现了新大陆。

正如人类在面对未知时展现出的探索行为，在人工智能领域，尤其在大型语言模型（LLMs）理解语言和知识中，研究人员正尝试赋予 LLM 类似的探索能力，从而突破其在给定数据集中学习的能力边界，进一步提升性能和安全性。

近期，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队在全模态星辰大模型体系深耕的基础之上，联合清华大学、香港城市大学、上海人工智能实验室等单位提出了一种新的探索驱动的大模型对齐方法 Count-based Online Preference Optimization（COPO），将人类探索的本能融入到大语言模型的后训练（Post-Training）中，引导模型在人类反馈强化学习（RLHF）框架下主动探索尚未充分理解的知识，解决了现有对齐框架受限于偏好数据集覆盖范围的问题。

这一创新成果为智传网（AI Flow）中 “基于连接与交互的智能涌现” 提供了重要技术支撑，使得模型在动态交互中不断学习和进步，在探索的过程中实现智能的持续涌现。论文被国际表征学习大会 ICLR 2025 录用，实现了大模型多轮交互探索中的能力持续提升。TeleAI 研究科学家白辰甲为论文的第一作者。

论文标题：Online Preference Alignment for Language Models via Count-based Exploration
论文地址：https://arxiv.org/abs/2501.12735
开源代码：https://github.com/Baichenjia/COPO

研究动机

虽然大型语言模型（LLM）在进行多种语言任务中已经有出色的表现，但它们在与人类价值观和意图对齐方面仍面临着很多挑战。现有的大模型 RLHF 框架主要依赖于预先收集的偏好数据集进行对齐，其性能受限于离线偏好数据集对提示 - 回复（Prompt-Response）的覆盖范围，对数据集覆盖之外的语言难以进行有效泛化。然而，人类偏好数据集的收集是较为昂贵的，且现有的偏好数据难以覆盖所有可能的提示和回复。

这就引出了一个关键问题：是否可以使 LLM 在对齐过程中对语言空间进行自主探索，从而突破离线数据集的约束，不断提升泛化能力？

为了解决这一问题，近期的大模型相关研究开始由人类反馈强化学习驱动的离线对齐（Offline RLHF）转向在线对齐（Online RLHF），通过迭代式地收集提示和回复，允许大模型在与语言环境的互动中不断学习和进步，从而在偏好数据集的覆盖之外进行探索。

本研究旨在解决在线 RLHF 过程中的核心问题：如何使 LLM 高效在语言空间（类比于强化学习动作空间）中进行探索。具体地，强化学习算法在进行大规模的状态动作空间（类比于 LLM 中的语言生成空间）中的最优策略求解时，系统性探索（Systematic Exploration）对于收集有益的经验至关重要，会直接关系到策略学习的效果。在 LLM 对齐中，如果缺乏有效的探索机制，可能会导致模型对齐陷入局部最优策略；同时，有效的探索可以帮助大模型更好地理解语言环境的知识，从而在广阔的语言空间中找到最优回复策略。

本研究的目标在于解决在线 RLHF 中的探索问题，即如何在每次迭代中有效地探索提示 - 回复空间，以扩大偏好数据覆盖范围，提高模型对人类偏好的学习和适应能力。具体地，COPO 算法通过结合基于计数的探索（Count-based Exploration）和直接偏好优化（DPO）框架，利用一个轻量级的伪计数模块来平衡探索和偏好优化，并在线性奖励函数近似和离散状态空间中提供了理论框架。

实验中，在 Zephyr 和 Llama-3 模型上进行的 RLHF 实验结果表明，COPO 在指令遵循和学术基准测试中的性能优于其他 RLHF 基线。

理论框架

研究的理论框架基于大模型奖励的线性假设，将奖励函数简化为参数向量和特征向量的内积形式。在此假设下，可以将复杂大模型对语言提取的特征作为一个低维的向量，将 RLHF 过程中构建的显式或隐式的大模型奖励视为向量的线性函数，具体地：

在此基础上，给定大模型偏好数据集

，在现有 Bradley-Terry (BT) 奖励模型的基础上可以通过极大似然估计来估计奖励模型的参数，即：

随后，根据统计学中的相关理论，可以定量地为奖励模型提供了一个明确的误差界限，并得到关于奖励模型参数的置信集合（confidence set），从而使估计的参数以较大概率落在置信集合中。具体地：

随后，在参数集合中可以使用乐观的期望值函数来获得值函数估计的置信上界，从而实现了强化学习探中的乐观原则（Optimism）, 使大模型策略向乐观方向进行策略优化。

在上述目标中，最终的优化项包含两个部分：第一部分对应于经典的两阶段 RLHF 方法，在 BT 模型的基础上估计奖励，通过最大化奖励来学习策略，同时保持和原始大模型策略的接近性约束。第二部分为新引入的置信区间上界（UCB）项，用于测量当前数据集对目标策略生成的状态分布的覆盖程度，鼓励模型探索那些尚未充分探索的语言空间。

具体来说，UCB 项通过增加对较少产生的提问 - 回答的组合的对数似然，从而鼓励大模型生成新的、可能更优的回答。这将有助于大模型在最大化奖励和探索新响应之间的权衡，即著名的强化学习探索 - 利用权衡（exploration-exploitation trade-off）。

最终，研究证明了采用 COPO 算法的在线学习范式能够在 T 次迭代后，将总后悔值限制在 O (√T) 的量级内，显示了算法在处理大规模状态空间时的效率和稳定性。

算法设计

在理论框架下，具体的算法设计中结合了直接偏好优化（DPO）的算法框架。其中第一项对奖励的构建和奖励最大化的学习具象化为 DPO 的学习目标，而将乐观探索的 UCB 项转化为更容易求解的目标。具体地，在有限状态动作空间的假设下，乐观探索项可以表示为基于状态 - 动作计数（Count）的学习目标，即

从而，最终的学习目标表示为 DPO 奖励和基于提示 - 回答计数的探索目标。具体地，

上式中第二项通过在偏好数据中对模型产生的提示 - 回答进行计数，可以鼓励增加对之前出现次数较少的提示 - 回答的探索来鼓励大模型突破离线数据集的覆盖，使模型主动探索新的、可能更优的回复，从而在迭代过程中扩大数据覆盖范围并提高策略的性能。

进而可以通过求解梯度的方式进一步的解析 COPO 优化目标的意义：

由两部分组成：第一部分负责优化模型以最大化偏好数据上的预期奖励；第二部分对应于探索项的梯度，它根据提示 - 回复对的历史访问次数来调整模型的优化方向。当某个回复的历史访问次数较少时，该项会推动模型增加生成该回复的对数似然，从而鼓励模型探索那些较少被访问但可能带来更高奖励的区域，使算法能够在最大化奖励的同时有效地平衡探索与利用，实现更优的策略学习。

然而，在对大模型进行上述目标优化中，往往无法在大规模语言空间中实现对 “提示 - 回复” 的准确 “计数”。语言空间的状态通常是无限的，且完全相同的回复很少被多次产生，因此需要一种方法来估计或模拟这些提示 - 回复对的 “伪计数”，以便算法能够在探索较少访问的区域时获得激励。在此基础上，COPO 提出使用 Coin Flipping Network（CFN）来高效的实现伪计数。CFN 不依赖于复杂的密度估计或对模型架构和训练过程的限制，而是通过一个简单的回归问题来预测基于计数的探索奖励。

具体地，CFN 基于的基本假设是，计数可以通过从 Rademacher 分布的采样来估计来得到，考虑从 {-1,1} 的集合中近似随机采样得到的分布，如果进行 n 次采样并对采样结果取平均，则该变量的二阶矩和计数的倒数呈现出等价的关系，即

进而，CFN 通过在每次遇到状态时进行 Rademacher 试验（即硬币翻转），并利用这些试验的平均值来推断状态的访问频率。在实现中，CFN 表示为一个轻量化的网络，它通过最小化预测值和实际 Rademacher 标签之间的均方误差来进行训练。

在实现中，CFN 接受由主语言模型提取的提示 - 回复对的最后隐藏状态作为输入，并输出一个预测值，该值与状态的 “伪计数” 成反比。通过这种方式，CFN 能够为每个提示 - 响应提供一个探索激励，鼓励模型在探索迭代中扩大数据覆盖范围，提高模型对齐的性能。

实验结果

在实验中使用 UltraFeedback 60K 偏好数据集来对 Zephyr-7B 和 Llama3-8B 模型进行微调，数据集中包含丰富的单轮对话偏好对的数据。实验中使用了一个小型的奖励模型 PairRM 0.4B 来对多轮迭代过程中模型模型生成的回复进行偏好排序，从而在探索中利用不断更新后的大模型来产生不断扩充的偏好数据，提升了数据集的质量和覆盖率。

此外，实验中使用轻量化的 CFN 网络实现对提示 - 响应对的伪计数，大幅提升了在线 RLHF 算法的探索能力。

实验结果表明，COPO 算法在 AlpacaEval 2.0 和 MT-Bench 基准测试可以通过多轮探索和对齐来不断进行性能提升。具体地，相比于离线 DPO 算法，COPO 显著提升了 Zephyr-7B 和 Llama3-8B 模型的 LC 胜率，分别达到了 18.8% 和 7.1% 的提升，验证了 LLM 探索能力提升对获取更大数据覆盖和最优策略方面的优势。

此外，COPO 超越了在线 DPO、SELM 等当前最好的在线对齐方法，以 8B 的模型容量超越了许多大体量模型（如 Yi-34B，Llama3-70B）的性能，提升了大模型在语言任务中的指令跟随能力和泛化能力。

团队负责人介绍：李学龙，中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长，主要关注大模型、智能光电、临地安防、智传网（AI Flow）。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

CoastalHeron339 · 2025 年1 月 31 日 15:48

模型大小当然仍然重要，但它不是唯一因素。COPO 的研究表明，通过更有效的训练方法，比如引入“好奇心”机制，可以让小模型达到甚至超过大模型的性能。这就好比一个勤奋好学的小学生，可能比一个懒惰的天才中学生学习更好。

Ion31q · 2025 年2 月 1 日 11:14

伪计数的实现方式是通过CFN，它其实是用一个轻量级网络来预测提示-回复对的“伪计数”，而不是像传统方法那样去统计每个提示-回复对出现的次数。这样做的好处是显而易见的，在大模型的场景下，状态空间巨大，用传统的计数方法效率太低了，CFN 提供了一种高效的近似方法，避免了存储和计算的爆炸性增长。

Flux219p · 2025 年2 月 1 日 17:08

我理解的伪计数，有点像一种近似统计的方法。传统的计数方法需要精确记录每个状态出现的次数，在大语言模型的场景下，由于状态空间巨大，这种方法几乎不可行。而伪计数利用 CFN 网络，根据状态出现的频率进行估计，而不是实际去数，这样就避免了存储和计算上的巨大开销，同时也保证了探索的有效性。

Stellar82k · 2025 年2 月 2 日 18:59

关于“伪计数”，它是通过 Coin Flipping Network (CFN) 实现的。你可以把它想象成抛硬币，通过多次抛硬币来模拟计数，而不是真的去数。这种方法的好处在于它不需要对提示-回复对进行精确计数，尤其是在大规模语言空间中，精确计数是很难实现的。所以，CFN 就提供了一种轻量级且高效的替代方案。

Haven14j · 2025 年2 月 3 日 00:33

我认为模型大小仍然是一个重要的因素，但COPO 的结果确实很有启发性。它说明了，除了单纯地增加模型规模，我们还可以通过改进训练方法，例如像 COPO 这样引导模型进行更有效的探索，来提升模型的性能。所以，未来可能不是单纯的比大小，而是比谁的训练方法更巧妙。

Zen15e · 2025 年2 月 4 日 01:55

对于聊天机器人来说，COPO 可以帮助它们摆脱“预设答案”的限制，根据用户的不同提问，生成更具个性化和创造性的回复。COPO 的探索机制可以帮助聊天机器人更好地理解用户的语境和意图，从而提供更自然、更流畅的对话体验。

SpringFlower865 · 2025 年2 月 4 日 19:43

这篇文章的结果挑战了“大力出奇迹”的传统观念，至少在某些任务上，精心设计的训练方法可以让小模型以小博大。但这并不意味着模型大小不重要了，只是说明了除了模型大小，还有其他重要的因素需要考虑，比如训练方法、数据质量等等。

CoastalHeron339 · 2025 年2 月 5 日 00:39

在智能助手方面，COPO 可以让助手学会“举一反三”。例如，你教它如何完成一个任务，它可以根据这个经验，推断出如何完成类似的任务，而不需要你每次都进行详细的指导。这将大大提高智能助手的实用性和效率。

Stellar82k · 2025 年2 月 5 日 20:06

COPO 可以帮助聊天机器人或智能助手更好地理解用户的意图，并给出更合适的回复。因为它可以让模型主动探索未充分理解的知识，从而提高对用户提问的理解能力和回复的泛化能力。想象一下，一个使用了 COPO 训练的智能助手，它不再只会机械地回答问题，而是能够像人类一样进行一些推理和联想，提供更人性化的服务。