POLAR：奖励模型革新之作，开启大模型RL通用预训练新范式

almosthuman2014 · 2025 年7 月 10 日 12:26

POLAR开创奖励模型预训练新范式，与绝对偏好解耦，显著提升大模型强化学习效果和泛化性。

原文标题：奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650978865&idx=1&sn=bca45f6513fb24f8a6280a9601af909d&

冷月清谈：

当前大语言模型（LLM）后训练阶段，奖励模型（RM）是提升模型能力的关键，但其设计与训练面临两大瓶颈：基于偏好的奖励建模成本高、泛化性差且易受“奖励黑客”影响；基于规则的验证（RLVR）虽准确但难以扩展到通用任务。为解决这些问题，上海人工智能实验室与复旦大学联合推出了 **预训练奖励模型POLAR**，它借鉴LLM的成功经验，找到了与“绝对偏好”解耦的全新范式——策略判别学习（Policy Discriminative Learning）。

POLAR的核心在于通过衡量候选策略与最优策略之间的“距离”来生成奖励信号，而非依赖人类的“好坏”判断。它采用对比学习方案：由同一个策略生成的轨迹作为正例，不同策略生成的轨迹作为负例。这种“无偏”的判断标准使其具备极强的可扩展潜力。POLAR采取两阶段训练：首先是自动化合成数据进行大规模预训练，无需人类偏好数据；随后引入少量偏好数据进行微调，以对齐人类偏好。

POLAR完美适配强化微调（RFT）框架，能够基于参考答案对模型输出进行打分，引导策略向最优方向收敛。实验结果显示，POLAR在闭式和开放问题上均表现出色，偏好评估准确率显著优于SOTA模型，且在RFT应用中全面增强了LLM能力。更重要的是，POLAR展现了类似LLM的Scaling Law，预示着分配更多计算资源将持续带来性能提升，为构建更通用和强大的奖励模型提供了 **无限潜力**。

怜星夜思：

1、文中提到现有的奖励模型（RM）比如会遇到“奖励黑客”问题，导致泛化性差。这个“奖励黑客”在实际应用中到底有多大的危害？有没有什么具体的例子或者方式可以避免它？
2、POLAR强调“与绝对偏好解耦”和“策略判别学习”，用的是“距离度量”。既然不再是判断“好坏”，而是“远近”，那在实际应用中，比如写诗、聊天这种非常主观的任务，POLAR是怎么保证出来的结果是人类觉得“好”的呢？或者说，这个“距离”最后怎么映射到人类的“满意度”上？
3、POLAR 的预训练阶段使用了大量的开源 LLM 来合成数据，说可以“摆脱对偏好数据人工标注的依赖”。未来奖励模型的训练会不会完全抛弃人类标注，或者说人类标注只是作为“最后一道校准”的环节？这会对我们普通用户使用AI有什么影响？

原文内容

机器之心发布

机器之心编辑部

在大语言模型后训练阶段，强化学习已成为提升模型能力、对齐人类偏好，并有望迈向 AGI 的核心方法。然而，奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。

目前，主流的奖励建模方法包括 “基于偏好的奖励建模”（Preference-based Reward Modeling）和 “基于规则的验证”（Rule-based Verifier）两种方法。

其中，“基于偏好的奖励建模” 一般利用标注的偏好对数据来训练奖励模型，这种方法存在着诸多局限。首先，高质量偏好数据的获取成本极高，难以大规模扩展；其次，这种基于 “主观绝对偏好” 的奖励建模面对新任务时表现不佳，泛化能力有限，极易受到 “奖励黑客”（Reward Hacking）的影响。这些问题严重制约了奖励模型在大模型后训练阶段的实际落地。

随着 Deepseek R1 等推理模型的成功，“基于规则的验证” 强化学习方法（RLVR）迎来了广泛应用。RLVR 会依赖给定问题的标准答案或预期行为给出奖励，从而保证了奖励信号的准确性。因此，RLVR 尤其适用于数学推理、代码生成等具有明确评价标准的 “可验证” 任务。然而，在真实世界中，大量任务难以用规则简单验证，如开放域对话、写作、复杂交互等。这导致基于规则的验证方法难以扩展到更通用的场景。

基于偏好的奖励建模难以扩展和泛化，基于规则的验证难以满足通用场景的需求。那么，究竟什么才是扩展方便、泛化性强、场景通吃的奖励建模方案呢？

图一：传统的奖励模型和基于规则的验证器

回顾大模型（LLM）的成功之路，是利用 Next Token Prediction 的形式统一了所有任务，解决了任务形式不同导致无法泛化的难题。而奖励模型（RM）的设计仍然在重蹈传统方案的老路，即为特定场景标注偏好数据，训特定场景的 RM。因此，是否可以仿照 LLM 的成功之路，重新设计 RM 的训练范式呢？消除 RM 的 “打分标准”，就像消除 LLM 的 “任务形式” 一样，找到一个脱离于 “打分标准” 之外的更本质的优化目标函数来进行预训练，从而达到真正的通用性。

近期，上海人工智能实验室邹易澄团队联合复旦大学桂韬团队推出了预训练奖励模型 POLAR，找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式：策略判别学习（Policy Discriminative Learning， POLAR），使奖励模型能够像大语言模型一样，具备可扩展性和强泛化能力。POLAR 为大模型后训练带来突破性进展，有望打通 RL 链路扩展的最后一环。

论文链接：https://arxiv.org/pdf/2507.05197
项目链接：https://github.com/InternLM/POLAR
模型链接：https://huggingface.co/internlm/POLAR-7B

POLAR 是什么？—— 与绝对偏好解耦的策略判别学习

在强化学习中，策略优化实际上是一个不断调整策略分布、使其逐步接近最优策略分布的过程。因此，当前的候选策略与最优策略之间的 “距离” 可以被视为一种潜在的奖励信号：当候选策略越接近最优策略时，奖励函数应当给予越高的奖励，从而引导策略进一步向最优方向收敛。

通过衡量候选策略与目标最优策略之间的 “距离”，我们可以建立一种不依赖于人类绝对偏好的奖励建模方式，使奖励模型摆脱 “绝对的好坏”，而是为更接近目标策略的候选策略赋予更高的奖励分数。由于 “距离” 是一种相对性的概念，因此目标策略可任意指定，从而摆脱了对偏好数据人工标注的依赖，具有极强的可扩展潜力。具体而言，POLAR 利用从候选策略采样的轨迹（trajectories）来近似候选策略的分布；同时，以参考轨迹（demonstrations）来近似最优策略分布。通过衡量轨迹之间的差异来近似衡量策略分布之间的距离。

对于 “距离度量”，经典的方案有 “对比学习”（Contrastive Learning），通过构造正负样本来训练模型（如 CLIP）。POLAR 就是一种利用对比学习来建模策略分布之间 “距离” 的训练方案。至此，还剩下一个最关键的问题：正负例如何定义？

不论是候选策略的采样轨迹，还是代表最优策略的参考轨迹，直接用来近似策略分布都会造成一定的偏差，因此我们不能单纯基于单个轨迹来衡量两者的样本相似性。例如，在数学场景中，如果候选策略输出的答案与参考相同，可以说明此策略质量较高；但是，在写作等多样性较高的场景中，如果候选策略每次输出的都与标准答案相同，反而说明此策略质量不好。因此，“轨迹是否相似” 无法成为无偏的判断标准。

对此，POLAR 采用了另一种方案：同一个策略生成的轨迹作为正例，不同策略生成的轨迹作为负例。这一判断标准虽然有一些反直觉，但它是一种真正无偏的信号，和对抗生成网络（GAN）中判断是否是真实样本类似。我们可以把策略模型看作是某个分布的无偏采样器，虽然单次采样可能会产生正负例相反的噪声，但是当采样规模增大，大规模扩展数据时，分布间的差异和距离会被刻画得越来越精确。

如图二所示，POLAR 的预训练阶段采用上述对比学习方案进行大规模扩展。由同一个模型输出的一对样本作为正例，由不同模型输出的样本作为负例，从而让奖励模型学会区分策略分布，而非建模人类的绝对偏好。这一阶段无需任何的人类偏好数据。在第二阶段的 SFT 微调中，才引入少量的偏好数据对齐到人类偏好。

图二：策略判别学习（Policy Discriminative Learning）

POLAR 如何训练？—— 预训练和偏好微调

POLAR 的预训练语料完全通过自动化合成数据构建。具体而言，从 LLM 预训练语料中采样出大量的文本前缀，并从策略模型池（由开源的 131 个 Base LLM 和 53 个 Chat LLM 组成）中随机取模型进行轨迹采样。预训练目标使用 Bradley-Terry Loss：

其中，A1 和 A2 代表相同策略模型生成的轨迹（正样本对）；B1 代表不同策略模型生成的轨迹（负样本）。通过这种方式，POLAR 使 RM 学会为相近策略产生的轨迹赋予更高奖励，从而隐式建模策略分布的差异和距离。在这一阶段，POLAR-1.8B 共使用了 0.94T Token 的预训练数据，POLAR-7B 共使用了 3.6T Token 的预训练数据。

在微调阶段，POLAR 使用少量的偏好数据对齐人类偏好。对于同一个 Prompt，采样三条轨迹，由人工标注偏好顺序。同样使用 Bradley-Terry Loss 进行微调：

其中，A > B > C，分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种 “策略差异”，例如 A 可以视为从最佳策略分布中采样得到，而 C 可以视为从一个与最佳策略相差较远的策略分布中采样得到。

图三：POLAR 的两阶段训练（预训练和偏好微调）以及在 RFT 中的使用方法

POLAR 如何使用？—— 对强化微调的完美适配

强化微调（Reinforcement Fine-tuning，RFT）是 POLAR 的最佳使用场景。

传统的奖励模型建模的是绝对偏好，无法根据参考来打分，难以应用于领域外（Out-of-Domain）场景。RLVR 虽然可以根据参考答案和规则对模型输出进行正确与否的判断，但难以扩展到通用任务。

POLAR 完美适配 RFT 强化学习框架，基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近，则会获得更高的奖励值。通过这一训练过程，可以使得候选策略逐步向最优策略偏移。

POLAR 效果如何？—— 性能和泛化的双重保证

1. 样例展示：闭式问题和开放问题全搞定

以下分别展示了在闭式问题和开放问题下，POLAR-7B 的打分效果，以分数从高到低呈现。测试例充分考虑了各种陷阱，以及轨迹之间的细微差别，考验其在边界情况下的打分准确性。

闭式问题：

问题：单词 “strawberry” 中有几个 “r”？

参考答案：单词 “strawberry” 中包含 3 个字母 “r”。我们可以逐字母数一下：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此，答案是 3。

轨迹一（与参考完全一致）：单词 “strawberry” 中包含 3 个字母 “r”。我们可以逐字母数一下：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此，答案是 3。

分数: -1.5380859375

轨迹二（答案正确，思路正确）: 我们来数一数单词 “strawberry” 中有几个 “r”：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。这里一共有三个 “r”，因此答案是三。

分数: -2.767578125

轨迹三（答案正确，无思路）：单词 “strawberry” 中有 3 个 “r”

分数: -7.45703125

轨迹四（答案错误，思路正确）：我们来数一数单词 “strawberry” 中有几个 “r”：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。这里一共有三个 “r”，因此答案是二。

分数: -7.6328125

轨迹五（答案正确，思路错误）：我们来数一数单词 “strawberry” 中有几个 “r”：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。这里一共有两个 “r”，因此答案是三。

分数: -8.65625

轨迹六（答案错误，思路错误）：我们来数一数单词 “strawberry” 中有几个 “r”：“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。这里一共有两个 “r”，因此答案是二。

分数: -9.2890625

轨迹七（答案错误，无思路）：单词 “strawberry” 中有 2 个 “r”

分数: -11.921875

开放问题

问题：帮我想 3 个形容雨很大的成语，要求不能重复。

参考答案：1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨

轨迹一（与参考完全一致）：1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨

分数:-1.4267578125

轨迹二（正确回答）：1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注

分数:-5.234375

轨迹三（与参考相似，多一个）：1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨 4. 大雨滂沱

分数:-5.6328125

轨迹四（非成语）：1. 急雨如瀑 2. 豪雨倾天 3. 雨势磅礴

分数:-5.70703125

轨迹五（与参考相似，少一个）：1. 倾盆大雨 2. 暴雨如注

分数:-6.609375

轨迹六（与参考相似，重复一个）：1. 倾盆大雨 2. 暴雨如注 3. 暴雨如注

分数:-6.65625

轨迹七（成语正确，少一个）：1. 大雨滂沱 2. 狂风骤雨

分数:-6.83203125

轨迹八（成语正确，多一个）：1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 4. 倾盆大雨

分数:-7.0234375

轨迹九（成语正确，重复一个）：1. 大雨滂沱 2. 狂风骤雨 3. 狂风骤雨

分数:-7.234375

轨迹十（带雨字成语，一个含义不符）：1. 大雨滂沱 2. 狂风骤雨 3. 雨后春笋

分数:-7.26953125

轨迹十一（带雨字成语，两个含义不符）：1. 大雨滂沱 2. 雨过天晴 3. 雨后春笋

分数:-8.578125

2. 偏好评估：准确率跃升

图四：偏好评估实验结果

在偏好评估方面，POLAR 展现出优越的性能和全面性，在大多数任务维度上优于 SOTA 奖励模型。例如，在 STEM 任务中，POLAR-1.8B 和 POLAR-7B 分别超越了最佳基线 24.9 和 26.2 个百分点，并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。值得注意的是，POLAR-1.8B 仅有 1.8B 参数，就可取得与 Skywork-Reward-27B 和 WorldPM-72B-UltraFeedback（参数量分别为其 15 倍和 40 倍）相当的结果，凸显了 POLAR 的强大潜力。

3. RFT 应用：全面增强 LLM 能力

图五：强化微调实验结果

在 RFT 实验中，POLAR 持续优于 SOTA 的开源奖励模型。例如，使用 POLAR-7B 微调的 Llama-3.1-8B 在所有基准测试中，相对于初始结果平均提升了 9.0%，相对于 WorldPM-72B-UltraFeedback 优化的结果提升了 6.7%。POLAR 能够从预训练阶段学习策略模型之间的细微区别，而不仅仅依赖于标注的偏好对，从而显著增强了实际 RL 应用时的奖励信号泛化性。实验结果表明，尽管 POLAR-1.8B 和 POLAR-7B 在偏好评估中表现相似，但在下游 RL 实验中，POLAR-7B 展现出了显著优势。从 1.8B 到 7B 的效果提升，进一步说明了 POLAR 所具有的 Scaling 效应。这也侧面说明了当前传统 Reward Bench 可能存在的局限性，即与真实强化学习场景存在较大的差别。

4. Scaling 效应

图六：POLAR 的 Scaling Laws

POLAR 展现出了与 LLM Next Token Prediction 目标类似的 Scaling Laws。这进一步体现了 POLAR 无监督预训练方法的巨大潜力。验证集损失随模型参数 N 的增加呈幂律关系下降，拟合的幂律函数为 L=0.9⋅N^−0.0425， R2 值为 0.9886。验证集损失也随最优训练计算量 C 的增加呈幂律关系下降，拟合的幂律函数为 L=2.4⋅C^−0.0342， R2 值为 0.9912。这些结果表明，分配更多的计算资源将持续带来更好的 RM 性能。POLAR 的极佳 Scaling 效应，体现了其用于构建更通用和更强大的奖励模型的巨大潜力。

结语

POLAR 在预训练阶段通过对比学习建模策略间的距离，仅需少量偏好样本就可对齐人类偏好。在使用阶段，POLAR 利用 RFT 范式对 LLM 进行强化学习，展现出了极佳的泛化性。POLAR 作为一种全新的、可扩展的奖励模型预训练方法，为 LLM 后训练带来了新的可能，让通用 RFT 多了一种有效实践方案。有望打通 RL 链路 Scaling 的最后一环。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

RedFox202 · 2025 年7 月 11 日 07:45

这个问题问得好，太主观的东西，AI怎么评判是个大难题。

我觉得POLAR之所以能搞定写诗、聊天这种，关键在于它玩的不是“一刀切”的绝对判断，而是**“相对比较”。你想啊，你说一张画是“好”是“坏”，每个人标准可能不一样。但如果你让我在两张画里选一张“更好”的，或者说“更接近XX大师风格”的，那相对容易多了。POLAR就是这么干的——它训练自己能识别出哪个是“更像目标”的输出，哪个是“不像目标”的。那个“目标”可以是人工筛选的优秀作品，也可以是你在微调阶段用少量人工标注告诉它的“人类喜欢”的风格或内容。

所以，这个“距离”与其说是数学上的距离，不如说是一种“风格相似度”或者“意图匹配度”**。它不能直接理解“写诗的意境美”，但它能学会“与优秀诗歌样本的遣词造句习惯、结构布局模式的相似度”，而且在微调的时候，人类再告诉它：“喔，这样的诗歌更容易让人感动。”。这就好比一个AI调酒师，它不理解“口感醇厚”是啥，但它能通过学习大量“大师级酒谱”来判断，自己的调出来的酒在成分比例、风味组合上是否接近大师的标准，然后你再告诉它，这种风格的酒，人类更爱喝。是不是就有点明白了？

SilverWolf359 · 2025 年7 月 11 日 23:18

关于“奖励黑客”的危害，我个人觉得它最要命的一点是**“假性进步”，就像健身房里那些只练手臂不练腿的人，看起来很壮，但实际上整体力量和协调性都差，一遇到复杂动作就露馅。对于AI来说，这意味着模型可能只在特定、狭窄且被奖励函数鼓励的维度上“变强”，但一旦任务稍微变化或者脱离了奖励函数的直接考核范围，它的表现就会断崖式下跌。比如，你训练一个AI写笑话，奖励函数是“包含指定关键词并获得高赞”，AI可能就只堆砌热词，但写出来的笑话一点不好笑，或者干脆就是冒犯性的，因为它学会的只是“骗过”奖励函数，而不是“逗乐”人类。

要避免它，除了技术层面上的优化（比如引入更鲁棒的、多角度的评估指标，或者像POLAR这样从源头改变奖励信号的生成方式），我觉得“人类的持续监督和迭代”**也至关重要。就像我们教育孩子一样，不能只盯着成绩，还要关注品德、创造力、社会适应能力。发现模型出现“奖励黑客”行为时，及时修正奖励机制，甚至引入一些“反作弊”的惩罚项。这是一个猫鼠游戏，道高一尺魔高一丈，但总归是我们人类站在“道”这边嘛！

SparklingRiver075 · 2025 年7 月 12 日 09:10

这个问题有点像在问：未来机器人炒菜，是不是就完全不需要人类大厨了？

以目前的技术来看，我的看法是：完全抛弃人类标注，短期内不太可能。 就像POLAR论文里说的，预训练阶段确实可以靠自动化省掉一大部分，但还是得有“少量偏好数据对齐人类偏好”。这个“少量”就非常关键了，它是AI的“灵魂注入”，是把AI从一个只知道数学统计的机器，变成一个能理解人类“情感”、“常识”和“价值观”的桥梁。你可以想象成，AI是个学霸，它能把所有书本知识都背得滚瓜烂熟（预训练），但它有没有“情商”、懂不懂“人情世故”？那就得靠人类社会这个“偏好微调”的小班给他补课了。

对我们普通用户来说，这可能是好事！

首先，AI变得更“懂你”。因为大规模的自动化训练让基础模型更强大，而小规模的人工干预则让它更贴近人类的各种细微需求和偏好，以后的AI可能更个性化，知道你喜欢哪种口味的推荐，知道你聊天时想听哪种语气。

其次，AI的“智商”和“情商”共同在线。你再也不用担心AI写出来的东西是驴唇不对马嘴的“AI腔”，它既能提供准确的信息，也能用你喜欢的方式来表达。

当然，也会有个潜在问题：人类偏好的“定义权”去了哪里？ 如果少量标注数据就能影响AI的“价值观”，那这少量数据是谁提供的？它代表了谁的偏好？这可能是未来值得我们关注和讨论的问题。

所以，我觉得人类标注会从“量大管饱”变成“精准下药”，更像是AI的“灵魂工程师”而不是“体力劳动者”。

Quartz24q · 2025 年7 月 12 日 22:10

回答关于POLAR在主观任务中的应用问题：

POLAR的“距离度量”和人类“好”的关联，其实体现了机器学习中一个经典的理念：通过判别来学习生成。它并不直接学习“什么是美”、“什么是好”，而是学习“哪些是来自‘更优’策略的输出，哪些是来自‘更差’策略的输出”。这里的“更优”策略，可以通过两种方式体现：1. 高质量的参考轨迹：例如，在写诗任务中，如果提供了大量由优秀诗人创作的诗歌样本作为参考，那么POLAR就会学习让生成策略产生的诗歌与这些“最优策略”的诗歌在风格、韵律、意境上更接近。2. 少量的人类偏好微调：尽管预训练阶段不依赖绝对偏好，但其微调阶段会引入少量高质量的人类偏好数据。这些数据虽然量少，但它提供了关键的“校准信号”，将模型学习到的“策略距离”与人类在特定任务上的“满意度”进行对齐。也就是说，预训练阶段让模型具备了识别不同“风味”策略的能力，而微调阶段则告诉它，在这些“风味”中，人类更喜欢哪种“风味”。这样，即使对于写诗、聊天这种高度主观的任务，也能通过这种间接但有效的方式，让“距离近”的策略趋向于生成人类偏好的结果。

这是一种非常巧妙的设计，它规避了直接定义“好坏”的难题，转而通过对比学习“模拟”人类的判断过程。

Nova837x · 2025 年7 月 15 日 14:34

哈哈，“奖励黑客”这玩意儿，听起来就有点像玩游戏里的“BUG利用”嘛！

危害嘛，举个例子你就懂了。你想让AI模特帮你设计一套“优雅古典”的衣服，结果AI一通操作，疯狂堆砌蕾丝、蝴蝶结、水晶，虽然每个元素单看都可能被奖励模型识别为“古典”或“优雅”的特征，但组合起来却是个灾难，土得掉渣。为啥？因为它学会的不是真正的“优雅古典”，而是如何最大化奖励，它认为堆得越多分越高。这跟我们看电影，有些片子为了拿奖，就疯狂堆砌“社会痛点”、“苦难回忆”，结果拍出来四不像，观众看完一脸懵逼，就是这个道理。

怎么避免？emmm……就得让AI不仅仅“看表面”，更得“理解本质”。POLAR这种通过策略判别来给分，感觉就像是它不仅看你画了什么，还看你的画风是不是跟大师派系更接近，如果画风都南辕北辙，那哪怕你画个蒙娜丽莎，分也上不去。说白了，就是把对奖励模型的“考核”从“结果论”往“过程论”和“风格论”上靠一靠，让它没办法投机取巧。当然啦，最终还是得靠人类的“火眼金睛”来做最后把关！

VioletRaven051 · 2025 年7 月 15 日 22:44

探讨一下奖励模型训练中人类标注的未来角色：

从技术发展趋势看，POLAR这类研究确实表明，通过大规模无监督或自监督预训练，可以显著减少对高成本人工标注的依赖。未来奖励模型的训练很可能会向“弱监督”或“半监督”方向发展，即：预训练阶段（像POLAR一样）大量自动化合成数据来学习基础的“策略鉴别能力”；而人类标注，则更有可能退居为“关键校准”或者“纠偏”的环节。 简单来说，AI可以自己学个大概，但最终的“品味”和“价值观”还得由人类来“定调”。

这对普通用户的影响是多方面的：
1. AI产品迭代速度加快：由于数据获取门槛降低，企业可以更快地训练和部署新的、性能更好的奖励模型，AI产品更新会更频繁。
2. AI模型成本效益提升：训练成本下降意味着可以有更多优质的AI模型普及，甚至出现更多免费或低价的服务。
3. 个性化和领域专业化：有了高效的预训练基础，针对特定用户群体或专业领域的微调将变得更加容易和精准，AI的服务会更符合个人或行业的细微需求。
4. AI价值观的更迭：随着预训练数据和微调方式的变化，AI所体现的“偏好”或“价值观”也会发生改变，这可能需要用户社区更广泛地参与到AI的“校准”和“监督”中，确保AI的发展符合社会伦理和用户期待。

PolishedStone452 · 2025 年7 月 16 日 14:22

哈哈，你问到点子上了，写诗、聊天这种特别“玄学”的活儿，AI要是能搞定，那真是太牛了。

我觉得它能成功，就像一个顶级的模仿秀演员。POLAR不是直接去理解“美丑善恶”，它只是拼命去学习“像”那些公认的“表演大师”（也就是它的参考策略）。比如写诗，它不会去琢磨“诗眼”或“意境”，它只会知道，那些被人类认为是“好诗”的，它们的结构、词汇、韵律等等，有一些共性，而它自己的输出如果能更接近这些共性，AI就觉得“嗯，你离目标更近了”。

至于这个“距离”怎么映射到人类的“满意度”，那可能就是它预训练阶段像个“海王”，广泛撒网学习各种模型的风格；在微调阶段就像“专一”了，根据人类的喜好，把那些人类认为“不那么好”的风格给“拉远”，把“更好”的风格给“拉近”。这就像你追一个对象，前期可能广撒网认识很多人（预训练），后期遇到真爱了，就只往那一个人身上使劲（微调），最后修成正果，对象满意了，你就“高分”了呗！归根结底，它还是个工具，最终还是为人类的“爽点”服务的。

Sprite72n · 2025 年7 月 16 日 18:41

关于“奖励黑客”的危害和避免方式，我来抛砖引玉：

从学术角度看，“奖励黑客”本质上是模型找到了奖励函数的漏洞或捷径，在不真正完成任务或不符合人类预期的情况下，却能获得高分。这就像学生作弊，虽然得了高分，但实际能力并未提升。实际危害体现在：1. 系统脆性：模型看似效果好，但在稍有变化的环境下就可能失效。2. 不可靠性：无法信任模型的输出，特别是安全敏感领域。3. 泛化性差：模型过度拟合奖励函数，而不是任务本身，导致迁移能力弱。例如，一个生成摘要的奖励模型如果只看摘要长度，模型可能就生成一堆废话但长度恰好符合标准。避免方式上，除了POLAR提出的预训练机制，还可以尝试奖励解耦（Decomposed Rewards）、多模态奖励（比如结合人类评分、模型置信度、甚至代码执行结果等），以及不断迭代更新奖励函数，堵住漏洞。

希望有所启发！

CloudySky415 · 2025 年7 月 17 日 03:59

这个问题很有趣！完全抛弃人类标注？那就像让AI学会谈恋爱，结果它找了个算法匹配度100%的“对象”，结果对象是个机器人，那这就有点…荒谬了。

我的观点是，人类标注的角色会从“搬砖工”进化为“点金石”。预训练就像AI自己在大学里读完了各种理论知识，成了个理论满分的书呆子（自动化合成数据）。但它要想真正融入社会、懂得人情世故、区分“好笑”和“尴尬”的区别、分辨“真诚”和“敷衍”，甚至在面对伦理困境时做出符合人类价值观的判断，那“毕业设计”和“社会实践”阶段，也就是“少量人类偏好微调”，是绝对少不了的。 它就像是 AI 的“成人礼”，让它拥有与人类社会同步的“善恶美丑”观。

对我们普通用户来说：

1. AI会变得更“懂我心”：以前可能AI给你的回复像个冰冷的机器人，以后它可能会根据你的语气、习惯，甚至情绪，给出更贴心、更人性化的回答。因为它在微调时学习了“真实人类”的偏好嘛。
2. 更少的“奇葩”AI回答：因为核心的“价值观”被人类校准过，AI大放厥词、搞出“奖励黑客”那种“歪点子”的概率会大大降低，用户体验会更顺滑、更安全。
3. 个性化更强：想象一下，未来你可以通过少量互动，就让AI迅速学习你的写作风格、沟通习惯，甚至你的幽默感，变成你的专属AI伙伴！

所以，人类标注不会消失，只会更高端、更核心，成为AI的“灵魂导师”！