大模型后训练：微调、对齐与推理优化全攻略

ali_tech · 2025 年7 月 30 日 16:22

深入解析大模型后训练：微调与对齐驱动性能突破，强化学习及思考时间成优化关键。一文掌握大模型进阶之道！

原文标题：微调之后还能做什么？大模型后训练全链路技术解析

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247551928&idx=1&sn=718cdc69c69aa63abb678ac2517f4912&

冷月清谈：

本文围绕大模型的"后训练"技术展开，深入探讨了其定义、重要性、常见流程以及关键技术。后训练指的是在预训练模型基础上，针对特定任务或数据集进行的额外训练，通常涵盖微调（Fine-tuning）和对齐（Alignment）两大环节。其重要性在于，随着预训练模型规模的持续增大，参数扩展带来的边际收益正逐渐递减，基于强化学习（RL）的后训练被认为是突破性能瓶颈的下一个关键点，并在测试阶段的计算推理时间上开辟了新的性能扩展维度。

文章详细介绍了Llama 3等大模型的后训练流程，包括通过人工或机器生成偏好样本训练奖励模型（Reward Model），并利用拒绝采样等方式，结合指令微调（SFT）和对齐学习（如DPO）进行迭代优化。训练数据方面，强调了SFT数据和偏好数据的多样性与质量要求。

在微调技术方面，文中对比了全量微调（FFT）与参数高效微调（PEFT），并重点介绍了LoRA等PEFT方法在降低计算和存储成本方面的优势。对齐技术则以强化学习（RLHF）为核心，旨在使模型输出符合人类偏好和价值观。详细阐述了RLHF的关键组成部分，包括带有人类偏好反馈的数据、奖励模型（RM）及其优化思路（如Outcome-based RM到Process-based RM的演进），以及如PPO、DPO、GRPO等多种强化学习策略优化算法的原理与特点。

文章还探讨了推理阶段的优化思路，提出了"快思考"（System 1）与"慢思考"（System 2）的概念，并介绍了CoT、MCTS、STaR和Quiet-STaR等通过引导模型进行多步骤推理来提升性能的方法。最后，文章对比分析了SFT和RL的特点，指出SFT倾向于"记忆"训练数据，稳定模型输出格式，为RL训练奠定基础；而RL则更擅长"泛化"，能够在复杂多变的环境中探索并突破人类的上限。通过DeepSeek R1等案例，进一步印证了RL在某些场景下，即使不依赖复杂的SFT或RM设计，也能取得卓越推理效果的可能性。

怜星夜思：

1、文章提到强化学习（RL）在后训练中能突破人类上限，并具有更强的泛化能力。那么，在实际落地应用中，比如部署一个面向公众的大模型应用，相比于传统的监督微调（SFT），选择RL作为主要的后训练手段，可能会面临哪些潜在的"坑"或者挑战？又有哪些场景是RL表现出压倒性优势、SFT难以替代的？
2、文章提到了“奖励模型可能会被hacking的问题”，并提出了“将不同奖励模型混在一起训练”的解决方案。你认为除了这种方法，还有哪些策略可以增强奖励模型的鲁棒性，使其不容易被“套路”或者产生非预期的偏差？如果是黑客，你会怎么去“套路”一个大模型的奖励模型？
3、文章提到了System 1（快思考）和System 2（慢思考）来优化推理阶段。这让人联想到人类大脑的思维模式。那么，除了文中提到的CoT、MCTS、STaR等，你认为未来在大模型推理优化方面，还有哪些可以借鉴人类认知科学或心理学的方法，来进一步提升模型的"智能"水平和解决复杂问题的能力？

原文内容

阿里妹导读

本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南，适合希望深入了解并应用这些技术的开发者。

什么是后训练？

后训练（Post-Training）是指在预训练模型的基础上，针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调（Fine-tuning）和对齐（Alignment），即调整预训练模型的参数以适应新的任务。

黑色：预训练阶段

红色：后训练阶段

紫色：推理测试阶段

为什么要进行后训练？

Post-training重要性-后训练扩展律Post-training scaling laws 已经出现

Pre-traing阶段的scaling law

计算量C，模型参数量N ,数据大小D，当不受其它两个因素制约时，模型性能与每个因素均呈幂等关系，三者满足；

随着模型尺寸的逐渐增大，预训练阶段参数扩展带来的边际收益开始递减，基于RL的post-trainging将会成为下一个突破点；
自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正，仅依靠生成式方法和扩大参数规模，收益有限，需要寻找额外的Scaling Laws；

GPT（Generative Pretrained Transformer）系列是典型的自回归语言模型。在 GPT 模型中，它的生成过程是基于自回归机制。例如，在文本生成任务中，给定一个初始的输入文本序列（可以是一个单词、一个句子或一段话），模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”，模型会计算在这个序列之后不同单词（如 “runs”“jumps”“sleeps” 等）出现的概率，然后从这个概率分布中采样一个单词作为下一个生成的单词。

新的扩展维度：Al能力的提升不再局限于预训练阶段，还可以通过在 Post-Training 阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升，即Post-Training Scaling Laws 以及 Test-time scaling Resoning ；

随着训练时的计算量和测试时的计算量的增加，模型性能也会随之提升。

常见大模型后训练流程

这里以Llama 3来示例：

1.持续通过人工标注或机造方式生成偏好pair样本，训练Reward Model；

2.基于当前能力最好的模型，随机采集一批 {Prompt} ，每个Prompt拿最好的模型做 K 次数据生成采样，每个Prompt就得到 K 条 <Prompt,Responsek> 数据；

3.拒绝采样：对第2步采样 K 个 <Prompt,Responsek> 数据，用Reward Model打分，并从中选取打分最高 topN 条样本。作为指令微调的精选样本，训练SFT Model；

4.训完SFT Model，再通过持续收集的偏好对样本（同步骤1）做对齐学习（Llama使用的是DPO）。最终得到了一个比当前模型更好的模型；

5.持续做步骤1~步骤4，飞轮迭代优化模型。

训练数据

SFT data

采样模型多次，让RM选出最好的回复，作为SFT data的一部分。部分细节如下：

采样什么模型？两种情况。迭代中表现Avg score最好的模型，或者在某个particular capability上表现最好的模型。
采样多少次？K=10~30，即一般采样10-30次。
prompt哪来？人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。

Preference data

采样什么模型？部署多个不同数据配比和对齐方法训练的模型，针对每个prompt选取两个不同的模型进行采样。原因：不同模型能够在不同的能力维度上表现出差异，数据质量和多样性更好。
偏好等级？四个等级：显著更好（significantly better），更好（better），稍微更好（slightly better），略微更好（marginally better）。
允许修改：标注同学可以进一步优化chosen response，最后edited > chosen > rejected。
迭代式难度：最后随着模型改进逐步提高prompt复杂度。

微调 Fine-tuning

微调是指在预训练模型的基础上，使用特定任务的数据集进行进一步训练，以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能，使模型能够更好地适应和完成特定领域的任务。

SFT (Supvised Fine tuning ) 微调方法

全量微调 VS 部分微调

全量微调 Full Fine-Tuning，FFT

是指在预训练模型的基础上，使用特定任务的数据集对模型的所有参数进行进一步训练，以使模型更好地适应特定任务或领域的过程。

部分微调 PEFT（parameter-efficient fine-tuning）参数高效微调

一种针对大型预训练模型的微调技术，旨在减少训练参数的数量，从而降低计算和存储成本，同时保持或提升模型性能仅微调模型中的一小部分参数，常见方法如下：

选择参数子集
重新参数化

LoRA（Low-Rank Adaptation）使用低秩表示重新参数化模型权重
核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积，即：

其中：

是预训练模型的原始权重矩阵。

A 和 B 是两个低秩矩阵，其维度远小于 W。

通过这种方式，LoRA 只需要更新 A 和 B 的参数，而不是整个 W。这显著减少了需要更新的参数数量，从而提高了微调的效率。

添加额外的可训练的token

Prompt-tuning

对齐 Alignment

对齐是指通过各种技术手段，使模型的输出与人类的偏好和价值观对齐，确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题，如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具，即可通过人类反馈强化学习（RLHF）（Reinforcement Learning from Human Feedback）的方式，通过训练奖励模型对齐模型输出与人类偏好，强化学习中需要用到的关键组成部分如下

1. 带有人类偏好反馈的标签数据

<input,accept,reject>

2. 奖励模型（Reward Model）-> 奖励信号

Rule-based RM

Model-based RM

3. 强化学习策略优化算法

DPO (Direct Preference Optimization) 直接偏好优化
PPO （Proximal Policy Optimization）近端策略优化
GRPO（Group Relative Policy Optimization）组内相关策略优化算法

强化学习策略优化算法 DPO VS PPO VS GRPO

RHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法，常见的有以下几种：

PPO（Proximal Policy Optimization）近端策略优化

是 OpenAI 在2017年提出的一种基于策略梯度（Policy Gradient）的强化学习算法。

优化过程是构建一个损失函数，需要根据奖励模型的奖励信号和新旧策略差异计算损失函数，并且会限制策略更新的幅度，保证了模型的稳定性。

损失函数：

其中是新旧策略概率之比，反映新旧策略的改进情况。

是优势估计值，反映智能体选择某个动作的好坏。

clip是剪辑机制，反映经过剪辑后的改进结果，防止进步过快或退步过多，保待稳定的训练过程。

选择最小值： 1）基于新策略直接计算出来的值，2）经过剪辑后的值，保持训练的稳定性。

DPO(Direct Preference Optimization)直接偏好优化

优化过程相对直接。不需要训练一个单独的奖励模型。直接利用人类偏好排序数据（概率比）来构建目标函数并优化策略；
目标：最大化用户偏好数据的生成概率，同时减少用户非偏好数据的生成概率；
无需明确的奖励模型，更多依赖于用户提供的偏好排序或比较数据，不需要同环境进行交互，适用于需要从静态数据（如用户的偏好反馈）中学习的任务，并且高度依赖用户反馈的数据质量；

GRPO（Group Relative Policy Optimization）组内相关策略优化算法

与PPO相比，无需额外训练价值模型，通过从同一问题的多个输出中计算平均奖励来替代价值函数的作用，从而减少了显存和计算负担，但依赖于奖励模型的评分来区分输出的好坏，这对于奖励模型的设计也提出了更高的要求。

强化学习 RM（Reward Model）奖励模型的优化思路

在传统的强化学习RL框架中，智能体通过与环境的交互来学习，以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题，RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式，包括直接的奖励信号、排名反馈、偏好比较等。

LLM as a judge：判别式的RM的准确率不足，可以用于事实性，输出风格等的判定；
Generative RM：先CoT自然语言推断的，再给出奖励信号，Let's verfify step by step ；
Critic Model：随着大模型的不断迭代，其输出的内容越来越准确，错误也变得更加隐蔽，就算是专业的AI训练师也很难察觉那些错误所在，open ai训练了CriticGPT这种谈论家模型，用于加强RLHF，但注意用model去建模reward，可能会因为过度对齐人类的偏好而引入bias；
Outcome-based Reward Model（ORM）到 Process-based Reward Model（PRM）向着模型能生成正确的推理能力的方式去优化

PRM：过程奖励模型，是在生成过程中，分步骤，对每一步进行打分，是更细粒度的奖励模型。

ORM：结果奖励模型，是不管推理有多少步，对完整的生成结果进行一次打分，是一个反馈更稀疏的奖励模型。

注意reward model可能会被hacking的问题，可以将不同的reward model混在一起训练，让模型训多轮后也比较难找到RM的漏洞。

推理阶段（Test-time computation）的优化思路：

快思考 -> 慢思考

系统1思维：一次性生成完整解法的方法

Next Token Prediction 缺乏详细的中间推理步骤，模型一开始可能会犯错，错误会传播导致最终生成的答案也是错的；

系统2思维：模仿人类通过更慢，更深的思考过程进行推理

CoT: Training-Free的方式，通过分步的方式生成一系列中间推理步骤，从而提升模型推理能力；

Let's think step by step ；

Best of N ；

MCTS （Monte Carlo Tree Search 蒙特卡洛树搜索） : 在Token或字句级别分解建模成节点后提供奖励信息（Process-based-Reward-Model）；

Token级别的节点：每个节点对应生成序列中的一个Token。通过MCTS，模型可以探索不同的Token序列，最终生成更连贯的响应；

句子级别的节点：在复杂推理任务中，每个节点可以代表一个完整的句子或推理步骤，帮忙模型更好地处理多步推理任务；

STaR（Self - Taught Reasoner）：教会模型从内部深入思考问题与答案的关联；

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的引导模型产生合理推理过程 (Rationales) 的能力，井将 Rationales 融入到训练过程内，让模型学会进行推理；

通过few shot example 来prompt模型生成答案和推理过程，过滤出正确的数据集生成微调数据集来微调；

deepseek-R1 强化学习训练时使用的prompt格式，要求模型将推理的过程的思路输出到<think>标签中，引导模型进行慢思考；

Quiet-STaR (Self - Taught Reasoner)

通过控制模型在生成文本时自动生成推理步骤（即理由或rationales），从而提高模型的预测能力和推理性能；
在训练阶段，先基于前序token停下，进行think阶段，产出从多个thought，选择某一个thought加上前序token，进行预测下一个token，然后经过奖励模型的评判，进行反馈学习；
在推理阶段，利用think及talk对应的prompt来引导进入慢思考，在think结束后，再进行talk；

微调（SFT） VS 强化学习（RL）

SFT->示范给模型怎么样做是对的

RL->在环境中不断的试错，累积奖励，理论上RL能榨干模型，能突破人类的上限，但reward要能写好

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

RL 在泛化方面的优势：RL，特别是在基于结果的奖励下进行训练时，能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略，从而能够学习到更通用的知识和行为模式。
SFT 在记忆方面的倾向：SFT 则倾向于记忆训练数据，在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数，容易使模型过度拟合训练数据。

SFT 对 RL 训练的重要性：尽管 RL 在泛化方面表现出色，但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式，为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定，导致 RL 训练难以收敛或效果不佳。

以DeepSeek R1示例后训练

DeepSeek-R1

对于test-time阶段的处理，提及对于RPM及MCTS等手段，未被证实有效果；
R1-ZERO仅使用RL，未使用SFT；
Reward Model未使用RPM等相对复杂的模型，而是仅使用的了rule-based的RM；
强化学习算法使用的自家的GPPO，相对于PPO等，更加的简单，也更考验RM的设计能力；

给后续的推理模型后训练很多启发，仅RL也可以得到非常好的推理效果。

总结

RL -> deepseek R1 zreo
SFT+RL -> deepseek R1 llama3
SFT -> 蒸馏的一些小模型
test-time scaling -> openai o1

附：

Scaling Laws for Neural Language Models：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2001.08361
resoning-llms：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
(NeurIPS tutorial)大模型后训练现状 by Nathan Lambert：https://www.interconnects.ai/p/the-state-of-post-training-2025
Llama3.1，DeepSeek-V3，TÜLU 3，Qwen2.5后训练合集：https://zhuanlan.zhihu.com/p/12862210431
The Llama 3 Herd of Models：https://arxiv.org/pdf/2407.21783
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters：https://arxiv.org/pdf/2408.03314
QWEN2 TECHNICAL REPORT：https://arxiv.org/pdf/2407.10671
DeepSeek R1 Zero：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
openai O1 解读：https://zhuanlan.zhihu.com/p/721952915
openai O1：https://openai.com/index/learning-to-reason-with-llms/
Critic GPT：https://arxiv.org/pdf/2407.00215
微调实践：https://study.antgroup-inc.cn/learn/course/842000013/content/990000093/990000095?tenant=metastudy

基于 RAGFlow 构建私有知识问答应用

传统 RAG 应用因文档解析能力不足，导致相关问题的回答失准。RAGFlow 凭借创新的深度文档理解技术，能精准解析各类复杂格式的原始数据，提升回答准确性。本方案介绍如何一键部署 RAGFlow 并构建私有知识问答应用，无需编码，最快 10 分钟、最低 2 元即可实现。

点击阅读原文查看详情。

ElectricEel339 · 2025 年8 月 3 日 19:06

嘿，要说RL的“坑”，那可太多了！就像你教狗坐下，SFT就是直接给它看你示范坐下，然后它跟着学。RL呢？就是你让它随便动，只要它屁股沾地了就给它一个鸡腿。问题是，万一它每次都先跳个舞再坐下呢？这就是训练不稳定。奖励设计得不好，模型可能学会“作弊”，而不是真正掌握你想要的能力。比如，为了高奖励，它可能输出一些讨好人类但实际没用的“废话”。我觉得RL特别适合那种没有固定答案，需要模型自己“摸索”才能找到最优解的问题，比如某些科学发现、新药研发的初步探索，或者一些个性化内容的生成，SFT在这些场景下会显得过于刻板，缺少灵活应变的能力。

PolishedStone452 · 2025 年8 月 4 日 04:31

增强奖励模型的鲁棒性？我觉得最简单粗暴但可能有效的方法就是“众包审查”和“周期性人工复核”。机器再聪明，也总有盲点，让大量真实用户参与到对模型输出的评估中，并定期引入专业人工团队进行抽样复核和修正，可以有效发现并纠正奖励模型的“偏差”。另外，还可以尝试"元学习"或"终身学习"的思路，让奖励模型不仅仅学习当前的偏好，还能学习如何适应新的偏好变化，防止它成为一个“死板”的老古董。至于怎么“套路”？我会先分析奖励模型的特点，比如，如果它偏爱"长篇大论"，那我就生成一堆无关的"废话"但字数超长；如果它偏爱"积极正面"，那我就把反面观点包装成"正能量"的表述。总之，就是找到它的"偏好点"，然后玩命往那个点上凑，即使内容本身质量不高，但只要能"骗"过奖励模型，我就赢了！

SilverWolf359 · 2025 年8 月 4 日 14:28

关于“如何增强奖励模型的鲁棒性”这个问题，我认为可以从几个方面入手。首先，引入“对抗性训练”或“生成对抗网络（GAN）”的思想，让一个专门的“攻击模型”生成能够欺骗当前奖励模型的样本，然后用这些样本来强化奖励模型的识别能力。其次，多模态奖励信号融合，比如除了文本偏好，加入用户行为数据（点击、停留时长、转发等）或视觉反馈，形成更立体的奖励评估体系。最后，也是最基础的，加强判别式奖励模型的数据标注多样性和覆盖度，避免在特定领域或风格上的过拟合。如果我是黑客，我会尝试构造边缘案例（edge cases）或者利用语义模糊性。比如，我会生成一些表面上看起来“政治正确”或“符合规范”，但实际上暗含误导、讽刺或隐性偏见的内容，看看奖励模型是否能捕捉到这种深层次的意图。或者持续生成模板化的、机械但分数高的回复，试图让奖励模型“记住”这些模式，导致它不再区分真正高质量的回复和这些模式化内容。

Beacon26j · 2025 年8 月 4 日 21:04

要提升奖励模型的鲁棒性，可以考虑“解释性奖励模型”或“因果推断”。当前很多奖励模型是黑盒的，我们不知道它为何给出高分。如果能让奖励模型给出"为什么"给出高分的解释，并能据此进行修正，就能更好地理解和调整其潜在的偏好逻辑。同时，在训练奖励模型时，可以故意引入一些“负面对抗样本”或“不完整信息样本”，提高其对异常输入和"不诚实"输出的鉴别能力。如果我是黑客，我会先进行“奖励模型探测攻击”，也就是通过小批量测试不同类型的输出，摸清奖励模型在不同风格、内容、长度上的偏好阈值和权重分布。一旦摸清了"脾气"，我就可以针对性地生成"投其所好"的文本，让模型虽然没真正解决问题，但表面上看起来非常完美，从而获得高分。更高级的手段是“奖励模型中毒攻击”，即在奖励模型的训练数据中注入看似正常但实际引导模型偏向错误结论的样本，从源头上污染奖励模型。

PolishedStone452 · 2025 年8 月 5 日 15:16

关于“未来在大模型推理优化方面，还有哪些可以借鉴人类认知科学或心理学的方法”这个问题，我觉得一个很有潜力的方向是**“情感/动机驱动的推理”**。人类在解决复杂问题时，往往不是纯粹理性的，情感、好奇心甚至挫败感都会影响思考路径。比如，可以引入一个“好奇心模块”，鼓励模型探索更多不确定或新颖的解决方案，而不是仅仅追求当前最优。还可以借鉴人类的“归纳与演绎交织”思维，让模型在System 2思考过程中，既能从具体案例归纳出普遍规律，也能运用已知规律演绎出具体结论，形成双向验证。再比如，“类比推理”也是人类解决陌生问题的重要法宝，未来模型可以尝试建立更强大的知识图谱和类比机制，将已知领域问题的解决思路迁移到新领域。

Crux18l · 2025 年8 月 5 日 20:33

从工程实现角度看，RL后训练的复杂性远超SFT。首先，需要构建高质量的偏好数据集，这本身就是个巨大的工程。其次，奖励模型的训练与迭代也相当关键，一个偏差的奖励模型可能会把模型带偏。最后，RL训练的调参是个玄学，涉及到步长、折扣因子、熵正则化等众多超参数，训练周期长且资源消耗大。这些都增加了RL在实际产品上线前的测试和验证成本。然而，RL在需要模型具备“自我纠错”和“适应性进化”能力的场景中展现出独特价值，比如在线教育内容的个性化生成，或者智能客服系统应对用户未定义问题的能力。SFT在这种动态、开放的环境下往往难以持续优化，而RL能够通过与环境的交互持续改进自身的策略，从而在长期运行中保持甚至提升其性能。

RoaringTiger218 · 2025 年8 月 6 日 01:38

哎呀，这问题太棒了！我觉得可以学学人类的“灵感乍现”！你有没有过那种苦思冥想，突然间"啊哈"一声，问题就解决了的经历？这可能跟大脑对信息进行"后台处理"有关。大模型推理也可以引入这种机制，比如，在"慢思考"过程中，允许它在某个阶段"暂停"，进行一些"无目的"的连接和联想，说不定就能"顿悟"出新的思路。另外，人类在面对特别复杂的问题时，会进行"分而治之"，将大问题拆解成小问题，再逐个击破，甚至会"求助"或"合作"。所以，未来的大模型推理，是不是可以引入"多智能体协作"模式，让不同的"子模型"各自负责一部分思考，然后"交流"和"整合"结果，就像一个团队在头脑风暴一样？这听起来就很酷！

TwilightPeacock415 · 2025 年8 月 6 日 03:32

确实，人类认知科学为LLM的推理优化提供了丰富的灵感。除了文章提及的，我认为**“逆向推理（Backward Chaining）”值得关注。人类在解决一些目标明确的问题时，会从目标反推需要的条件，再从条件反推更早的步骤。这与CoT的正向推导不同，可以为模型提供另一种解决问题的策略。其次是“情景记忆与经验重放”。人类会从过去的经验中学习，而不仅仅是当前的学习任务。模型可以建立一个“经验库”，将之前解决问题成功的“思考路径”或失败的“陷阱”存储起来，在遇到类似问题时进行“重放”或“规避”，从而加速推理过程并避免重复犯错。最后，“元认知（Metacognition）”**，即"思考思考"的能力。让模型不仅能解决问题，还能评估自己解决问题的过程是否正确、高效，甚至在发现错误时能主动回溯和修正，这会使模型的自主学习和推理能力迈向新的台阶。

ScarletTiger123 · 2025 年8 月 7 日 11:10

关于“选择RL作为主要的后训练手段，可能会面临哪些潜在的‘坑’”，我觉得最直接的挑战就是“奖励函数的稀疏性与设计难度”。RL需要明确的奖励信号才能有效学习，但很多复杂任务的“好”与“坏”很难量化成简单奖励。人类反馈（RLHF）虽然能解决一部分问题，但标注成本高昂，且人类偏好本身也可能存在偏差甚至偏见。此外，RL训练过程的稳定性也远不如SFT，模型很容易陷入局部最优或者产生意想不到的“幻觉”。但在一些需要创造性、开放性探索的场景，比如玩游戏、代码生成、复杂问题解决（像那些没有唯一标准答案，需要LLM自主探索路径的推理任务），RL相比SFT能更好地激励模型探索未知，发现SFT难以捕捉的策略或模式，这方面RL的优势是压倒性的。