SFT非万能!港科大、阿里揭示大模型冷启动陷阱,提出自适应损失函数AESL

研究揭示SFT冷启动并非越高分越好,大模型RL潜力关键在于保持多样性。港科大、阿里提出自适应早停损失函数(AESL),助力RL训练。

原文标题:大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

原文作者:机器之心

冷月清谈:

香港科技大学、阿里巴巴及厦门大学的研究团队发表了一项研究,揭示了SFT冷启动阶段的“致命陷阱”——冷启后表现最好的checkpoint,并不一定对应最大的强化学习潜力。研究指出,SFT冷启阶段不应过度追求测试集准确率,而必须兼顾准确率与多样性。团队提出了一种全新的自适应早停损失函数(AESL),为大模型的RL训练打造更优的起跑线。

研究发现,SFT阶段评估性能最好的checkpoint拿去跑RL,最终成绩往往不是最好的,甚至会倒退,这是因为RL冷启动的SFT与单纯的SFT在核心目标上存在根本分歧:数据量有限,过度优化会导致模型过拟合,变成单纯“背诵”小数据集;RL算法的成功高度依赖于“探索”与“利用”的平衡,如果模型在进入RL阶段之前就丢失了输出的多样性,RL阶段就会因为探索空间不足,导致最终效果大打折扣。

研究团队将目光投向了“输出多样性”,追踪了模型在冷启动训练过程中的熵和self-BLEU分数。发现在SFT的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的多样性会达到一个峰值。而随着训练继续,模型开始过拟合,多样性迅速暴跌。这个多样性的“黄金拐点”,恰恰就对应着模型RL潜力的最高点!

为了实现更灵活的冷启动,研究团队改进了传统的交叉熵损失,提出了一种全新的轻量级训练目标——自适应早停损失(AESL)。AESL的核心哲学是“因材施教”:它不再盲目要求模型在所有地方都完美拟合演示数据,而是在Token和子序列两个微观层面上,动态调节学习的力度。实验证明,使用AESL作为冷启动策略,其后续经过RL训练的最终性能,全面碾压了直接RL、标准CE损失SFT以及现有的其他前沿方法。

怜星夜思:

1、文章提到SFT冷启动阶段需要兼顾准确率和多样性,但实际操作中,如何量化和平衡这两者呢?有没有一些更具体的指标或方法可以参考?
2、AESL自适应早停损失函数的设计思想很巧妙,在token和subsequence层面进行动态调节。但是,这种方法会不会引入额外的计算负担?实际训练中,效率如何?
3、文章强调了RL训练中探索能力的重要性,那么除了在SFT阶段保持多样性之外,还有哪些方法可以提升模型的探索能力?

原文内容


本文第一作者是来自香港科技大学的博士生李欣然,并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。


自 2025 年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。


然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题:如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL 算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。


为了解决这个问题,目前的标准做法是:在 RL 之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高 RL 阶段的效率。


但这又引出了一个极具争议的新问题:冷启动 SFT 到底要训练到什么程度?SFT 的分数越高,后续的 RL 效果就一定越好吗?


近期,来自香港科技大学、阿里巴巴以及厦门大学的研究团队,联合发表了一项已被 ICLR 2026 接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」——冷启后表现最好的 Checkpoint,往往并不对应最大的强化学习潜力


研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT 冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与多样性(Diversity)。基于此,团队提出了一种全新的自适应早停损失函数(AESL),为大模型的 RL 训练打造了最完美的起跑线。


目前,该论文的代码已全面开源。



  • 论文标题:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT

  • 论文链接: https://openreview.net/pdf?id=yezWGJmODg

  • 代码主页: https://github.com/LXXXXR/AESL


一个反直觉的真相:
「好学生」反而跑不远?

在传统认知里,SFT 的目标是让模型完美模仿训练数据。损失(Loss)越低、准确率越高,说明学得越好。但研究团队发现了一个极度反直觉的现象:把 SFT 阶段评估性能最好的 Checkpoint 拿去跑 RL,最终成绩往往不是最好的,甚至会倒退!


为什么会「南辕北辙」?

研究人员指出,这主要是因为「作为 RL 冷启动的 SFT」与「单纯的 SFT」在核心目标上存在根本分歧。


在以往只依靠 SFT 的后训练范式中,目的是尽可能多地从数据集中学习,且数据集往往充足且丰富,因此传统的交叉熵(CE)损失完美契合这一目标。但在作为 RL 准备的冷启动阶段,情况发生了变化:


  • 数据量有限:过度优化会导致模型过拟合(Overfit),变成单纯「背诵」小数据集。


  • 探索与利用的失衡:RL 算法的成功高度依赖于「探索(Exploration)」与「利用(Exploitation)」的平衡。如果模型在进入 RL 阶段之前就丢失了输出的多样性,RL 阶段就会因为探索空间不足,导致最终效果大打折扣。


我们可以打个比方:基座模型就像是一个充满想象力但缺乏解题套路的孩子。SFT 冷启动的目的,是为了教他一些基本的解题格式(比如长思维链的思考模式)。但是,如果 SFT 训练过度,传统的交叉熵损失函数会强迫模型「死记硬背」演示数据中的每一个细节。模型虽然学会了套路,却丢失了原本丰富的知识分布和生成多样性。当这个「做题机器」进入 RL 阶段时,它已失去探索新路径的能力,RL 的上限就被死死锁住了。


图1:研究团队发现,随着 SFT 步数的增加,模型在验证集上的性能(黄线)还在上升,但经过 RL 训练后的最终潜力(蓝线)却早早开始下滑。


破局关键:
寻找「多样性」的黄金拐点

既然准确率不能作为 SFT 冷启动停止的标准,那我们该看什么?


研究团队将目光投向了「输出多样性」,追踪了模型在冷启动训练过程中的熵(Entropy)和 self-BLEU 分数。


奇妙的现象出现了:在 SFT 的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的多样性会达到一个峰值。而随着训练继续,模型开始过拟合,多样性迅速暴跌。


这个多样性的「黄金拐点」,恰恰就对应着模型 RL 潜力的最高点!


冷启动过程中的多样性指标变化。多样性达到顶峰的时刻,正是开启 RL 训练的最佳时机。


基于这一洞察,最简单的改进方法就是「基于多样性早停(Diversity-based Early Stopping)」。但这还不够完美,因为「一刀切」的全局早停忽略了一个事实:模型对不同 Token 和不同上下文的掌握速度是完全不同的。


AESL:深入大模型
「毛细血管」的自适应冷启动

为了实现更灵活、更极致的冷启动,研究团队改进了传统的交叉熵损失,提出了一种全新的轻量级训练目标——自适应早停损失(Adaptive Early-Stop Loss,简称 AESL)。


AESL 的核心数学表达如下:


图片


其中的自适应权重定义为:



AESL 的核心哲学是「因材施教」:它不再盲目要求模型在所有地方都完美拟合演示数据,而是在 Token 和子序列(Subsequence)两个微观层面上,动态调节学习的力度。


  • Token 级别的调控


生成每个词时,如果模型当前预测概率已经很高,AESL 会自动降低该 Token 的损失权重。就像告诉模型:「这道题你已经会了,不用反复抄写,保留你原本的直觉吧。」这有效防止了对特定词汇的过拟合。


  • Subsequence 级别的调控


AESL 会实时计算当前生成前缀的平均置信度。如果前半句话已经非常符合目标分布,AESL 会在后续生成中放宽限制。就像走迷宫:前面走对了方向,后面就可以大胆探索;前面不确定,后面就老实跟着指示走。


通过这种精细的动态平衡,AESL 成功地让模型在「学会长思维链推理模式」和「保留基座原始探索能力」之间,找到了完美的平衡点。


以退为进:更优的 RL 后性能

研究团队在极具挑战性的数学推理任务上进行了大规模实验。选用了 Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct 作为基座,在 AIME 24/25、AMC 23、MATH-500 等榜单上进行了测试。


结果令人振奋:无论是在哪种基座模型上,使用 AESL 作为冷启动策略,其后续经过 RL 训练的最终性能,全面碾压了直接 RL、标准 CE 损失 SFT 以及现有的其他前沿方法。AESL 真正做到了「赢在起跑线」。


在 Qwen2.5 系列模型上,AESL + RL 的组合在各项数学竞赛级榜单中均取得了最高平均分。


此外,研究团队还测试了不同数据量以及不同难度数据切分下的表现。结果证明,无论数据多寡、无论数据难易,AESL 都能稳定发挥,始终提供优于传统方法的 RL 潜力。


不同冷启动数据量下,AESL都能带来更好的冷启动性能


不同冷启动数据难度下,AESL都能带来更好的冷启动性能


结语:重塑我们对「后训练」的认知

在通往 AGI 的征程上,强化学习(RL)无疑是极具潜力的一条道路,因为它具有其他范式所没有的「超越人类本身能力」的潜力。


但比起传统的监督学习,RL 的过程更加复杂,特别是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本质上来源于模型的基础能力和它产生多种「Educated Guess(有根据的猜测)」的能力,因此保持输出多样性至关重要


ICLR 2026 的这项研究给我们敲响了警钟:多样性的丢失,甚至可能早于 RL 阶段的开始。因此,我们需要在后训练的每一个环节都对多样性保持敬畏。


AESL 的提出,不仅仅是一个损失函数的改进,更是一次对 LLM 后训练范式的认知刷新。它打破了「SFT 拟合越好越好」的迷思,证明了在冷启动阶段,「保持多样性」比「满分模仿」在后续的 RL 训练中更具长期价值。


未来,我们相信在从 SFT 到 RL 范式的转变过程中,会有更多的研究去探索这两种范式带来的根本不同。而 AESL,无疑为这场探索提供了一个绝佳的起点。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题的本质是优化目标冲突,SFT的目标是拟合数据集,RL的目标是最大化奖励。SFT过度拟合会降低模型的泛化能力,从而影响RL的效果。一个可能的解决方案是使用多目标优化算法,同时优化准确率和多样性。另一个思路是引入一些先验知识,例如领域知识或者常识,来约束模型的生成,从而提高模型的探索效率。感觉这个方向很有研究价值!

作者在论文里提到AESL是轻量级的训练目标,应该不会引入太多的计算负担。毕竟只是在loss函数上做了改进,并没有改变模型的结构。而且,早停本身就是一种减少计算量的策略。不过,具体的效率提升可能要看硬件配置和数据规模。期待有大佬能分享一下实际的训练经验!

除了算法层面的改进,还可以从数据层面入手。可以尝试使用一些数据增强技术,例如随机masking或者token shuffling,来增加数据的多样性。还可以使用一些生成模型(例如VAE或者GAN)来生成新的训练数据,扩充数据集的规模。另外,可以考虑引入一些外部知识,例如知识图谱或者常识库,来帮助模型更好地理解环境,从而提高探索效率。

我有一个比较trick的想法,不知道是否可行。既然SFT阶段的目标是让模型学习一些基本的解题格式,那么我们可以故意引入一些错误的示范数据,让模型在学习过程中产生一些困惑,从而激发它的探索欲望。当然,这种方法需要谨慎使用,避免对模型的性能产生负面影响。个人感觉可以借鉴对抗训练的思想,通过引入一些对抗样本来提高模型的鲁棒性和泛化能力。

从公式上看,AESL引入的额外计算量主要在于自适应权重的计算。Token级别的调控只需要计算当前预测概率,Subsequence级别的调控需要计算生成前缀的平均置信度。这些计算都可以并行化,所以理论上不会增加太多的延迟。但是,实际训练中还需要考虑数据读取、梯度计算等因素的影响。建议作者能在开源代码中提供性能分析工具,方便用户评估AESL的实际效率。