复旦RSR指标:为推理蒸馏寻找更具教学价值的数据

复旦提出RSR指标,为大模型推理蒸馏寻找“熟悉的陌生人”数据,助力学生模型更好学习。

原文标题:「熟悉的陌生人」才是「好老师」?复旦提出简单指标,找出推理蒸馏中真正有教学价值的数据

原文作者:机器之心

冷月清谈:

复旦大学和上海人工智能实验室的研究者提出了一种简单有效的指标——Rank-Surprisal Ratio (RSR),旨在解决大语言模型推理蒸馏中,如何为学生模型选择既足够“新”,又未超出学生认知边界的推理数据的问题。该指标从学生模型的视角出发,综合考虑样本的信息量与对齐程度,通过token级别的相对熟悉度(rank)与绝对信息量(surprisal)的结合,量化数据对于学生模型的价值。实验表明,RSR 与学生模型后训练性能具有高度相关性,可直接用于筛选推理轨迹和选择教师模型,无需实际训练即可找到更合适的思维链数据。研究强调了理解哪些思维过程真正具有教学价值对于提升模型推理能力的重要性,并展望了RSR在更通用推理任务和动态数据调度中的应用潜力。

怜星夜思:

1、文章提到“教师模型越强,学生模型未必学得越好”,你认为在知识传递/学习过程中,除了教师/提供者的能力,还有哪些因素会影响学习效果,或者说,如何才能让学生模型更好的学习?
2、RSR指标通过结合token的“相对熟悉度”和“绝对信息量”来评估数据价值,你认为这种思路是否可以应用到其他领域?如果可以,有哪些潜在的应用场景?
3、文章提到“当推理模型的瓶颈逐渐从「规模」转向「数据的高效利用」,理解哪些思维过程真正具有教学价值,可能将成为下一阶段 post-training 的关键问题。”,你认为除了RSR,还有哪些方法可以用来判断思维过程的“教学价值”?

原文内容


什么样的思维链,能「教会」学生更好地推理?


许多人都有这样的学习体验:内容过于熟悉,难以带来新的收获;内容过于陌生,又往往超出理解能力,难以消化吸收。


类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链,可能过于晦涩,学生模型难以掌握其推理模式;而与学生认知相近的教师模型,其推理轨迹又常常缺乏新信息,难以带来实质提升。


因此,要获得理想的蒸馏效果,关键在于为不同学生模型选择恰好合适的数据,在「熟悉」与「陌生」之间找到最佳平衡。然而,现有基于概率的筛选或度量方法(如 Perplexity)难以刻画这种细粒度的适配关系。


那么,是否存在一种直观且易于计算的数据适配度指标,能够量化这种平衡?


来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法,Rank-Surprisal Ratio (RSR):



RSR 从学生模型的视角出发,综合考虑样本的信息量与对齐程度,旨在找出那些既足够「新」,又未超出学生认知边界的推理数据。


在大规模蒸馏实验中,RSR 与学生模型后训练性能的相关性高达 0.86,并且可以直接用于筛选推理轨迹以及选择教师模型,无需实际训练即可找到更合适的思维链数据。



  • 论文链接:https://arxiv.org/pdf/2601.14249

  • 代码链接:https://github.com/UmeanNever/RankSurprisalRatio


反直觉的现象


长思维链(CoT)的生成被普遍认为是大模型推理能力的核心。相应地,包含长思维链的推理轨迹常被视为高质量的监督信号,可以用于有监督微调(SFT)训练学生模型,或助力强化学习的冷启动。


但越来越多的实验呈现出一个反直觉现象:教师模型越强,学生模型未必学得越好。


在这篇工作中,作者系统性地构建了 11 个 teacher(教师模型)× 5 个 student(学生模型)的蒸馏实验,覆盖从 4B 到 671B 的主流推理模型。结果显示:


  • teacher 的参数规模、推理准确率与 student 的推理提升相关性很弱;

  • 同一个 teacher 的数据在不同 student 上的训练效果差异显著;

  • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;

  • 推理数据是否「适合」当前 student 是关键。


表一:蒸馏实验结果,在多个数学 benchmark 上评测 student 模型使用 teacher 数据训练后的性能。


现有数据筛选方法的问题


当前主流的数据筛选或评估方法,大多依赖一个信号:student 模型生成该数据的概率(perplexity /log-likelihood/surprisal),认为 student 觉得「自然」的数据就更容易学。



但问题在于:


  • 太「自然」的推理数据,往往信息增量有限;

  • 真正有价值的推理数据,恰恰是 student 尚未充分掌握的部分。


这就引出了论文试图解决的核心矛盾 ——Informative Alignment Challenge:如何在提供新知识的 informativeness 与符合学生当前认知的 alignment 之间取得平衡?


关键洞察


「绝对陌生 (Absolute unfamiliarity) + 相对熟悉 (Relative familiarity)」的推理数据最有学习价值


面对看似难以兼顾的「熟悉 - 陌生」的平衡,作者从 token 级别重新审视 student 的预测分布,提出一个直观、但之前被忽略的视角:


  • Informativeness 关注的是当前 token 在概率层面的绝对陌生度,可由 Surprisal(−log p / 负对数似然)刻画;

  • Alignment 关注的是当前 token 对比其它候选 token 的相对熟悉度,可由 Rank(在词表预测中的名次)衡量。


在这一视角下,一个 token 可以同时满足:


  • 被 student 生成的概率不高(informative)

  • 但在候选词表中排名靠前(aligned)


因此,informativeness 与 alignment 并非天然冲突。恰恰是同时满足这两点的 token,构成了最适合 student 学习的推理数据。


图一:Rank-Surprisal Ratio 的设计动机 —— 合适的推理数据应当兼顾 informativeness 与 alignment


直观的指标:Rank-Surprisal Ratio


基于前文在 token 级别的观察,以及相关仿真分析与数学推导,论文提出了一个形式上极其简洁的样本级指标:



直觉解释:


  • 分子(Rank)越小,表示当前样本越符合 student 的行为模式,对齐程度(alignment)越高;

  • 分母(Surprisal)越大,表示当前样本提供的信息量越充分,信息性(informativeness)越强;

  • RSR 越小 → 信息量与对齐程度的平衡越好。


在实现上:


  • 仅需对 student 进行一次前向计算;

  • 不依赖 verifier 或额外测试数据;

  • 融合了 rank clipping 与 surprisal 加权平均机制,在极端情况下具有更好的数值稳定性。


实验:与训练效果的相关性


作者将 RSR 与多种已有指标进行了对比,包括 teacher 模型及训练数据的若干统计量、常用的数据质量评估方法、基于概率的指标,以及其他基于 student 模型计算的指标。


实验结果在 5 个 student 模型上高度一致:RSR 与 student 模型后训练性能的 Spearman 相关系数平均达到 0.86,显著高于其它指标。


表二:不同指标与模型后训练推理性能之间的相关性


在实际场景中的应用


场景 1:Trajectory Selection (选择最合适的推理轨迹数据)


  • 在该场景中,针对训练集中的每一道题目,作者从多个 teacher 模型生成的 33 条候选思维链中,依据不同指标选择一条最合适的推理轨迹,从而构建用于训练 student 的推理数据集。

  • 实验结果表明,基于 Rank-Surprisal Ratio 筛选得到的数据,在不同 student 模型上训练后均取得了最优的推理性能,优于其它方法。


表三:不同数据筛选方法的后训练性能


场景 2:Teacher Selection(选择最合适的教师模型)


  • 在该场景中,作者仅使用每个 teacher 模型生成的 200 条推理轨迹来估计其与不同 student 的适配程度,从而模拟实际蒸馏前的 teacher 选择过程。

  • 实验结果显示,RSR 能稳定选出接近 oracle(真实最优)的 teacher 模型,整体表现优于其它方法。


表三:不同 teacher 模型选择方法的表现


结语


这项工作重新审视了推理蒸馏中一个看似简单却难以回答的的问题:什么样的推理轨迹能「教会」student 更好地推理。通过将 token 的 相对熟悉度(rank) 与 绝对信息量(surprisal) 结合,Rank-Surprisal Ratio 给出了一个直观、易于计算、且在大规模实验中被验证有效的答案。


更重要的是,RSR 并不依赖额外的评估数据或验证器,而是直接从 student 的视角出发刻画数据价值。这使它不仅是一个分析工具,也具备作为实际数据工程指标的潜力。


向前看,这种「informative alignment」的视角或许可以进一步扩展到:


  • 更通用的 reasoning 任务(如 code、tool use);

  • 推理轨迹的重写与合成,而不仅是选择;

  • 以及与 On-policy Distillation、RL 结合的动态数据调度。


当推理模型的瓶颈逐渐从「规模」转向「数据的高效利用」,理解哪些思维过程真正具有教学价值,可能将成为下一阶段 post-training 的关键问题。


作者介绍


杨宇铭,复旦大学自然语言处理实验室博士生,导师为张奇教授。本科毕业于复旦大学数学系,硕士毕业于密歇根大学统计学系。博士阶段前曾在微软担任数据科学家。研究方向为自然语言处理与大语言模型,作为第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等顶级会议发表多篇论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得可以从Surprisal值的计算方式入手,进行一些调整,来缓解这个问题:

1. 引入惩罚项: 当教师模型给出的答案与已知的正确答案不一致时,可以对其 Surprisal 值进行惩罚,降低其 RSR 值。
2. 使用 Soft Label: 教师模型给出的答案不一定总是完全正确或完全错误,可能只在一定程度上正确。可以使用 Soft Label 来表示教师模型的置信度,并将其融入到 Surprisal 值的计算中。

通过这些方法,可以更加准确地评估教师模型的可靠性,避免选择到“过度自信”的模型。

在知识图谱构建中,RSR的思路可以用于评估新知识的可信度和与现有知识体系的兼容性。加入的知识既要有一定的新颖性,又不能与现有知识产生太大冲突,否则可能会降低知识图谱的整体质量。

我觉得可以从数据本身入手,分析不同思维链的结构和特征,然后利用这些特征来预测思维链的教学价值。比如,可以研究思维链的长度、复杂度、以及包含的关键概念和推理步骤等。当然,这需要大量的数据和专业的知识。

我觉得可以从认知科学的角度入手,研究人类学习推理的过程,然后将这些发现应用到模型训练中。比如,可以模拟人类的认知偏差,或者利用人类的先验知识,来指导模型学习。另外,可以设计一些专门的“教学实验”,来评估不同思维过程的教学效果。

可以考虑引入强化学习的思想,将模型与环境进行交互,通过奖励信号来引导模型学习更有价值的思维过程。比如,可以设置一些任务,完成任务需要模型进行复杂的推理,然后根据模型完成任务的情况给予奖励。

这不就是典型的“师傅领进门,修行在个人”嘛!老师再厉害,学生不努力也白搭。所以,我觉得学生自身的学习态度和能力是关键。当然,如果老师能像游戏里的引导一样,一步一步带着学生进步,那就更好了,可以减少学生的挫败感。

这让我想到了产品设计!一个新功能既要有创新性,又要符合用户的使用习惯,不能让用户觉得太陌生。RSR的思路可以帮助产品经理量化新功能的价值,并评估用户接受度

这让我想起一个教育学概念——“最近发展区”。老师太强,讲的东西超出学生现有认知水平,学生自然学不会。所以我觉得,除了老师的能力,学生的基础知识、学习动机、以及老师的教学方法(比如是否因材施教)都至关重要。此外,合适的学习材料和环境也很重要,需要综合考虑。

我觉得这种思路很有普适性!比如在推荐系统中,可以用来评估推荐内容的新颖性和用户接受度。推荐太熟悉的东西用户没兴趣,太冷门的东西用户又不喜欢,RSR可以帮助找到一个平衡点。

从模型的角度,我觉得可以考虑引入一些课程学习(curriculum learning)的思想,先易后难,逐步提升学生模型的能力。另外,loss function的设计也很关键,不能只关注最终结果的正确性,还要鼓励学生模型学习教师模型的推理过程。还有,数据增强也是一个思路,可以扩充一些更适合学生模型理解的数据。