知识蒸馏+SFT:提升小模型推理能力的新路径?

知识蒸馏+SFT技术被证明可以有效提升小模型推理能力,兼具高性价比,但仍需探索其局限性及数据质量的影响。

原文标题:「知识蒸馏」+SFT,可得「推理」否?

原文作者:机器之心

冷月清谈:

DeepSeek R1 的技术报告显示,利用知识蒸馏结合监督微调(SFT)的方法可以显著提升小模型的推理能力。该方法使用强大的教师模型生成高质量训练数据,然后用这些数据对较小的学生模型进行SFT。实验证明,这种“蒸馏+SFT”的策略能让小模型在推理任务上的表现超越一些规模更大的模型,例如DeepSeek-R1-Distill-Qwen-7B在AIME 2024基准测试中的表现优于QwQ-32B-Preview。

这种方法的有效性在其他研究中也得到验证,比如o1模型复现工作和LLaMA系列等。它被认为是一种高性价比的方案,可以帮助企业构建更精细的垂直领域模型,也方便研究者复现更强的推理模型。

然而,R1 的报告也指出,尽管蒸馏+SFT有效且比强化学习的资源消耗更少,要突破智能的边界,可能仍需更强大的基础模型和更大规模的强化学习。此外,上海交大的LIMO工作和李飞飞的s1工作也表明,精心设计的少量高质量数据也能有效激发小模型的推理能力,这暗示着数据质量的重要性。

怜星夜思:

1、文章提到了蒸馏+SFT方法性价比高,但如果我的资源很充足,直接用大模型进行强化学习训练是否更好?
2、文章中提到了高质量数据对小模型推理能力提升的重要性,那么如何判断什么样的数据是“高质量”的数据?除了文章中提到的教师模型生成的方法,还有哪些获取高质量数据的方法?
3、文章提到了LIMO和s1工作,它们都使用了少量高质量数据就取得了很好的效果,这是否意味着大规模预训练模型的潜力还没有被完全挖掘出来?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对蒸馏的工艺和上限尚未形成共识,因此也带来了对该技术更为系统的探索工作。

目录

01. 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是「投机取巧」 ?

极具性价比的蒸馏+SFT 真的能提高大模型的推理能力吗?...

02. 蒸馏+SFT 虽实用,但 bug 也不小?
知识蒸馏+SFT 的局限性由何而来?...
03. 蒸馏也有 Scaling Law?
什么才是蒸馏效果提升的关键?蒸馏存在什么情况下才有性价比?...
01  「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是」投机取巧」 ?
1、蒸馏技术在大模型领域广泛使用,且近期在 DeepSeek R1 的技术报告中取得了尤为明显的成效。

① 在 R1 的技术报告中,DeepSeek 团队展示了他们如何通过蒸馏将 R1 模型的推理能力迁移到更小的密集模型中,并让这些模型获得优越的推理能力。

② 研究者将 DeepSeek-R1 作为教师模型,通过其生成的 800K 样本作为训练属于,用其对 6 个在 AI 社区中广泛使用的规模较小的密集模型(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct)进行 SFT,并得到了 DeepSeek-R1-Distill-Qwen-7B 等 6 个蒸馏后的模型。

③ 蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基准测试中达到了 55.5%的 pass@1 分数,超过了 QwQ-32B-Preview。

2、R1 所采用的「蒸馏」方法指利用较强模型蒸馏出高质量样本,进而用于较小模型的 SFT,从而使较小的模型获得更强能力的操作。

① 这种方法通过教师采样生成序列,以 SFT 的方式训练学生模型,因此也被称为硬蒸馏(Hard Distillation)或「蒸馏+SFT」。

3、这种蒸馏技术在 o1 模型复现工作和 LLaMA 系列等工作中均被验证过有效性,虽然存在版权争议,但在工业应用场景被视为一种性价比极高的方案。

① 此前,有工作发现 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型大多存在不同程度的蒸馏。

② 这种技术的性价比体现在用强大的模型生成高质量数据,让企业打造更精细化的垂直业务模型,或是让研究者通过数据复现更强的推理模型,推动学术进展。

4、以 R1 工作为代表的成果证明了高质量数据除了让蒸馏得到的小模型获得领域知识,还能进一步提升推理能力,因此引发了许多探索。

① 上海交大的研究者在 LIMO 工作中论述了小模型的推理能力可以通过精心设计的少量样本激发出来,而不是简单地通过大量的数据训练获得。

② 该工作假设预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过极少量但精心设计的认知过程示例(即高质量 CoT)来激发。

③ 该工作用 817 条精心设计的训练样本微调 Qwen2.5-32B-Instruct 得到的 LIMO 模型实现了 AIME 2024 基准测试中准确率从 6.5%到 57.1%的提升,在 MATH 500 基准测试中实现了从 59.2%提升至 94.8%。

④ 李飞飞的 s1 工作同样采用少量高质量数据微调 Qwen2.5-32B-Instruct,实现超过 o1-preview 的推理能力。


02  蒸馏+SFT 虽实用,但 bug 也不小?
DeepSeek R1 的技术报告虽然展示了蒸馏 SFT 对小模型推理能力提升的有效性,且需要比强化学习更少的计算资源。但该工作同样强调如果要超越智能的边界,可能仍然需要更强大的基础模型和更大规模的强化学习......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

👀 往期回顾 👀 

 01  AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键
传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?...
 02  谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?...
 03  「压缩即智能」,成就 LLM 的 Transformer 未必是终极解?
知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?...
 04  从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?
头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?...

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。


关于这个问题,可以参考OpenAI的InstructGPT论文,他们对比了SFT和强化学习的效果,发现强化学习确实可以进一步提升模型性能,但提升幅度并非总是巨大,而且成本很高。所以即使资源充足,也需要权衡性价比。

我认为,预训练模型的潜力可能与我们对“智能”的理解有关。目前的预训练模型可能更擅长模式识别和记忆,而真正的推理能力还需要更深入的研究和探索。

我觉得吧,这得看具体情况。如果你的数据质量很高,而且对模型的性能要求非常苛刻,那么砸资源上强化学习可能值得一试。但如果只是想快速验证一个想法,或者构建一个有一定推理能力的小模型,蒸馏+SFT就足够了,省时省力。

关于“高质量数据”的判断标准,我觉得可以从几个方面考虑:首先,数据本身的准确性很重要;其次,数据的多样性也很关键,要覆盖各种可能的场景;最后,数据的格式和结构也要规范,方便模型学习。除了教师模型生成,还可以通过人工标注、数据增强等方式获取高质量数据。

针对“资源充足是否直接强化学习更好”这个问题,我觉得不一定。虽然强化学习理论上上限更高,但实际操作中,强化学习的训练过程非常复杂,需要仔细调参,而且消耗的资源和时间成本远超蒸馏+SFT。如果你的目标是快速获得一个性能不错的推理模型,蒸馏+SFT或许是更务实的选择。

对于“如何获取高质量数据”,我觉得可以参考一些公开的benchmark数据集,比如AIME、MATH等,这些数据集的质量比较高,可以作为训练数据的参考。此外,还可以利用一些数据清洗和预处理的技术来提高数据的质量。

我觉得,LIMO和s1的工作很有启发性,它们指出了未来研究的一个方向,即如何用更少的数据,更低的成本,训练出更强大的模型。这可能需要我们重新思考模型的架构、训练方法以及数据的组织方式。

说到高质量数据,我觉得除了文章提到的方法,还可以考虑用一些弱监督学习或者半监督学习的方法,从大量的未标注数据中学习,从而降低对高质量标注数据的依赖。

关于“预训练模型潜力是否被完全挖掘”,我认为是的。LIMO和s1的工作证明,即使是小规模的微调,也能显著提升模型的推理能力,这说明预训练模型中蕴含着巨大的潜力,我们还需要探索更有效的训练和微调方法来释放这些潜力。