知识蒸馏+SFT技术被证明可以有效提升小模型推理能力,兼具高性价比,但仍需探索其局限性及数据质量的影响。
原文标题:「知识蒸馏」+SFT,可得「推理」否?
原文作者:机器之心
冷月清谈:
这种方法的有效性在其他研究中也得到验证,比如o1模型复现工作和LLaMA系列等。它被认为是一种高性价比的方案,可以帮助企业构建更精细的垂直领域模型,也方便研究者复现更强的推理模型。
然而,R1 的报告也指出,尽管蒸馏+SFT有效且比强化学习的资源消耗更少,要突破智能的边界,可能仍需更强大的基础模型和更大规模的强化学习。此外,上海交大的LIMO工作和李飞飞的s1工作也表明,精心设计的少量高质量数据也能有效激发小模型的推理能力,这暗示着数据质量的重要性。
怜星夜思:
2、文章中提到了高质量数据对小模型推理能力提升的重要性,那么如何判断什么样的数据是“高质量”的数据?除了文章中提到的教师模型生成的方法,还有哪些获取高质量数据的方法?
3、文章提到了LIMO和s1工作,它们都使用了少量高质量数据就取得了很好的效果,这是否意味着大规模预训练模型的潜力还没有被完全挖掘出来?
原文内容
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
目录
01. 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是「投机取巧」 ?
极具性价比的蒸馏+SFT 真的能提高大模型的推理能力吗?...
① 在 R1 的技术报告中,DeepSeek 团队展示了他们如何通过蒸馏将 R1 模型的推理能力迁移到更小的密集模型中,并让这些模型获得优越的推理能力。
② 研究者将 DeepSeek-R1 作为教师模型,通过其生成的 800K 样本作为训练属于,用其对 6 个在 AI 社区中广泛使用的规模较小的密集模型(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct)进行 SFT,并得到了 DeepSeek-R1-Distill-Qwen-7B 等 6 个蒸馏后的模型。
③ 蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基准测试中达到了 55.5%的 pass@1 分数,超过了 QwQ-32B-Preview。
2、R1 所采用的「蒸馏」方法指利用较强模型蒸馏出高质量样本,进而用于较小模型的 SFT,从而使较小的模型获得更强能力的操作。
① 这种方法通过教师采样生成序列,以 SFT 的方式训练学生模型,因此也被称为硬蒸馏(Hard Distillation)或「蒸馏+SFT」。
3、这种蒸馏技术在 o1 模型复现工作和 LLaMA 系列等工作中均被验证过有效性,虽然存在版权争议,但在工业应用场景被视为一种性价比极高的方案。
① 此前,有工作发现 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型大多存在不同程度的蒸馏。
② 这种技术的性价比体现在用强大的模型生成高质量数据,让企业打造更精细化的垂直业务模型,或是让研究者通过数据复现更强的推理模型,推动学术进展。
4、以 R1 工作为代表的成果证明了高质量数据除了让蒸馏得到的小模型获得领域知识,还能进一步提升推理能力,因此引发了许多探索。
① 上海交大的研究者在 LIMO 工作中论述了小模型的推理能力可以通过精心设计的少量样本激发出来,而不是简单地通过大量的数据训练获得。
② 该工作假设预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过极少量但精心设计的认知过程示例(即高质量 CoT)来激发。
③ 该工作用 817 条精心设计的训练样本微调 Qwen2.5-32B-Instruct 得到的 LIMO 模型实现了 AIME 2024 基准测试中准确率从 6.5%到 57.1%的提升,在 MATH 500 基准测试中实现了从 59.2%提升至 94.8%。
④ 李飞飞的 s1 工作同样采用少量高质量数据微调 Qwen2.5-32B-Instruct,实现超过 o1-preview 的推理能力。