大型语言模型的蒸馏现象研究

研究发现许多大型语言模型存在高蒸馏度,导致模型同质化,并可能影响其处理复杂任务的能力。

原文标题:原来,这些顶级大模型都是蒸馏的

原文作者:机器之心

冷月清谈:

中国科学院等机构的研究者发现,除了Claude、豆包和Gemini之外,许多知名的闭源和开源大型语言模型(LLM)都表现出很高的蒸馏度。研究者提出了响应相似度评估(RSE)和身份一致性评估(ICE)两种方法来量化LLM的蒸馏程度。RSE通过比较学生模型和原始模型的输出相似度来衡量模型的同质化程度,ICE则通过诱导模型暴露其身份信息来评估模型在感知和表示身份相关信息方面的差异。
研究发现,一些模型会在声明自己身份时出现矛盾,例如Llama 3.1声称自己是OpenAI开发的,Qwen-Max则称自己由Anthropic创造。实验结果表明,GLM-4-Plus、Qwen-Max和Deepseek-V3是可疑响应数量最多的三个模型,表明它们具有更高的蒸馏程度。相比之下,Claude-3.5-Sonnet和Doubao-Pro-32k几乎没有显示可疑响应。研究还发现,基础LLM通常比经过监督微调的LLM表现出更高程度的蒸馏,闭源的Qwen-Max-0919比开源的Qwen 2.5系列具有更高的蒸馏程度。
过度蒸馏会导致模型同质化,降低模型多样性,并损害模型处理复杂或新颖任务的能力。该研究希望通过量化蒸馏过程及其影响,提高LLM数据蒸馏的透明度。

怜星夜思:

1、文章提到了蒸馏会导致模型同质化,除了文中提到的稳健性下降,这种同质化还会带来哪些潜在问题?
2、如何判断一个模型是否使用了蒸馏技术?除了文章提到的方法,还有其他可行的方法吗?
3、文章中提到的蒸馏技术,对于普通用户来说有什么影响?

原文内容

机器之心报道

编辑:张倩

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。


前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。但由于运营成本太高等原因,他们将其应用在了内部,通过蒸馏等方法来改进小模型的能力,然后依靠这些小模型来盈利(参见)。


当然,这只是他的个人猜测。不过,从新论文的结论来看,「蒸馏」在顶级模型中的应用范围确实比我们想象中要广。


具体来说,研究者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型,发现这些模型大多存在很高程度的蒸馏(Claude、豆包和 Gemini 除外)。比较明显的证据是:很多模型会在声明自己身份等问题时出现矛盾,比如 llama 3.1 会说自己是 OpenAI 开发的,Qwen-Max 说自己由 Anthropic 创造。



蒸馏固然是一种提升模型能力的有效方法,但作者也指出,过度蒸馏会导致模型同质化,减少模型之间的多样性,并损害它们稳健处理复杂或新颖任务的能力。所以他们希望通过自己提出的方法系统地量化蒸馏过程及其影响,从而提供一个系统性方法来提高 LLM 数据蒸馏的透明度。



  • 论文标题:Distillation Quantification for Large Language Models

  • 论文链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf

  • 项目链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification


为什么要测试 LLM 的蒸馏情况?


最近,模型蒸馏作为一种更有效利用先进大语言模型能力的方法,引起了越来越多的关注。通过将知识从更大更强的 LLM 迁移到更小的模型中,数据蒸馏成为了一个显著的后发优势,能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。


然而,这种后发优势也是一把双刃剑,它阻止了学术机构的研究人员和欠发达的 LLM 团队自主探索新技术,并促使他们直接从最先进的 LLM 中蒸馏数据。此外,现有的研究工作已经揭示了数据蒸馏导致的鲁棒性下降。


量化 LLM 的蒸馏面临几个关键挑战:


1. 蒸馏过程的不透明性使得难以量化学生模型和原始模型之间的差异;

2. 基准数据的缺乏使得需要采用间接方法(如与原始 LLM 输出的比较)来确定蒸馏的存在;

3. LLM 的表征可能包含大量冗余或抽象信息,这使得蒸馏的知识难以直接反映为可解释的输出。


最重要的是,数据蒸馏在学术界的广泛使用和高收益导致许多研究人员避免批判性地检查与其使用相关的问题,导致该领域缺乏明确的定义。


研究者使用了什么方法?


作者在论文中提出了两种方法来量化 LLM 的蒸馏程度,分别是响应相似度评估(RSE)和身份一致性评估(ICE)。



RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较,从而衡量模型的同质化程度。ICE 则采用一个知名的开源越狱框架 GPTFuzz,通过迭代构造提示来绕过 LLM 的自我认知,评估模型在感知和表示身份相关信息方面的差异 。 


 他们将待评估的特定大语言模型集合定义为 LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},其中 k 表示待评估的 LLM 集合的大小。


响应相似度评估(RSE)


RSE 从 LLM_test 和参考 LLM(在本文中即 GPT,记为 LLM_ref)获取响应。作者随后从三个方面评估 LLM_test 和 LLM_ref 的响应之间的相似度:响应风格、逻辑结构和内容细节。评估者为每个测试 LLM 生成一个它与参考模型的整体相似度分数。


作者将 RSE 作为对 LLM 蒸馏程度的细粒度分析。在本文中,他们手动选择 ArenaHard、Numina 和 ShareGPT 作为提示集,以获取响应并评估 LLM_test 在通用推理、数学和指令遵循领域的相关蒸馏程度。如图 3 所示,LLM-as-a-judge 的评分分为五个等级,每个等级代表不同程度的相似度。 



身份一致性评估(ICE) 


ICE 通过迭代构造提示来绕过 LLM 的自我认知,旨在揭示嵌入其训练数据中的信息,如与蒸馏数据源 LLM 相关的名称、国家、位置或团队。在本文中,源 LLM 指的是 GPT4o-0806。


作者在 ICE 中采用 GPTFuzz 进行身份不一致性检测。首先,他们将源 LLM 的身份信息定义为事实集 F,F 中的每个 f_i 都清楚地说明了 LLM_ti 的身份相关事实,例如「我是 Claude,一个由 Anthropic 开发的 AI 助手。Anthropic 是一家总部位于美国的公司。」 



同时,他们使用带有身份相关提示的 P_id 来准备 GPTFuzz 的 

用于查询 LLM_test 中的 LLM 关于其身份的信息,详见附录 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比较提示的响应与事实集 F。具有逻辑冲突的响应会被识别出来,并相应地合并到 F^G 的下一次迭代中。 


作者基于 GPTFuzz 分数定义两个指标:


  • 宽松分数:将任何身份矛盾的错误示例视为成功攻击;

  • 严格分数:仅将错误识别为 Claude 或 GPT 的示例视为成功攻击。



实验结果如何?


ICE 的实验结果如图 4 所示,宽松分数和严格分数都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑响应数量最多的三个 LLM,这表明它们具有更高的蒸馏程度。相比之下,Claude-3.5-Sonnet 和 Doubao-Pro-32k 几乎没有显示可疑响应,表明这些 LLM 的蒸馏可能性较低。宽松分数指标包含一些假阳性实例,而严格分数提供了更准确的衡量。 



作者将所有越狱攻击提示分为五类,包括团队、合作、行业、技术和地理。图 5 统计了每种类型问题的成功越狱次数。这个结果证明 LLM 在团队、行业、技术方面的感知更容易受到攻击,可能是因为这些方面存在更多未经清理的蒸馏数据。 



如表 1 所示,作者发现相比于监督微调(SFT)的 LLM,基础 LLM 通常表现出更高程度的蒸馏。这表明基础 LLM 更容易表现出可识别的蒸馏模式,可能是由于它们缺乏特定任务的微调,使它们更容易受到评估中利用的漏洞类型的影响。 



另一个有趣的发现是,实验结果显示闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列具有更高的蒸馏程度。作者发现了大量与 Claude 3.5-Sonnet 相关的答案,而 2.5 系列 LLM 的可疑答案仅与 GPT 有关。这些示例在附录 D 中有所展示。 


RSE 结果在表 3 中展示,以 GPT4o-0806 作为参考 LLM,结果表明 GPT 系列的 LLM(如 GPT4o-0513)表现出最高的响应相似度(平均相似度为 4.240)。相比之下,像 Llama3.1-70B-Instruct(3.628)和 Doubao-Pro-32k(3.720)显示出较低的相似度,表明蒸馏程度较低。而 DeepSeek-V3(4.102)和 Qwen-Max-0919(4.174)则表现出更高的蒸馏程度,与 GPT4o-0806 相近。



为了进一步验证观察结果,作者进行了额外的实验。在这个设置中,他们选择各种模型同时作为参考模型和测试模型。对于每种配置,从三个数据集中选择 100 个样本进行评估。附录 F 中的结果表明,当作为测试模型时,Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始终表现出较低的蒸馏程度。相比之下,Qwen 系列和 DeepSeek-V3 模型倾向于显示更高程度的蒸馏。这些发现进一步支持了本文所提框架在检测蒸馏程度方面的稳健性。 


更多细节请参考原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

有人问“文章中提到的蒸馏技术,对于普通用户来说有什么影响?”我觉得可能会影响用户体验。如果蒸馏过度,模型的输出可能会变得千篇一律,缺乏个性化,这会降低用户体验。

关于“文章提到了蒸馏会导致模型同质化,除了文中提到的稳健性下降,这种同质化还会带来哪些潜在问题?”这个问题,我觉得可能会加剧偏见。如果蒸馏的源模型本身就存在偏见,那么这些偏见就会被传递给学生模型,甚至被放大,导致整个AI领域都带有同样的偏见。

有人问“如何判断一个模型是否使用了蒸馏技术?除了文章提到的方法,还有其他可行的方法吗?”我觉得可以尝试逆向工程,通过分析模型的结构和参数,推断其是否使用了蒸馏技术,但这需要很高的技术水平。

对于“如何判断一个模型是否使用了蒸馏技术?除了文章提到的方法,还有其他可行的方法吗?”这个问题,我觉得可以分析模型的输出分布。如果一个小型模型的输出分布与某个大型模型非常相似,那么它很可能使用了蒸馏技术。

关于“如何判断一个模型是否使用了蒸馏技术?除了文章提到的方法,还有其他可行的方法吗?”这个问题,我想补充一点,可以考察模型的学习速度。如果一个模型的训练速度异常快,远超正常水平,那么它可能使用了蒸馏技术,因为蒸馏可以加速模型的学习过程。

对于“文章中提到的蒸馏技术,对于普通用户来说有什么影响?”这个问题,我觉得最大的影响就是成本降低。蒸馏技术可以让更小的模型拥有接近大型模型的性能,这意味着用户可以用更低的成本使用AI服务。

引用一下问题:“文章提到了蒸馏会导致模型同质化,除了文中提到的稳健性下降,这种同质化还会带来哪些潜在问题?” 我觉得可能会导致创新停滞。大家都用一样的蒸馏方法,模型输出都差不多,那谁还有动力去探索新的模型架构或训练方法呢?

这个问题问得好:“文章提到了蒸馏会导致模型同质化,除了文中提到的稳健性下降,这种同质化还会带来哪些潜在问题?” 我认为可能会造成安全风险。如果大家都用类似的模型,一旦发现某个模型有安全漏洞,其他模型可能也会存在同样的漏洞,这会给攻击者提供可乘之机。

关于“文章中提到的蒸馏技术,对于普通用户来说有什么影响?”这个问题,我的看法是,短期内可能感受不明显,但长期来看,可能会限制AI的发展,最终影响到用户能够使用的AI产品的多样性和性能提升。