跨标记器知识蒸馏新方法:多层次最优传输

多层次最优传输(MultiLevelOT)方法实现通用跨标记器知识蒸馏,高效压缩大语言模型,无需教师学生模型共享相同标记器。

原文标题:【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

原文作者:数据派THU

冷月清谈:

知识蒸馏(KD)是一种压缩大规模语言模型(LLM)的技术,但现有方法通常要求教师和学生模型使用相同的标记器。本文提出了一种新的通用跨标记器知识蒸馏方法——多层次最优传输(MultiLevelOT)。该方法无需教师和学生模型使用相同的标记器,突破了现有KD方法的局限性。

MultiLevelOT的核心在于利用多层次的成本矩阵,在标记级别和序列级别对齐教师和学生的logit分布。在标记级别,它通过联合优化序列中所有标记,整合全局和局部信息,提高了鲁棒性。在序列级别,它使用Sinkhorn距离来衡量logit分布的差异,Sinkhorn距离是Wasserstein距离的近似值,可以有效捕捉分布的复杂结构。

通过在抽取式问答、生成式问答和摘要等任务上的实验,MultiLevelOT被证明在各种设置下优于现有的跨标记器KD方法,并且对不同模型家族、架构和参数规模的学生和教师模型都表现出很强的鲁棒性。

怜星夜思:

1、MultiLevelOT方法中,在标记级别整合全局和局部信息是如何实现的?具体操作是什么?
2、相比于其他的跨标记器知识蒸馏方法,MultiLevelOT的优势主要体现在哪些方面?除了文中提到的那些,还有没有其他潜在的优势?
3、Sinkhorn距离作为Wasserstein距离的近似,在实际应用中有哪些优缺点?MultiLevelOT 选择Sinkhorn距离的原因是什么?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。


知识蒸馏(KD)已成为压缩大规模语言模型(LLM)的一种流行技术。现有的KD方法受限于教师模型和学生模型之间必须使用相同的标记器(即词汇表),这限制了其在处理不同架构家族的LLM时的通用性。本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。我们的方法通过使用多种成本矩阵,在标记级和序列级对教师和学生的logit分布进行对齐,从而消除了维度或逐标记符对应的需求。
在标记级,MultiLevelOT通过联合优化序列中的所有标记,整合了全局和局部信息,从而增强了鲁棒性。在序列级,我们通过Sinkhorn距离高效捕捉logits的复杂分布结构,该距离近似于Wasserstein距离,用于度量分布的散度。通过在抽取式问答、生成式问答和摘要等任务上的大量实验证明,MultiLevelOT在各种设置下优于现有的跨标记器KD方法。我们的 approach 对不同的学生和教师模型在不同的模型家族、架构和参数规模下表现出较强的鲁棒性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得潜在的优势可能在于效率方面,毕竟Sinkhorn距离的计算效率比较高,这可能会使得MultiLevelOT在训练过程中更快。

Sinkhorn 距离还有一个优点是可微分,这对于基于梯度的优化方法很重要。至于 MultiLevelOT 选择 Sinkhorn 距离的原因,除了效率,可能还考虑了它可微分的特性,方便优化。

除了效率,我觉得泛化能力也可能是一个潜在优势。由于MultiLevelOT考虑了全局和局部信息,它训练出来的学生模型可能泛化能力更强,在未见数据上的表现更好。

是不是可以理解为,在计算某个标记的损失时,不仅考虑了它自身的logit分布与教师模型的差异,还考虑了整个序列的logit分布与教师模型的差异?这样就相当于把全局信息也考虑进来了。

我猜想可能是通过注意力机制之类的操作,将全局信息融入到每个标记的表示中,这样在计算损失的时候,每个标记的损失都包含了全局信息,从而实现了全局和局部信息的整合。

关于“标记级别整合全局和局部信息”这个问题,我的理解是,全局信息指的是整个序列的logit分布,局部信息指的是单个标记的logit分布。MultiLevelOT通过联合优化序列中所有标记,相当于同时考虑了全局和局部信息的影响,从而达到整合的目的。至于具体操作,论文中应该会有更详细的描述,可以去查阅一下。

Sinkhorn 距离的主要优点是计算效率高,比 Wasserstein 距离更容易计算。缺点是它是一个近似值,可能不如 Wasserstein 距离精确。MultiLevelOT 选择 Sinkhorn 距离,我猜想主要是因为效率的考虑,毕竟训练 LLM 需要大量的计算资源。

MultiLevelOT 的优势之一在于它不需要教师和学生模型使用相同的标记器,这就扩大了适用范围,可以用于更多不同架构的模型。此外,它在标记级和序列级都进行了对齐,可能比只在单一级别进行对齐的方法效果更好。

论文里提到Sinkhorn距离可以有效捕捉logits的复杂分布结构,我理解这是选择Sinkhorn距离的一个重要原因,因为它更贴合实际情况。