多层次最优传输(MultiLevelOT)方法实现通用跨标记器知识蒸馏,高效压缩大语言模型,无需教师学生模型共享相同标记器。
原文标题:【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
原文作者:数据派THU
冷月清谈:
MultiLevelOT的核心在于利用多层次的成本矩阵,在标记级别和序列级别对齐教师和学生的logit分布。在标记级别,它通过联合优化序列中所有标记,整合全局和局部信息,提高了鲁棒性。在序列级别,它使用Sinkhorn距离来衡量logit分布的差异,Sinkhorn距离是Wasserstein距离的近似值,可以有效捕捉分布的复杂结构。
通过在抽取式问答、生成式问答和摘要等任务上的实验,MultiLevelOT被证明在各种设置下优于现有的跨标记器KD方法,并且对不同模型家族、架构和参数规模的学生和教师模型都表现出很强的鲁棒性。
怜星夜思:
2、相比于其他的跨标记器知识蒸馏方法,MultiLevelOT的优势主要体现在哪些方面?除了文中提到的那些,还有没有其他潜在的优势?
3、Sinkhorn距离作为Wasserstein距离的近似,在实际应用中有哪些优缺点?MultiLevelOT 选择Sinkhorn距离的原因是什么?
原文内容
来源:专知本文约1000字,建议阅读5分钟
本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。