LLaVA-MoD：知识蒸馏赋能轻量化多模态大模型，2B模型超越7B

DatapiTHU · 2025 年5 月 3 日 21:01

ICLR 2025论文LLaVA-MoD，通过MoE和知识蒸馏，让2B小模型超越7B大模型，代码已开源！

原文标题：ICLR 2025 | LLaVA-MoD：MoE蒸馏训练轻量化多模态大模型

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656662&idx=1&sn=d65ea7ba452120ff884604687d07e4d1&

冷月清谈：

本文介绍了LLaVA-MoD，一种通过知识蒸馏技术，从大型多模态语言模型（l-MLLM）高效训练小型多模态语言模型（s-MLLM）的方法。该方法通过集成稀疏专家混合（MoE）架构优化小模型的网络结构，并设计了Dense-to-Sparse蒸馏框架，结合模仿蒸馏和偏好蒸馏，实现全面的知识迁移。实验结果表明，LLaVA-MoD仅使用少量数据和参数，即可使2B的小模型在综合性能上超越7B的大模型，并在幻觉检测任务中超过教师模型。该研究为在计算资源受限的场景下部署高性能多模态模型提供了新的解决方案，其核心在于通过MoE结构提升模型容量，并通过两阶段蒸馏策略有效迁移知识。

怜星夜思：

1、LLaVA-MoD通过知识蒸馏让小模型超越大模型，这种方法在哪些实际应用场景中最有潜力？除了文中的智能终端和边缘计算，还有什么新的应用方向？
2、LLaVA-MoD的成功很大程度上依赖于MoE（混合专家模型），MoE的优势是什么？在实际应用中，MoE会带来哪些额外的挑战，又该如何应对？
3、LLaVA-MoD在偏好蒸馏阶段，使用教师模型作为参考来优化学生模型的输出，减少幻觉。除了这种方法，你认为还有哪些策略可以有效缓解多模态大模型的幻觉问题？

原文内容

来源：AcademicDaily
本文共2300字，建议阅读5分钟
本文提出了LLaVA-MoD，用于通过知识蒸馏从l-MLLM中高效训练s-MLLM。

大模型虽强，但动辄数十亿参数，训练成本高、推理速度慢这可怎么办？

别担心，在ICLR 2025上阿里联合港中文等机构发表了最新研究成果LLAVA-MoD。

通过两项核心技术突破，让小模型也能“四两拨千斤”！

2B参数的小模型性能也能超越7B大模型！

究竟如何做到的？一文揭秘👇

【论文链接】

https://openreview.net/pdf?id=uWtLOy35WD

源码见文末

1、简介

本文提出了轻量化多模态大模型LLaVA-MoD，通过集成稀疏专家混合（MoE）架构来优化小模型的网络结构。

并设计了Dense-to-Sparse蒸馏框架，结合模仿蒸馏和偏好蒸馏的两阶段策略，实现全面的知识迁移。

该方案仅使用0.3%的数据和23%的激活参数，即可使2B的小模型的综合性能超过7B的大模型8.8%，并在幻觉检测任务中超越教师模型。

本文的研究思路与Deepseek-R1相似，均聚焦于Dense与Sparse MoE之间的知识蒸馏架构。

但LLaVA-MoD在此基础上创新性地采用了逆向路径（Dense-to-Sparse），使参数效率提高了3.2倍，训练数据消耗减少了99.7%。

该方法在动态平衡模型效率与表达能力的同时，为智能终端、边缘计算等应用场景提供了高性价比的解决方案，相关代码已开源。

2、引言

MLLM通过将视觉编码器整合入LLM中，在多模态任务上取得了显著成效。

然而，这些大型模型由于其庞大的规模和广泛的训练数据，面临着重大的计算挑战。

例如，LLaVA-NeXT的最大版本利用Qwen-1.5-110B为基础，在128个H800 GPU上训练了18小时。

此外，庞大的参数需求需要高性能硬件支持，导致推理速度缓慢，这使得在现实世界中，特别是在移动设备上进行部署变得更加困难。

因此，探索一种在性能与效率之间实现平衡的小型多模态语言模型（s-MLLM）成为当前的重要研究课题。

s-MLLM的研究主要集中在数据收集和过滤机制上，以确保训练数据的高质量。尽管这些方法有效，但本质上限制了模型的容量。

随着开源MLLM的增多，利用大型MLLM（l-MLLM）作为教师通过蒸馏其丰富的知识到s-MLLM，成为一种可行的研究方向。

然而，在MLLM中实施知识蒸馏是一项全新的尝试。

本文将重点关注两个主要挑战：

如何设计一个轻量级架构，以保持强大的学习和表达能力，从而使学生模型能够有效吸收教师模型中的复杂知识。
如何高效且全面地将这种知识从教师模型转移到学生模型。

3、技术方案

提出LLaVA-MoD，通过MoE和知识蒸馏（KD）来应对这些挑战，包括两个主要组成部分：

s-MLLM架构设计：如图1所示，设计了一个稀疏的s-MLLM以平衡性能和参数，能够高效学习多样性复杂知识。
蒸馏机制：如图2所示，设计了一个渐进式蒸馏框架，用于将知识从l-MLLM传递给稀疏的s-MLLM，包含两个阶段：模仿蒸馏和偏好蒸馏。

3.1 稀疏架构设计

图1. s-MLLM的稀疏化

如图1所示，s-MLLM包含三个主要组件：

视觉编码器（Vision Encoder）
大语言模型
视觉语言适配器（VL Adaptor）

构建s-MLLM的原则是保持Vision Encoder和VL Adaptor不变，同时引入MoE架构，将LLM从稠密型转化为稀疏型。

具体而言，通过稀疏升采样（sparse upcycling）将多个前馈网络（FFN）复制为专家模块。

此外，增加了一个线性层作为路由器，以动态预测专家分配的概率，从而激活合适的专家。

在训练和推理阶段，专家模块能够以动态和稀疏的方式被激活，从而在增加模型容量的同时实现高效的训练和推理过程。

3.2 渐进式蒸馏

图2. LLaVA-MoD的渐进蒸馏

渐进蒸馏包括两个不同的阶段，如图2，即模拟蒸馏和偏好蒸馏。

在模仿蒸馏阶段，学生MLLM模拟教师MLLM的通用和专家知识。

在偏好蒸馏阶段，学生MLLM基于教师MLLM的偏好知识，以进一步优化其输出并减少幻觉。

3.3 模仿蒸馏

由于教师MLLM的知识丰富且复杂，学生MLLM难以一步掌握。

因此本文将知识分解为通用知识和专业知识，分别进行密集到密集蒸馏和密集到稀疏蒸馏，以将这两个方面的知识传递给学生MLLM。

●密集到密集蒸馏：在这一阶段，核心目标是学习教师MLLM的通用知识。

通用知识至关重要，因为它为多个领域提供了广泛的基础和共同理解，使学生MLLM能够建立适用于多种场景的基本框架。

这个基础支持学生在进入特定任务之前，拥有更全面和灵活的理解。

具体而言，利用通用的图像-标题对和对话数据来更新LLM和VL Adaptor。

●密集到稀疏蒸馏：在这一阶段，通过引入MoE结构，学生MLLM能够针对不同任务和输入选择性地激活最相关的专家，从而在模拟教师的专业知识方面获得显著优势。

具体来说，在训练过程中，利用多任务数据，采用Top-k路由策略选择专家，仅更新这些专家和VL Adaptor。

3.4 偏好蒸馏

在这一阶段，基于教师MLLM中的偏好知识，指导学生MLLM生成不仅准确而且合理的响应，这对于减少幻觉至关重要。

偏好蒸馏受到离散描述偏好优化（DPO）进展的启发，将教师MLLM视为参考模型，发挥关键作用，因为它提供了“好”和“坏”的见解，从而为学生模型建立一个基本参考。

具体而言，训练目标是优化学生模型，使其在区分正面和负面响应时，为正面响应分配比教师模型更高的概率，同时为负面响应分配比教师模型更低的概率。

4、实验结果

采用成熟的"ViT-MLP-LLM"架构来证明LLaVA-MoD的有效性。

在模拟蒸馏中，使用2.4M通用captioning和对话样本来学习教师MLLM的通用知识，以及1.4M多任务数据，包括VQA、文档、科学和OCR，以学习教师MLLM的专业知识。

在偏好蒸馏中，使用8W偏好样本来学习教师偏好知识。

评估benchmark包括多模态理解、推理和幻觉。

4.1 多模态理解和推理

表1表明，LLaVA-MoD在以理解为导向的基准测试上表现出色。

在2B规模和1B规模的模型中，它分别取得了最先进的平均结果。

表1. 理解知识能力

4.2 幻觉消除

如表2所示，LLaVA-MoD在减轻幻觉方面表现出色，甚至超过了其教师模型。

这可以归因于两个方面：

首先，通过为正响应分配更高的概率，偏好蒸馏鼓励学生模型专注于提供正确和相关的信息。

其次，通过为负响应分配较低的概率，偏好蒸馏discourages错误或不实的信息。

利用教师模型作为参考调整响应概率，这种优化使学生模型更准确、可靠地处理幻觉问题，从而超过了教师模型。

表2: 幻觉消除能力

5、结论

本文提出了LLaVA-MoD，用于通过知识蒸馏从l-MLLM中高效训练s-MLLM。

该框架解决了MLLM蒸馏的两个关键挑战：使用MoE设计增强s-MLLM架构的效率和表达能力平衡，并实现了一种渐进式知识转移策略。

【源码链接】

https://github.com/shufangxun/LLaVA-MoD

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Shadow53r · 2025 年5 月 7 日 21:28

从模型结构上考虑，可以尝试引入注意力机制。让模型在生成答案时，更加关注图片和文本中的关键信息，避免被无关信息干扰。同时，也可以使用一些专门用于幻觉检测的模块，对模型生成的答案进行评估和过滤。

HarvestMoon921 · 2025 年5 月 8 日 02:45

如果从理论上分析，MoE其实是一种隐式的集成学习方法。每个专家可以看作是一个独立的弱学习器，然后通过路由机制将它们组合起来。这种方法的优势在于可以有效地利用模型的容量，但同时也容易出现过拟合的问题。因此，在训练MoE模型时，需要特别注意正则化，例如使用dropout或者L1正则化。

Pulse48v · 2025 年5 月 8 日 20:56

我觉得可以尝试引入外部知识库。让模型在生成答案之前，先从知识库中检索相关信息，然后再进行生成。这样可以确保模型生成的内容更加准确和可靠，减少幻觉的产生。

Nomad63k · 2025 年5 月 9 日 04:31

从工程角度来说，MoE会增加模型部署的复杂度。需要考虑如何高效地存储和加载多个专家模型，以及如何在推理过程中快速地选择合适的专家。一些解决方案包括使用专门的MoE推理引擎，或者对专家模型进行裁剪和量化，以减小模型大小和推理延迟。

Void912s · 2025 年5 月 10 日 02:44

脑洞大开一下，这种技术是不是也能用在游戏里？用大模型训练AI NPC，然后蒸馏出一个轻量级的AI模型，让NPC的行为更加智能，但是又不会太消耗玩家的设备性能。想想就觉得很有意思！

ScarletTiger123 · 2025 年5 月 10 日 09:29

MoE的精髓在于“分工合作”，每个专家负责处理特定类型的任务，使得模型整体容量可以远大于单个模型的参数量。但是，MoE的挑战也很明显，就是如何有效地进行“任务分配”，也就是如何设计路由机制，确保每个任务都能被分配到最合适的专家。此外，不同专家之间的负载均衡也是一个需要考虑的问题。

Solace15k · 2025 年5 月 10 日 15:44

从数据角度出发，可以构建更加高质量的多模态数据集。比如，可以人工标注一些包含明确事实信息的数据，然后让模型学习这些数据。此外，还可以使用数据增强技术，生成更多样化的数据，提高模型的泛化能力。

ElectricEel339 · 2025 年5 月 10 日 20:15

我觉得知识蒸馏在教育领域有很大潜力！可以针对不同年龄段的学生，用大模型作为“超级老师”，蒸馏出适合他们的个性化学习模型。这样每个学生都能享受到高质量的教育资源，而且成本可控。

SummerSun956 · 2025 年5 月 11 日 10:33

从技术角度来看，我认为在数据安全和隐私保护要求高的场景下，LLaVA-MoD这种方案很有价值。大型模型可以在云端训练，然后将蒸馏出的轻量化模型部署到本地设备，避免了敏感数据上传云端，同时又能享受到大模型的强大能力。