微软提出模型链CoM:扩展语言模型的新范式

微软提出模型链(CoM)新范式,旨在提升大语言模型的可扩展性和灵活性,实验表明CoM在性能上与现有模型相当,且更具潜力。

原文标题:微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

原文作者:机器之心

冷月清谈:

本文介绍了微软等机构提出的新型学习范式——模型链(CoM),旨在解决现有大语言模型扩展策略的效率低下和缺乏动态适应性等问题。CoM基于表征链(CoR)的概念,通过链式层(CoL)在不同尺度之间建立因果依赖关系,实现跨尺度的特征转换。研究者将CoL应用于Transformer,构建了语言模型链(CoLM),并通过键值共享机制进一步提出CoLM-Air,提高了可扩展性和灵活性。实验结果表明,CoLM系列模型在性能上与现有模型相当,同时具备更好的可扩展性和灵活性。此外,研究还提出了链式扩展和链式调优方法,验证了CoM在模型扩展和微调方面的有效性,并展示了CoLM在弹性推理方面的潜力。

怜星夜思:

1、CoM模型链的提出,主要是为了解决现有LLM的哪些瓶颈?除了文章中提到的效率和动态适应性,你认为还有哪些潜在的优势?
2、文章中提到了CoLM-Air的键值共享机制能提高可扩展性和灵活性,这种机制具体是如何实现的?为什么共享键值对就能带来这些好处?
3、CoM的链式调优方法,冻结前几个链只微调后续链,可以降低调优成本并缓解灾难性遗忘。那么,如何选择冻结哪些链,以及微调哪些链?是否存在一种策略,能够自动确定哪些链应该被冻结或微调?

原文内容

机器之心报道

编辑:陈陈


随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。


在此背景下,LLM 的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同的部署环境提供不同的推理用途。


鉴于这种日益增长的扩展律,如何开发和有效利用 LLM 来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。


目前,扩展 LLM 架构存在以下问题:


  • 与人类智能能够渐进式获取新知识不同,现有的扩展策略无法保留已有知识规模,总是需要从头开始训练,导致效率低下。

  • 现有 LLM 架构(如密集模型或 MoE)始终激活固定规模的参数,缺乏动态适应问题解决能力的机制。


本文,来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念,CoR(Chain-of-Representation,表征链),它将表征范式的范畴泛化到更广泛的范围。



  • 论文标题:Chain-of-Model Learning for Language Model 

  • 论文地址:https://arxiv.org/pdf/2505.11820


具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通过使用不同数量的前导链(preceding chains),其对应的特征可以用来编码不同的知识(称之为 scale),如图 1 所示。



因此,如何在 CoR 特征之间建立连接以确保跨尺度的特征转换是非常关键的。


为了实现这一目标,本文接着提出了一种名为模型链(Chain-of-Model,CoM)的新型学习范式,用于建模 CoR 特征。


其核心思想是在不同尺度之间引入因果依赖关系,确保每个尺度只能使用其前面尺度的信息。为此,本文提出了链式层(Chain-of-Layer,CoL),以基于 CoR 特征重新构建当前的网络层。


在 CoM 框架的基础上,本文将 CoL 的思想应用于 Transformer 的每一层,重新构建了语言模型架构,并将其命名为语言模型链(CoLM


此外,基于 CoL 准则,本文在注意力模块中进一步引入了键值共享机制,该机制要求所有键和值都在第一个链中进行计算,并将其命名为 CoLM-Air。基于此机制,CoLM-Air 提供了更高的可扩展性和灵活性。


多个基准测试实验结果表明,CoLM 系列模型能够达到相当的性能,同时展现出更好的可扩展性和灵活性。


方法介绍


首先是表征链的定义:



据定义 1,每个链对应于 CoR 中的每个子表征,通过激活前几个链,CoR 可以用来编码尺度。因此,CoR 允许在单一表示中编码 n 个不同的尺度。如果 n=1,CoR 与原始表示相同。图 1 展示了 CoR 的概念。


基于上述定义,现在面临的一个挑战是如何设计层来建立 CoR 输入和 CoR 输出之间的连接,从而实现多尺度特征转换,同时又能保持输出特征符合定义 1 中 CoR 的标准。


这就需要保证每个尺度只能利用其所有前一个尺度的信息,并同时引入 Chain-of-Layer 将因果关系融入 CoR 的隐藏状态中,如下所示:



其中,CoL 具有三个基本属性 —— 普遍性因果性组合性


最重要的是,CoL 支持组合性,这意味着堆叠多个 CoL 层也能保留 CoL 的特性。这一特性能够将 CoL 的范围从层级推广到模型级。


接着本文又给出了第三个定义


图片


根据定义 3,如果一个模型满足了 CoM 的标准,那么它也继承了 CoL 的所有属性,例如通用性和因果关系。换句话说,任何模型都可以被视为一种 CoM(即 n = 1)。 CoM 可以将不同规模的多个子模型集成到一个模型中,能够在现有模型的基础上进行扩展。这种能力直接赋予了基础模型更好的可扩展性和灵活性。


接着,文章详细描述了如何将 CoM 应用于语言模型,包括 Linear、Transformer 中的每个模块(例如,嵌入、自注意力、前馈、归一化)以及目标函数,并将其称为 CoLM(Chain-of-Language-Model)。此外,本文进一步引入了一种基于 CoLM 框架的键值共享机制,并将其称为 CoLM-Air,它提供了更好的灵活性。


图 2 描述了线性层和 Chain-of-Linear 层的比较。



图 3 说明了注意力和注意力链的区别:



对这部分内容感兴趣的读者,可以参考原论文了解更多内容。


实验结果


表 1 结果表明,CoLM 取得了与基线相当的结果,同时提供了更快的预填充速度和更高的灵活性。



考虑到 CoM 的通用性与因果性,任何模型在链数为 1 时均可视为 CoM 的特例,并可扩展至多链结构。因此,本文提出链式扩展(Chain Expansion)方法:以训练完备的模型作为初始链,通过新增链进行扩展。


为验证这一观点,本文选择了两个 LLaMA 变体(即 TinyLLaMA-v1.1 和 LLaMA-3.21B)作为扩展的初始链。


表 2 结果表明,与 TinyLLaMA-v1.1 和 LLaMA-3.2-1B 相比,本文分别实现了 0.92 和 0.14 的提升。由于 LLaMa-3.2-1B 是更强的基线,因此需要更多计算才能获得显著提升,但本文方法在有限的计算量下仍然可以对其进行改进。总体而言,这些结果也表明,即使在资源受限的情况下,本文方法在改进基线方面仍然有效。



弹性推理旨在提供动态推理能力以满足不同部署场景的需求。表 3 结果进一步凸显了 CoLM 在实现弹性推理方面的潜力。



从图 5 可以看出,在参数量相近的情况下,CoLM-Air 相比 LLaMa 实现了更快的预填充速度。随着序列长度的增加,CoLM-Air 在预填充阶段能获得更显著的速度提升。这充分证明了 CoLM-Air 能有效加速预填充过程。



得益于 CoM 架构的因果特性,CoLM 由多个链式模块组成,其中每个链都能继承前序链的能力。基于这一特性,本文提出链式调优(Chain Tuning)方法 —— 在冻结前几个链的同时仅对后续链进行微调。该方法通过保留初始链参数,既能降低约 42% 的调优成本,又可有效缓解灾难性遗忘问题。


此外,当采用 CoLM-Air 配置并冻结首链时,经微调模型产生的键值对可无缝迁移至原始模型,无需额外计算。实验表明,链式调优仅需微调约 42% 的模型参数即可提升性能,且能与 LoRA 等参数高效微调方法兼容。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得可以借鉴迁移学习的思想。如果新的任务和原始任务比较相似,可以冻结更多的链;如果新的任务和原始任务差异很大,就需要微调更多的链。

至于自动确定哪些链应该被冻结或微调,可以尝试用强化学习的方法来训练一个策略网络,根据当前的任务和模型的状态,动态地选择冻结或微调哪些链。不过,这肯定会增加训练的复杂度。

如果把Transformer比作一个团队,键值对就是团队成员的技能和经验。共享键值对就像是团队成员共享自己的技能和经验,避免重复劳动,提高整体效率。而且,每个人都可以基于共享的知识,发挥自己的特长,从而提高团队的灵活性。

谢邀,CoM模型的出现确实让人眼前一亮。除了文章提到的瓶颈,我认为它可能在以下几个方面有潜力:

* 降低模型维护成本: 我可以把CoM想象成乐高积木,不同的链相当于不同的模块,有问题只需要更换特定模块,而不用重构整个模型。
* 提升模型的可解释性: 每一条链负责一部分功能,这样是不是更容易理解模型是如何做出决策的?
* 支持增量学习: CoM可以像搭积木一样,逐步加入新的链来学习新的知识,不需要全部重来。

可以搞个“链链PK”! 先随机冻结一部分链,微调剩下的链,然后评估模型的性能。 多PK几次, 找出最佳的冻链组合。虽然笨了点,但说不定有效!(手动狗头)

楼上说的有道理,我补充一点。我感觉CoM就像一个多核CPU,不同的链相当于不同的核心,可以并行处理不同的任务,提高了模型的并发能力。如果能把它和现有的多专家模型结合起来,感觉会更牛。

楼上说的强化学习靠谱!还可以考虑用一些更简单的方法,比如:

* 基于梯度的选择: 计算每个链的梯度,梯度小的链说明对当前任务不敏感,可以冻结。
* 基于熵的选择: 计算每个链的输出熵,熵小的链说明输出比较稳定,可以冻结。

当然,这些方法都需要实验验证。

键值共享,听起来有点像“知识共享”的意思。我认为,通过只计算一次键值对,可以避免不同链之间的信息冗余,提高效率。另一方面,第一个链的键值对相当于一个"通用知识库",后续的链可以基于这个知识库进行更专业化的推理,从而提高灵活性。

咳咳,让AI来解释一下:键值共享可以理解为一种“信息压缩”技术。通过共享键值对,可以减少模型需要存储和处理的信息量,从而降低计算成本,提高运行速度。听起来很厉害的样子,但具体怎么实现的,我也不太懂。:joy:

CoM主要针对LLM的训练成本高、无法动态适应不同推理环境的问题。我觉得潜在优势还有:

1. 更易于定制化: 不同链可以代表不同领域的知识或技能,方便根据具体应用场景进行定制。
2. 更好的知识迁移能力: 已经训练好的链可以直接用于新的任务,减少从头开始训练的需求。
3. 更高的安全性: 可以通过控制激活的链来限制模型的输出,避免泄露敏感信息。