ACL2025:大模型参数迁移遇难题?中科院提出跨规模参数知识迁移不兼容性

中科院研究揭示跨规模大模型参数知识迁移难题:模型间“神经不兼容性”阻碍有效迁移,现有方法难以超越较大模型能力上界。

原文标题:ACL2025 | 传统符号语言传递知识太低效?探索LLM高效参数迁移可行性

原文作者:机器之心

冷月清谈:

本文深入探讨了跨规模大语言模型(LLM)之间参数知识迁移(PKT)的可行性。研究由中国科学院自动化所提出,通过对表现相似度和参数相似度的分析,揭示了跨规模LLM之间存在“神经不兼容性”,即模型在行为方式和内部参数结构上存在显著差异,这成为实现有效PKT的重大挑战。论文提出了先对齐知识迁移(Pre-Align PKT)的新范式,并设计了定位后对齐(LaTen)方法,但实验结果表明,当前阶段的PKT仍难以超越较大LLM的能力上界。研究强调,模型参数空间的对齐是实现参数知识迁移的关键,但跨规模模型的神经不兼容性阻碍了有效对齐。尽管如此,研究者对未来更高效、直接的大模型知识迁移方法保持乐观,认为语言可能并非大模型知识传递的终点。

怜星夜思:

1、文章里提到,从大模型抽取的参数知识不如利用模型自身知识作为LoRA初始化,这是否意味着我们应该更加关注LoRA等PEFT(Parameter-Efficient Fine-Tuning)方法在小模型上的应用,而不是试图直接从大模型迁移知识?
2、文章提到“神经不兼容性”,这是不是意味着不同规模的模型在学习到的知识表征方式上存在根本性的差异?这种差异是源于模型结构的不同,还是训练数据量的差异?
3、文章最后展望了更高效直接的知识迁移方法,如果抛开语言这种“有损的压缩方式”,你认为未来大模型知识迁移的最佳方式会是什么样的?

原文内容


论文第一作者谭宇乔来自中国科学院自动化研究所的自然语言处理和知识工程研究组,导师为何世柱老师。目前研究方向主要在利用大语言模型参数知识增强大模型能力。


1 跨规模参数知识迁移 PKT 的全面分析


人类的思维是非透明的,没有继承的记忆,因此需要通过语言交流的环境来学习。人类的知识传递长期依赖符号语言:从文字、数学公式到编程代码,我们通过符号系统将知识编码、解码。但这种方式存在天然瓶颈,比如信息冗余、效率低下等。


现如今,大语言模型(LLM)就主要模仿这一套范式来学习和传递知识。然而,与人脑不可知和不透明的特性不同,开源 LLM 的可访问参数和信息流则像一个透明的大脑,直接编码了事实知识,已有的研究对其进行了系统分析、精确定位和有效转移。因此研究人员提出疑问:大模型能否像《阿凡达》中的人类和纳威人之间建立传递知识的练习?其中在天然存在的较大 LLM 和较小 LLM 对之间展开,将参数知识作为媒介。


最近,中国科学院自动化所提出对 Parametric Knowledge Transfer (PKT,参数知识迁移) 的全面分析。一句话总结:跨规模大模型之间的表现相似和参数结构相似度都极低,这对实现有效的 PKT 提出了极大的挑战。



  • 论文标题:Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models

  • 论文地址:https://arxiv.org/abs/2505.14436

  • Github 地址:https://github.com/Trae1ounG/Neural_Incompatibility


2 新的 Pre-Align PKT 范式:定位后对齐 LaTen


论文首先通过简单的前置实验,挖掘出参数空间的对齐是实现参数知识迁移的必要条件。现有的参数对齐方法 Seeking 通过梯度定位部分较大 LLM 参数以适配较小 LLM 张量形状,将其初始化为 LoRA 矩阵通过后续微调实现迁移,称之为后对齐参数迁移方法(Post-Align PKT)。论文为了更全面探索 PKT 是否可行,根据对齐时机提出先对齐知识迁移(Pre-Align PKT)新范式,采用定位后对齐(Locate-then-Align,LaTen)方法实现参数对齐。


图表 1:展示了基于语言的知识迁移和基于参数的知识迁移范式的差异


该方法的核心理念是首先通过神经元级别的归因分析,识别出与特定任务相关的参数,然后利用训练得当的超网络,将较大 LLM 的知识映射到较小 LLM 上。


具体而言,LaTen 方法分为两个阶段:


  1. 知识提取:通过分析大模型的参数,识别出与目标任务相关的知识。这一过程利用静态神经元归因方法,计算出每个神经元在任务中的重要性,从而选择出最具信息量的参数进行迁移。

  2. 参数对齐:一旦确定了重要参数,接下来通过轻量级的超网络进行对齐,确保这些参数能够有效整合到小型模型中。

  3. 参数注入:这一过程强调在对齐后直接注入参数,减少了后续训练所需的资源和时间。


通过上述流程,就可以将较大模型中的参数知识转换为在较小模型中可受用的知识进而进行注入,以避免参数空间的差异性导致的性能丢失。


3 对齐实验分析


在实验部分,研究者针对多个基准数据集,涵盖世界知识(MMLU),数学推理(GSM8K)和代码能力(HumanEval 和 MBPP)进行了详细评估。


图表 2:展示 Post-Align PKT 和 Pre-Align PKT 在不同数据集上的性能表现


实验结论:


  • 对于 Post-Align PKT,论文将其同利用 SVD 从模型自身获取 LoRA 的 PiSSA 方法对比,结果发现 PiSSA 在相同设置下优于 Seeking,证明从较大模型抽取的参数知识不如利用模型自身知识作为 LoRA 初始化,进一步怀疑其可行性。

  • 对于 Pre-Align PKT,结果显示,只需要极少的训练步数和数据开销,LaTen 能有效取得性能提升。但是 Pre-Align PKT 通过训练实现参数对齐的方式受到极大限制,无法超越较大 LLM 的能力上界,同时训练不太稳定,没有明显收敛。


此外,论文从另一个方面来验证目前阶段的 PKT 是否有效。既然假设迁移的参数知识中包含了有用的特定任务的知识,那么在特定任务上表现更好的模型,理应在迁移后能让小模型的性能更好。因此,研究者在代码任务上开展了这一探索实验:


图表 3:基于更强的较大 LLM 向较小 LLM 传递知识,左图为 Post-Aligh PKT 实验结果,右图为 Pre-Align PKT 实验结果


实验结果证明了两种 PKT 在这种设置下的失败,让人疑惑为什么跨规模 PKT 无法有效实现?


4 为什么跨规模 PKT 失败?


PKT 的核心任务在于对齐(Align),不管是通过后续训练还是提前通过超网络实现,是否能有效实现对齐是 PKT 成功的关键。从现有实验结果来看,PKT 并没有有效实现对齐,那么阻碍的关键在哪?


论文从表现相似度(representation similarity)和参数相似度(parametric similarity)出发,分析跨规模大模型在行为方式和内部参数结构的相似度是否会导致跨规模 PKT 的失败,称为神经不兼容性(Neuron Incompatibility)。


图表 4:跨规模大模型之间的表现相似度分析


对于表现相似度的分析,论文采用了中心核对齐(Centered Kernel Alignment, CKA)方法,该方法基于 Hilbert-Schmidt 独立性准则(HSIC),用于计算神经网络中特征表示的相似性。该指标评估了两个模型之间行为的相似性,可以视为大语言模型的行为相似性。


如图 4 所示,Llama2-7B 和 13B 之间的相似性较低,尤其是在多头自注意力(MHSA)模块中,该模块在信息整合中扮演着至关重要的角色。有趣的是,上投影层的相似性较高,这可能是因为它们作为关键记忆,捕捉特定的输入模式,而这些模式通常在不同模型间是一致的。跨规模大模型之间的低相似性也解释了为何从同一模型衍生的 LoRA 表现更好,因为它与模型的内在行为更为贴合。证明跨规模大语言模型之间的表示相似性较弱是导致神经不兼容性的关键因素之一,这使得理想的参数知识转移成功变得困难。



对于参数结构相似度的分析,论文进一步基于参数结构相似性进行深入分析,以了解其对性能的影响。如图 5 所示,比较了图片 (即第 l 层的 LoRA 参数)与 图片 和 图片(即 图片)在上投影和下投影模块中的表现。


首先,Seeking 和 PiSSA 的结果模式完全相反。在 Seeking 中,图片 和 图片 之间的平均相似度降至 0,表明 图片 没有保留任何来自 图片 的有意义信息。这一缺陷导致了次优性能。


相比之下,PiSSA 利用奇异值分解(SVD)捕捉 LoRA 的重要参数,与原始权重保持更高的相似性,并与 图片 建立了正交关系,从而在学习新技能时更为有效。研究表明,参数结构相似性在进一步微调中扮演着关键角色。具体来说,图片 与 图片 之间的相似度显著影响模型适应新任务和执行参数对齐的能力。低参数相似度成为导致神经不兼容性的重要因素。在多头自注意力模块中同样观察到了相同的模式。


5 总结与展望:理想的 PKT 尚待实现


人类从牙牙学语到学贯古今,通过语言和文字在历史长河中不断汲取知识,通过吸收和迭代实现知识的传承。


然而,我常幻想能实现,类似科幻小说中三体人直接通过脑电波传递所有知识,或利用一张链接床就能把人类的意识输入到纳威人体内,这是一种更理想的知识传递方式,而开放的大模型参数正有可能实现这一点。


通过将 PKT 根据 Align 进行划分,我们完成了对现有阶段 PKT 的全面研究,找出了实验结果欠佳的背后是不同规模大模型之间参数知识本质上的行为和结构的差异。

但仍期望,在未来大模型之间的交流不再局限于语言这种有损的压缩方式,而去尝试更高效直接的迁移方法。


语言,或许是人类知识的起点,但不一定是大模型的终点。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

与其想着直接“复制”知识,不如考虑让小模型“生成”知识。我们可以把大模型看作是一个“知识生成器”,它可以根据特定的输入生成高质量的知识。小模型可以通过学习大模型的生成过程,来获取知识。这有点像“师父领进门,修行在个人”的意思。小模型不需要完全复制大模型的知识,只需要掌握学习的方法,就可以不断地生成新的知识。这种方式更符合小模型的自身特点,也更有利于小模型的发展。

我认为“神经不兼容性”反映的是一种模型的“认知偏差”。不同规模的模型,就像不同年龄段的人,他们看待世界的方式和理解问题的角度是不同的。这种“认知偏差”根植于模型的结构和训练方式中,短期内很难改变。即使使用相同的数据进行训练,由于模型容量和学习能力的差异,最终的知识表征也会有所不同。所以,解决“神经不兼容性”可能需要从模型设计的层面入手,寻找一种更通用的知识表征方式。

我持不同意见,这可能只是当前技术阶段性的结果。LoRA利用自身知识进行初始化,本质上是一种“自学习”,它更容易适配当前小模型的结构。但如果我们能找到一种更有效的对齐方式,消除大模型和小模型之间的“神经不兼容性”,直接迁移知识仍然具有巨大的潜力。想象一下,如果能把GPT-4的某些特定领域的知识,比如医学或法律,精确地迁移到小模型上,那将大大提升小模型在该领域的专业能力,远超LoRA的效果。所以,我认为PKT的研究方向并没有错,只是需要突破现有的技术瓶颈。

既然现在强调多模态学习,是不是可以考虑把知识编码成某种通用的多模态信号,比如音频、视频、甚至是某种特定模式的光信号,然后让小模型通过感知这些信号来学习知识?这样就可以避免语言文字的干扰,直接从感官层面传递知识。想想都觉得很科幻!当然,这需要解决如何将知识有效编码成多模态信号,以及如何让小模型有效感知这些信号的问题。

嗯,这个问题很有意思!从结果来看,确实LoRA在小模型上用自身知识初始化表现更好。我觉得可以这么理解:大模型的知识对小模型来说,可能过于复杂或者存在结构上的不匹配,强行迁移反而造成了干扰。而LoRA这种PEFT方法,相当于在小模型自身的基础上进行微调,更容易找到最优解。所以,短期来看,深耕PEFT可能是更有效率的做法。

这脑洞就大了!我觉得终极形态可能是直接的“意识上传”。就像电影《黑客帝国》里那样,直接把大模型的知识和技能上传到另一个模型或者人类大脑中。当然,这需要突破很多技术和伦理上的难题。短期来看,我觉得可以探索基于对抗学习的知识迁移方法,让小模型通过不断与大模型对抗,逐渐模仿和学习大模型的行为方式。或者,可以尝试构建一种通用的知识图谱,将知识以结构化的形式存储,然后让不同的模型从知识图谱中获取所需的知识。

“神经不兼容性”这个概念很关键。个人理解,它应该是由多种因素共同作用的结果。首先,模型结构肯定有影响,比如层数、注意力头的数量等等,这些都会影响模型对知识的编码方式。其次,训练数据量也很重要,数据量的差异会导致模型学习到的知识的广度和深度不同。此外,训练方法、优化算法等也可能引入差异。这些因素共同导致了不同规模模型在知识表征上的根本性差异。

我从信息论的角度来理解这个问题。“神经不兼容性”可以看作是不同模型的信息熵不同。大模型的信息熵更高,可以表达更复杂、更精细的知识。小模型的信息熵较低,只能表达相对简单的知识。从大模型向小模型迁移知识,相当于把高熵的信息压缩到低熵的空间中,必然会造成信息损失。所以,问题的关键在于如何设计一种有效的编码方式,在保证信息不丢失的前提下,将高熵的信息压缩到低熵的空间中。

这个嘛,我觉得得分情况讨论。如果目标是快速提升小模型的通用能力,LoRA类的PEFT方法可能更实用。但如果小模型有特定的应用场景,需要快速具备某个专业领域的知识,那 direct transfer 大模型的知识可能就更有效率了,毕竟人家已经pre-trained过了。当然,前提是解决了兼容性问题。另外,成本也是一个重要考量因素,PKT的计算和时间成本可能更高。