CoTo:赋能 LoRA 训练「渐入佳境」,提升模型融合与剪枝效能

CoTo提出渐进式LoRA训练策略,有效缓解层级不平衡,显著提升模型融合与剪枝表现,实现性能与效率双赢。

原文标题:ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通

原文作者:机器之心

冷月清谈:

LoRA(Low-Rank Adaptation)作为一种参数高效微调技术,在大型预训练模型应用中日趋重要。然而,标准LoRA训练存在“惰性训练”、层级不平衡以及下游模型融合与剪枝效果不佳等问题。香港城市大学、南方科技大学、浙江大学等机构的研究者们为此提出了名为CoTo(Come Together, But Not Right Now)的渐进式训练策略,旨在解决这些挑战。

CoTo的核心思想是让LoRA适配器“循序渐进”地参与训练。具体而言,在训练初期,CoTo会以较高概率随机失活一部分LoRA适配器,这迫使模型在更新时不能过度依赖特定层,从而促使梯度更均匀地流向所有层级,鼓励模型探索更广阔的参数空间。随着训练的深入,适配器的激活概率会线性提高,直到所有适配器完全参与训练,回归到标准的微调模式。

这种“先抑后扬”的策略带来了多方面显著优势。首先,CoTo有效提升了模型的线性模式连通性(LMC)和Dropout稳定性,为模型融合与剪枝奠定基础。实验证明,在常识推理、图像分类和多任务融合中,CoTo训练的模型在进行线性插值或多任务合并时,性能表现远超常规训练方法。其次,CoTo极大增强了模型的剪枝容错能力,无论结构化还是非结构化剪枝,性能均全面超越标准LoRA。此外,CoTo还能稳定提升LoRA、DoRA、HiRA等多种变体的性能,并在训练早期跳过部分计算,实现更快的训练速度。CoTo的实现十分简洁,无需修改模型架构,可作为即插即用的模块与现有LoRA方法无缝集成。

怜星夜思:

1、CoTo强调“渐进式”,这让人联想到人类学习,这种“循序渐进”的训练模式,除了文中提到的优点,有没有可能引入新的挑战,比如训练时间大大拉长或者对某些特定任务不适用?
2、文章提到CoTo能提升不同随机种子训练出的模型之间的线性模式连通性(LMC),这对于实际应用有什么深层意义?我们是不是可以理解为模型“更稳定”或“更容易协作”?
3、CoTo作为一种“即插即用”的策略,能和多种LoRA变体结合。未来LoRA微调技术的发展方向会是更多这类“即插即用”的优化策略,还是更底层、更根本的架构改进?它们的优先级和前景如何?

原文内容


本文第一作者庄湛,香港城市大学和南方科技大学联合培养博士生,研究方向是迁移学习、扩散模型、大模型微调等。本文通讯作者魏颖,浙江大学「百人计划」研究员,博士生导师,研究方向包括持续学习、迁移学习、组合泛化以及在科学领域中的应用等。通讯作者张宇,南方科技大学副教授,研究方向包括深度学习、多任务学习、迁移学习、元学习以及在计算机视觉和自然语言处理方面的应用。


还在为 LoRA 训练不稳定、模型融合效果差、剪枝后性能大降而烦恼吗?来自香港城市大学、南方科技大学、浙江大学等机构的研究者们提出了一种简单的渐进式训练策略,CoTo,通过在训练早期随机失活一部分适配器,并逐渐提高其激活概率,有效缓解了层级不均衡问题,并显著增强了模型在多任务融合和剪枝等操作上的鲁棒性和有效性。该工作已被机器学习顶会 ICML 2025 接收。



  • 论文标题:Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation

  • 论文链接:https://openreview.net/forum?id=Zha2m39ZoM 

  • 代码仓库:https://github.com/zwebzone/coto

  • 官网海报:https://icml.cc/virtual/2025/poster/44836


常规 LoRA 训练的隐藏缺陷


参数高效微调技术已成为预训练大模型在下游任务应用的关键技术。然而,尽管 LoRA 如此成功,它依然面临着一些棘手的问题:


1. 「惰性训练」(Lazy Training):LoRA 的优化过程常常会陷入初始化点附近的次优解,限制了模型的泛化能力。

2. 层级不平衡:在训练中,梯度更新往往集中位于模型的顶层适配器,导致底层适配器训练不足,整体性能受限。

3. 下游操作困难:上述问题使得多个 LoRA 模型的融合和剪枝等下游操作变得非常困难,效果常常不尽人意。


CoTo 策略:何不让 LoRA 「渐入佳境」?


为了解决这些挑战,研究者们提出了 CoTo,其核心思想非常简洁直观:在训练初期,不必让每一层的训练 「一拥而上」,而是让 LoRA 适配器 「循序渐进」 地参与训。具体来说,CoTo 采用了一种渐进式的激活策略:


  • 训练初期:以一个较高的概率随机 「失活」 一部分 LoRA 适配器。这迫使模型在更新时不能过分依赖某几层,从而让梯度更均匀地流向所有层级,鼓励模型探索更广阔的参数空间。

  • 训练中后期:线性地提高适配器的激活概率,直到所有适配器都完全参与训练,回归到标准的微调模式。


这种 「先抑后扬」 的策略带来了诸多好处:它不仅促进了层级间的均衡优化,还显著提升了不同随机种子训练出的模型之间的线性模式连通性 (Linear Mode Connectivity, LMC) 和 Dropout 稳定性,为模型融合与剪枝打下了坚实的基础。



图 1:CoTo 渐进式激活示意图。训练初期(t <3T/4),适配器被随机失活(灰色部分),其激活概率 p (t) 随训练线性增长;训练后期,所有适配器保持激活。


实验结果


CoTo 最令人兴奋的贡献在于它极大地提升了 LoRA 模型的融合和剪枝能力,且 CoTo 本身也能在单任务的泛化性能和训练效率上带来提升。


更有效的模型融合


  • 线性插值准确率:在常识推理与图像分类任务中,对两个独立训练的 LoRA 模型进行线性插值时,标准 LoRA 的性能在融合点 (λ=0.5) 会急剧下降。相比之下,CoTo 模型展现了优越的线性模式连通性 (LMC),在整个插值路径上均能保持平滑且高效的性能过渡。

  • 多任务 LoRA 融合:在 GLUE 数据集上,无论是基于 LLaMA-2 (7B, 13B) 还是 DeBERTa-v3 模型,通过 CoTo 训练的 LoRA 模块在进行多任务合并时,其准确率均稳定超越了使用常规训练方法融合的基线模型。


图 2:常识推理任务的线性插值准确率。


图 3:图像分类任务的线性插值准确率。


 4:使用 LLaMA-2-7B 和 LLaMA-2-13 模型进行多任务 LoRA 融合的准确率。


更鲁棒的模型剪枝


CoTo 的训练方式天然地增强了模型的剪枝容错能力。如下图所示,无论是在移除交替层、底层、中层还是高层适配器的结构化剪枝中,还是在不同稀疏度的非结构化剪枝中,CoTo-LoRA 的性能都全面超越了标准 LoRA。


图 5:结构化剪枝对比(左)和非结构化剪枝对比(右)。


性能与效率双提升


  • 性能更强:在涵盖视觉(11 个图像分类任务)、语言(8 个常识推理任务)和数学推理等多个领域的基准测试中,CoTo 都能稳定地提升包括 LoRA、DoRA、HiRA 在内的多种 LoRA 变体的性能。

  • 训练更快:由于在训练早期跳过了部分适配器的计算,CoTo 还能降低训练开销。例如,在 HiRA 上应用 CoTo,可以实现超 24% 的训练加速!


图 6:在常识推理和数学推理上,基于不同 LoRA 变体和训练策略的性能提升。


消融实验


为了验证 CoTo 各个设计选择的合理性并探究其性能提升的根源,研究团队在训练阶段比例、激活概率曲线、嵌套 Dropout 策略、学习率和 LoRA rank 等多个方面进行了一系列严谨的消融实验。这些实验不仅证明了 CoTo 设计的合理性,也为我们提供了关于如何有效正则化 LoRA 的深刻见解。


令人欣喜的是,CoTo 的代码实现十分简洁,用户只需对现有 LoRA 训练流程做三步改动即可利用这一策略,感兴趣的读者可以访问代码仓库,亲自体验 CoTo 的效果!


总结


CoTo 通过一个简单而巧妙的渐进式训练策略,有效解决了 LoRA 训练中的层级不平衡和 「懒惰」 优化问题。它不仅提升了模型的单任务泛化能力,更重要的是,它极大地增强了 LoRA 适配器的可组合性与鲁棒性,让模型融合与剪枝等下游操作变得更加简单高效。CoTo 无需修改模型架构,可以作为即插即用的模块与各类 LoRA 方法无缝集成。文章中还提供了渐进优化和合作博弈两个角度深入分析了 CoTo 带来的优势。我们相信,这项工作将为参数高效微调领域的研究与应用带来新的启发。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哎呀,这不就跟我们找合伙人一样嘛!如果两个合伙人(LoRA模型)各自从不同的地方来(随机种子),但他们之间“心有灵犀一点通”(LMC高),那他们合作起来(模型融合)肯定就顺风顺水,不会轻易“闹掰”(性能急剧下降)。所以“文章提到CoTo能提升不同随机种子训练出的模型之间的线性模式连通性(LMC),这对于实际应用有什么深层意义?我们是不是可以理解为模型‘更稳定’或‘更容易协作’?” 答案就是——这些AI模型“性格”更好,更容易“团建”,也就不怕换个“发型”(随机种子)就不认人了。

对于企业和开发者来说,“CoTo作为一种‘即插即用’的策略,能和多种LoRA变体结合。未来LoRA微调技术的发展方向会是更多这类‘即插即用’的优化策略,还是更底层、更根本的架构改进?它们的优先级和前景如何?” 这类“即插即用”的优化策略无疑具有更高的优先级和即时价值。它们能在不改变现有LoRA工作流和基础设施的前提下,直接提升模型表现和训练效率,降低部署风险和成本,这对于快速迭代和商业化落地非常关键。

而“更底层、更根本的架构改进”虽然潜力巨大,但往往意味着需要对现有代码库、工具链乃至硬件配置进行较大调整,其推广和应用周期相对较长,风险也更高。它们更适合于前瞻性的研究机构和对性能有极致追求的少数头部企业。

我认为未来的发展会是“即插即用”优化策略的百花齐放,它们会逐渐形成一个生态,可以像乐高积木一样自由组合,共同作用于基础的LoRA或其他PAFT算法之上。同时,底层架构改进会继续突破理论瓶颈,一旦成熟,这些新架构本身又会成为新的优化策略的“宿主”,形成螺旋上升的态势。两者是互补而非互斥的。

这是一个非常好的问题,实际上反映了当前PAFT(参数高效微调)领域两种主要的研究路径。我认为未来LoRA微调技术的发展将是这两种方向并行且相互促进的。

“即插即用”优化策略(如CoTo):这类策略的优势在于通用性和兼容性,它们不修改模型架构,可以在现有各种LoRA及其他PAFT方法之上进行优化,快速提升性能。这有助于在不大幅改变现有生态的前提下提升效率和鲁棒性。其优先级在于快速迭代和广泛应用,前景在于成为PAFT方法的“标配”组件,显著提升工程化水平。

更底层、更根本的架构改进:例如DoRA、LoftQ等,它们直接修改适配器结构或参数初始化方式,从根本上解决LoRA的某些局限性。这类改进可能带来更大的性能突破,但普适性相对较低,可能需要更长时间才能被广泛采纳。它们的优先级在于探索PAFT的理论上限和新的范式,前景在于开辟新的研究方向和解决现有LoRA无法克服的瓶颈。

我预计短期内,“即插即用”策略会更多地出现在实际生产环境中,因为它部署成本低、见效快。但长期来看,底层架构创新是推动PAFT技术持续进步的根本动力,两者结合将是未来主流趋势。

LMC提升确实是模型“更稳定”的一个重要指标。在MLOps实践中,一个常见的问题是模型训练的“随机性”,即使用相同的代码和数据,仅仅因为随机种子不同,最终训练出的模型性能可能差异很大。LMC的提升意味着CoTo能帮助模型更好地克服这种随机性,使得训练结果更可预测、性能更一致。此外,在模型蒸馏、模型压缩以及联邦学习等场景中,不同模型之间的高LMC可以显著简化合并、知识迁移的难度,让模型的部署和迭代变得更加高效和可靠。可以说,这是提升模型“工程化”水平的关键一步。

关于CoTo这种“渐进式”训练策略,论文中提到通过早期跳过部分适配器计算,反而能降低训练开销,实现训练加速,这与直觉上“训练时间拉长”是相反的。挑战可能更多体现在其普适性上。虽然CoTo在多领域基准测试中表现良好,但对于一些极度依赖底层特征或早期快速收敛的任务,早期大幅度失活适配器可能会导致收敛速度变慢,或者在某些特殊场景下,其“探索更广阔参数空间”的策略可能与任务的特定优化目标产生冲突,导致次优解。此外,最佳的激活概率曲线和停用比例可能需要针对不同任务和模型进行精细调参,这也增加了实践中的复杂性。

嗯,这就像是给手机升级一样。你说未来是更多出像CoTo这种“优化补丁”(即插即用)让老机器跑得更流畅,还是直接出“换代新机”(底层架构改进)呢?我觉得就像现在手机市场一样,俩都得有!

“CoTo作为一种‘即插即用’的策略,能和多种LoRA变体结合。未来LoRA微调技术的发展方向会是更多这类‘即插即用’的优化策略,还是更底层、更根本的架构改进?它们的优先级和前景如何?” “优化补丁”嘛,就像给LoRA装个加速器、防卡顿工具,便宜又好用,能让现有的LoRA家族成员都受益,用户体验立马提升。这肯定得是优先级比较高的,毕竟谁不想自己的“旧手机”也能飞起来?

但“换代新机”呢,那就是直接把芯片啊、操作系统啊都重新设计一遍,这玩意儿才是真正的大进步,能带来质的飞跃。你看AIGC天天那么卷,谁不想自己的模型“更酷炫”?所以虽然研发周期长,但前景绝对是星辰大海。

所以我觉得吧,短线靠“即插即用”的小修小补稳住局面,长线靠“底层改进”来颠覆创新,两手抓,两手都要硬!

哈哈哈,这不就是咱们上学那会儿老师说的“先打好基础,别一上来就想着一口吃成个胖子”吗?CoTo这模式,我觉得就像是给LoRA模型上了个“新手村训练营”,一开始不让你接触太多复杂的东西,只练基本功,等你熟练了再带你打怪升级。挑战嘛,可能就是某些急性子的AI会觉得“等不及了”,或者在紧急任务面前,这种“慢热型”的训练是不是真的高效,还得看实际应用场景。万一遇到个“考试限定时间”的任务,它可能就来不及学全了。

从实际应用角度看,“CoTo强调‘渐进式’,这让人联想到人类学习,这种‘循序渐进’的训练模式,除了文中提到的优点,有没有可能引入新的挑战,比如训练时间大大拉长或者对某些特定任务不适用?” 理论上是优化了训练过程,让模型学得更稳。文中也说了能加速。但实际挑战可能在于,如果任务数据量很小或者模型本身已经非常容易过拟合,那么早期的随机失活策略会不会导致模型有效学习的时间变短,进而影响最终性能?此外,在超大规模模型上,即使是“部分失活”,计算资源的调度和优化也可能变得更复杂。对某些对“即时性”要求很高的在线学习或持续学习场景,这种分阶段的训练模式可能需要重新评估其适用性。

是的,LMC的提升对于实际应用具有非常重要的深层意义。从学术角度来看,LMC高意味着模型的损失景观(loss landscape)在不同随机初始化点之间存在更平滑的连接路径,这通常暗示着模型找到了更宽泛、更鲁棒的局部最优解。这直接提升了模型的“稳定性”和“泛化能力”,因为即使起始点有差异,最终也能汇聚到类似的高性能区域。对于模型“协作”,这体现在模型融合与集成方面:如果不同模型之间的LMC高,它们之间通过线性插值进行融合时性能下降会更小,这意味着我们可以更容易地结合多个模型的优势,或者在模型部署后进行参数微调时,对初始模型的依赖性更低,从而提升了模型的可复用性和可维护性。