TinyLoRA:仅用13个参数让7B模型数学能力逼近全量微调

Meta研究:仅13个参数,通过RL微调TinyLoRA,使7B模型数学能力逼近全量微调。揭示模型内在机理,或将颠覆大模型微调认知。

原文标题:颠覆微调认知:13 个参数让 7B 模型逼近全量微调

原文作者:数据派THU

冷月清谈:

Meta FAIR 等机构的研究表明,通过强化学习(RL)和TinyLoRA技术,仅需13个参数(26字节)即可显著提升7B模型(Qwen2.5-7B-Instruct)在GSM8K数学任务上的准确率,达到接近全量微调的效果。TinyLoRA通过极限剪枝降低参数量,采用跨层全共享策略,并在极低存储预算下使用FP32存储参数以保证精度。研究强调了RL在信号分离方面的优势,能够有效过滤掉冗余噪音,保留核心逻辑路径。实验结果还揭示了模型规模与所需参数量之间的反比关系,验证了能力激活假说,并表明Qwen2.5在极低参数下的响应能力优于Llama-3。这项工作颠覆了微调的传统认知,预示着边缘计算的微型补丁时代即将来临,并将训练范式从SFT的注入式转向RL的唤醒式。

怜星夜思:

1、文章中提到TinyLoRA通过强化学习让模型学会“在给出答案前多想一步”,这种“多想一步”的思维链是如何体现在实际的参数调整中的?
2、文章提到模型越大,达到特定性能所需的微调参数越少,这是否意味着未来大模型的发展方向是追求更大的参数量,然后用极少的成本进行个性化定制?
3、TinyLoRA目前主要在数学推理任务上进行了验证,那么这项技术在其他领域,例如自然语言处理、图像识别等方面是否有应用前景?

原文内容

图片
本文约1500字,建议阅读5分钟

本文介绍了 TinyLoRA 以 13 参数借 RL 提升大模型数学推理的研究。


26 字节,13 个参数。这是让 7B 模型数学能力逼近全量微调的全部数据。


下面这张看似普通的二维码,实则包含了一个名为 TinyLoRA 的微调适配器的全部参数。


〓 图1. TinyLoRA 权重二维码,含全部 13 个参数


仅需 13 个参数,就能让 7B 模型(Qwen2.5-7B-Instruct)在 GSM8K 数学任务上逼近全量微调的效果。 


这是 Meta FAIR 等机构的最新发现:在强化学习的加持下,大模型推理能力的提升无需调整百万参数,极少数关键参数足以激活它 。


论文标题:

Learning to Reason in 13 Parameters

论文链接:

https://arxiv.org/pdf/2602.04118


1、参数压缩的物理极限


LoRA 虽已将参数降至百万级(MB),但作者认为这仍未探底。基于 LoRA-XS,TinyLoRA 进行了极限剪枝。


从矩阵到向量


LoRA-XS 利用 SVD 固定骨架,只训练核心矩阵 



即便如此,中间的   矩阵   仍需至少   个参数。


TinyLoRA 的核心一刀在于,作者将矩阵   替换为极低维向量 



利用预冻结的随机矩阵   映射,训练对象从整个矩阵缩减为单一向量 


激进的跨层全共享


TinyLoRA 采用了极为激进的平铺式共享策略。与以往只在同类模块间共享不同,它打破了 Attention 和 MLP 的界限。


全模型所有层、所有类型的模块(无论是 Query 投影还是 MLP 的 Gate 投影),都共享同一个向量 


参数不再各管各的,而是以块(Tile)的形式在全模型复用 。参数复杂度降至  ,在极端情况下( ),全网只需训练 1 个参数。


精度胜过数量


在极度受限的存储预算下,使用 FP32 存储参数的效果竟优于 bf16。这说明在极微小的扰动下,参数的数值分辨率比数量更关键——极高的精度才能承载那关键的微小调整。


2、SFT 的溃败与 RL 的胜利


在 GRPO 算法下,仅更新 13 个参数(26 字节),Qwen2.5-7B 在 GSM8K 上的准确率从 76% 飙升至 91%。


〓 图2. RL 训练性能曲线:TinyLoRA 紧贴全量微调


如图所示,TinyLoRA 在极低参数区依然挺拔,仅用 ~100 个参数就恢复了全量微调 95% 的增益。


这种四两拨千斤的效果已延伸至 AIME 和 Olympiad Bench 等高难度基准。


〓 表1. TinyLoRA 在高难度数学基准上的表现


在 MATH-500 中,仅需 196 个参数,准确率即从 64.6% 升至 76.6%。TinyLoRA 唤醒的是通用数学推理能力,而非简单过拟合


SFT 的表现令人失望。同样 13 个参数,准确率仅升至 83%。要达到同等性能,SFT 需要多出 100 到 1000 倍的参数量。


〓 图3. SFT 训练性能曲线,低参下无法有效学习。


为什么会有这种差异?作者从信息论角度给出了核心解释:


SFT 本质是模式匹配:损失函数强迫模型预测每一个 token。这导致模型必须死记硬背措辞、标点、格式等大量冗余噪音。26 字节的极低容量显然无法承载如此庞杂的信息。


RL 则是信号分离:RLVR 只有对错(Reward 0/1),没有废话。它天然过滤掉了表达层面的噪声,仅保留核心逻辑路径。


〓 图4. RL 训练过程中的指标变化。随着训练步数增加,模型生成的平均响应长度显著增长


随着训练进行,模型回复长度显著增加。几十个字节的更新并没有灌输公式,而是改变了行为模式——学会了在给出答案前多想一步,生成更长的思维链。


3、颠覆常识的 Scaling Law


论文发现了一个惊人趋势:模型越大,达到特定性能阈值所需的更新参数反而越少。


〓 图5. Scaling Law 趋势,模型越大参数越省。


横轴为模型规模,纵轴为达到特定性能阈值(如 95%)所需的最小参数量。可以看出,模型越大,所需参数越少。


这有力支持了能力激活假说,微调不是注入新知识,而是像调节收音机旋钮一样,将模型内部状态对齐到推理模式。


模型越大,内在表征的宝库越丰富,这个调节旋钮就可以做得越微小、越灵敏。


此外,实验还发现 Qwen2.5 在极低参数下的响应能力显著优于 Llama-3。


Qwen 仅需 Llama 约十分之一的参数更新量即可达到同等性能,这可能与其预训练过程中接触了更多类似样本有关。


4、结语


这项工作重新审视了微调机制的底层逻辑。它证明在数学推理领域,智能提升不等于参数堆叠。


RL 的高效信号能用几十个字节精准操控庞然大物。边缘计算将迎来微型补丁时代,训练范式正从 SFT 的注入式转向 RL 的唤醒式。


尽管目前主要验证于数学任务,但这 26 字节的实验,已足以为我们展现大模型深处的内在机理。


编辑:于腾凯
校对李享沣



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我感觉这个结论在实际部署的时候很有用。在边缘设备上,存储空间和计算资源都非常有限,TinyLoRA 这种小而精的模型很有潜力。我们可以尝试在保证一定精度的情况下,尽可能地减少参数量,从而实现模型的轻量化部署。例如,可以使用量化、剪枝等技术来进一步压缩模型,同时尽量保持模型的性能。

这让我想起了信号处理中的一个概念:信噪比。当参数数量很少时,每个参数都携带了更多的信息,如果精度不够,就会引入更多的噪声,反而会降低模型的性能。因此,在参数受限的情况下,提高精度相当于提高了信噪比,能够更好地提取出有用的信息。当然,如果参数数量足够多,噪声的影响就会被平均掉,此时增加参数量可能比提高精度更有效。

这个研究结果绝对值得我们深思!它提示我们微调策略Selection和参数优化算法的重要性,并非所有参数都同等重要,找到那些“关键少数”才是王道。另外,这也鼓励我们探索更高效的微调方法,比如强化学习,而不是一味地堆砌参数。对于算力有限的个人开发者来说,这无疑是个好消息,意味着我们也能用更少的资源玩转大模型。

我觉得除了浮点数精度和参数数量之外,还需要考虑硬件的支持情况。有些边缘设备可能对FP32的优化更好,有些则对bf16的优化更好。在实际应用中,需要根据具体的硬件平台进行选择。

与其说追求更大的模型规模,不如说应该更注重模型的预训练。如果预训练阶段能够让模型学习到更丰富的知识和更强大的能力,那么微调阶段只需要少量的参数就能激活它。就像一个武林高手,内功深厚,只需要几招就能打败对手。

引用问题:文章提到“模型越大,达到特定性能阈值所需的更新参数反而越少”,这是否意味着我们应该更关注如何训练更大更通用的基础模型,而不是在小模型上进行大量的微调?

这得看你的目标是什么。如果你的目标是追求极致的性能,那肯定是大模型更占优势。但如果你的目标是在资源有限的情况下,解决一些特定的问题,那小模型加上精细的微调可能更实用。举个例子,如果你想识别猫和狗,可能用一个相对小巧的模型就足够了。但如果你想让模型理解复杂的自然语言,进行创造性的写作,那可能就需要更大的模型了。所以,选择哪种策略,取决于你的具体需求。

从计算的角度看,这13个参数很可能影响了模型内部 attention 机制的运作方式。通过调整 attention 的权重,模型可以更好地关注输入序列中的关键信息,并抑制无关信息的干扰。这样,模型在生成答案时,就能更准确地捕捉到问题中的逻辑关系,从而进行更有效的推理。不过具体这13个参数是如何影响 attention 的,还需要更深入的研究。

这个问题很有意思!我的理解是,这13个参数可能不是直接存储了某种具体的“思考步骤”,而是调整了模型内部不同模块之间的交互方式和信息传递的权重。让模型在生成答案之前,能够更充分地利用已有的知识和上下文信息,形成更完整的推理路径。类似于调整了神经网络中不同神经元之间的连接强度,从而改变了信息流的走向。

理论上确实有这种可能性。如果 scaling law 持续有效,那么未来我们可能只需要下载一个超级大的通用模型,然后用非常小的个人数据集和极少的计算资源进行微调,就能得到一个高度定制化的专属模型。这想想就很 exciting!

我觉得不一定。模型越大,需要的计算资源和存储空间也越大,这会带来很大的成本。而且,模型越大,训练和推理的速度也会变慢。所以,未来的发展方向可能是寻找一个模型规模和性能之间的最佳平衡点,而不是一味地追求更大的参数量。TinyLoRA这种技术方向的意义就在于尽可能用小的模型,达到接近大模型的效果。

除了参数量,我觉得模型架构也很重要。不同的模型架构可能对微调的敏感程度不同。有些模型架构可能天生就更容易通过少量参数的调整来激活其内在能力。所以,未来我们可能需要更多地关注模型架构的设计,而不是仅仅追求更大的参数量。

我比较好奇的是,这13个参数在不同领域之间是否可以迁移?也就是说,我们是否可以用在数学任务上训练好的TinyLoRA直接应用到NLP或图像识别任务中?如果可以,那就太 amazing 了!这相当于我们只需要训练一个通用的TinyLoRA,就可以适应各种不同的任务。当然,这只是一个美好的愿景,具体还需要实验验证。

我觉得“多想一步”可以理解为模型在生成token时的策略变化。原本模型可能倾向于直接输出最可能的答案,但经过RL微调后,模型会更倾向于先生成一些中间步骤的token,这些token可能代表了思考过程中的一些关键信息,最终再生成最终答案。这就像我们做数学题时,会先列出解题步骤一样。

我觉得可能性非常大!虽然目前主要是在数学任务上验证,但TinyLoRA的核心思想是通过少量参数的调整来激活模型内部的潜在能力,这应该是通用的。在NLP领域,我们可以尝试用TinyLoRA来微调模型,让其更好地理解特定领域的术语和表达方式。在图像识别领域,我们可以尝试用TinyLoRA来微调模型,让其更好地识别特定类型的物体或场景。