Meta研究:仅13个参数,通过RL微调TinyLoRA,使7B模型数学能力逼近全量微调。揭示模型内在机理,或将颠覆大模型微调认知。
原文标题:颠覆微调认知:13 个参数让 7B 模型逼近全量微调
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到模型越大,达到特定性能所需的微调参数越少,这是否意味着未来大模型的发展方向是追求更大的参数量,然后用极少的成本进行个性化定制?
3、TinyLoRA目前主要在数学推理任务上进行了验证,那么这项技术在其他领域,例如自然语言处理、图像识别等方面是否有应用前景?
原文内容
本文约1500字,建议阅读5分钟本文介绍了 TinyLoRA 以 13 参数借 RL 提升大模型数学推理的研究。
26 字节,13 个参数。这是让 7B 模型数学能力逼近全量微调的全部数据。
下面这张看似普通的二维码,实则包含了一个名为 TinyLoRA 的微调适配器的全部参数。
〓 图1. TinyLoRA 权重二维码,含全部 13 个参数
仅需 13 个参数,就能让 7B 模型(Qwen2.5-7B-Instruct)在 GSM8K 数学任务上逼近全量微调的效果。
这是 Meta FAIR 等机构的最新发现:在强化学习的加持下,大模型推理能力的提升无需调整百万参数,极少数关键参数足以激活它 。
论文标题:
Learning to Reason in 13 Parameters
论文链接:
https://arxiv.org/pdf/2602.04118
1、参数压缩的物理极限
LoRA 虽已将参数降至百万级(MB),但作者认为这仍未探底。基于 LoRA-XS,TinyLoRA 进行了极限剪枝。
从矩阵到向量
LoRA-XS 利用 SVD 固定骨架,只训练核心矩阵 :
即便如此,中间的 矩阵 仍需至少 个参数。
TinyLoRA 的核心一刀在于,作者将矩阵 替换为极低维向量 :
利用预冻结的随机矩阵 映射,训练对象从整个矩阵缩减为单一向量 。
激进的跨层全共享
TinyLoRA 采用了极为激进的平铺式共享策略。与以往只在同类模块间共享不同,它打破了 Attention 和 MLP 的界限。
全模型所有层、所有类型的模块(无论是 Query 投影还是 MLP 的 Gate 投影),都共享同一个向量 。
参数不再各管各的,而是以块(Tile)的形式在全模型复用 。参数复杂度降至 ,在极端情况下( ),全网只需训练 1 个参数。
精度胜过数量
在极度受限的存储预算下,使用 FP32 存储参数的效果竟优于 bf16。这说明在极微小的扰动下,参数的数值分辨率比数量更关键——极高的精度才能承载那关键的微小调整。
2、SFT 的溃败与 RL 的胜利
在 GRPO 算法下,仅更新 13 个参数(26 字节),Qwen2.5-7B 在 GSM8K 上的准确率从 76% 飙升至 91%。
〓 图2. RL 训练性能曲线:TinyLoRA 紧贴全量微调
如图所示,TinyLoRA 在极低参数区依然挺拔,仅用 ~100 个参数就恢复了全量微调 95% 的增益。
这种四两拨千斤的效果已延伸至 AIME 和 Olympiad Bench 等高难度基准。
〓 表1. TinyLoRA 在高难度数学基准上的表现
在 MATH-500 中,仅需 196 个参数,准确率即从 64.6% 升至 76.6%。TinyLoRA 唤醒的是通用数学推理能力,而非简单过拟合。
SFT 的表现令人失望。同样 13 个参数,准确率仅升至 83%。要达到同等性能,SFT 需要多出 100 到 1000 倍的参数量。
〓 图3. SFT 训练性能曲线,低参下无法有效学习。
为什么会有这种差异?作者从信息论角度给出了核心解释:
SFT 本质是模式匹配:损失函数强迫模型预测每一个 token。这导致模型必须死记硬背措辞、标点、格式等大量冗余噪音。26 字节的极低容量显然无法承载如此庞杂的信息。
RL 则是信号分离:RLVR 只有对错(Reward 0/1),没有废话。它天然过滤掉了表达层面的噪声,仅保留核心逻辑路径。
〓 图4. RL 训练过程中的指标变化。随着训练步数增加,模型生成的平均响应长度显著增长
随着训练进行,模型回复长度显著增加。几十个字节的更新并没有灌输公式,而是改变了行为模式——学会了在给出答案前多想一步,生成更长的思维链。
3、颠覆常识的 Scaling Law
论文发现了一个惊人趋势:模型越大,达到特定性能阈值所需的更新参数反而越少。
〓 图5. Scaling Law 趋势,模型越大参数越省。
横轴为模型规模,纵轴为达到特定性能阈值(如 95%)所需的最小参数量。可以看出,模型越大,所需参数越少。
这有力支持了能力激活假说,微调不是注入新知识,而是像调节收音机旋钮一样,将模型内部状态对齐到推理模式。
模型越大,内在表征的宝库越丰富,这个调节旋钮就可以做得越微小、越灵敏。
此外,实验还发现 Qwen2.5 在极低参数下的响应能力显著优于 Llama-3。
Qwen 仅需 Llama 约十分之一的参数更新量即可达到同等性能,这可能与其预训练过程中接触了更多类似样本有关。
4、结语
这项工作重新审视了微调机制的底层逻辑。它证明在数学推理领域,智能提升不等于参数堆叠。
RL 的高效信号能用几十个字节精准操控庞然大物。边缘计算将迎来微型补丁时代,训练范式正从 SFT 的注入式转向 RL 的唤醒式。
尽管目前主要验证于数学任务,但这 26 字节的实验,已足以为我们展现大模型深处的内在机理。









