Sakana AI:更新成本摊销破解大模型长文本与微调瓶颈

Sakana AI提出更新成本摊销方法,通过Doc-to-LoRA和Text-to-LoRA,解决大模型长文本处理和微调难题,降低显存占用,实现零样本任务适配。

原文标题:一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?

原文作者:数据派THU

冷月清谈:

Sakana AI 提出了“更新成本摊销”的新方法,通过 Doc-to-LoRA 和 Text-to-LoRA 两项技术,有效解决了大模型在处理长文本和进行任务微调时面临的挑战。

Doc-to-LoRA 能够将长文档快速内化为 LoRA 适配器,显著降低了推理时的显存占用,解决了传统方法处理超长文本时显存消耗过大的问题。该方法通过超网络接收变长文档的 token 激活值,并将其映射为固定维度的隐状态,最终解码为 LoRA 矩阵,从而实现对长文本的快速处理。实验数据表明,Doc-to-LoRA 在长文档问答任务中具有显著优势,能有效减少推理显存占用,并在短文本问答和大海捞针测试中表现出色,甚至展现出跨模态迁移的潜力。

Text-to-LoRA 则颠覆了传统的任务微调方式,仅需输入一段自然语言描述,超网络即可直接输出大模型所需的 LoRA 参数,实现零样本任务适配。该方法构建了不同复杂度的超网络变体,并提供重构模式和 SFT 端到端模式两种训练范式。实验结果表明,Text-to-LoRA 在零样本任务自适应性能上表现优异,并且具有良好的指令可控性和泛化能力。

“更新成本摊销”这一工程范式的确立,将梯度微调和海量上下文加载的成本前置转移至 Meta-Training 阶段,从而为下一代 AI Agent 铺平了道路,使其能够瞬时生成和挂载专属的记忆适配器,实现零延迟知识内化和跨任务持续学习。

怜星夜思:

1、Doc-to-LoRA 在处理超长文本时,分块组合机制是如何保证信息完整性的?是否存在信息丢失或偏差的风险?
2、Text-to-LoRA 中,任务描述的质量对模型性能影响很大,那么如何自动生成高质量的任务描述?
3、更新成本摊销这种思想,除了应用于 LoRA 之外,是否可以推广到其他参数高效微调方法上?

原文内容

图片
本文约3000字,建议阅读6分钟
本文介绍了 Sakana AI 的更新成本摊销方法,破解长文本与微调瓶颈。


显存暴降至 50MB!Sakana AI 提出更新成本摊销,打破长文本 KV-Cache 瓶颈。


面对十万乃至百万级别的超长序列输入,Transformer 架构中呈二次方增长的注意力计算与 KV-Cache 显存占用,始终是大规模部署中难以逾越的系统瓶颈。


与此同时,为了使基础模型在未见的垂直领域任务中表现优异,构建包含数据清洗、超参数搜索与梯度迭代的监督微调(SFT)流水线,同样带来了极其高昂的算力消耗与时间延迟。


为了打破长上下文与任务微调的双重壁垒,Sakana AI 近期在两篇核心论文(Doc-to-LoRA 与 Text-to-LoRA)中,提出了一种全新的工程解法——更新成本摊销(Cost Amortization)。


该框架将高昂的权重更新与上下文处理开销,前置转移至元训练阶段的超网络中。


如此一来,模型在最终的推理部署阶段彻底告别了缓慢的梯度反向传播,仅需通过一次极低延迟的单次前向传播,即可动态生成完全适配目标任务或长篇文档的 LoRA 权重。


〓 传统微调流水线与上下文蒸馏在延迟及内存消耗上面临的工程痛点。


1、Doc-to-LoRA:突破原生窗口的显存控制


论文标题:

Doc-to-LoRA: Learning to Instantly Internalize Contexts

论文链接:

https://arxiv.org/abs/2602.15902

代码链接:

https://github.com/SakanaAI/doc-to-lora


传统上下文蒸馏能够将文档知识内化为模型参数,其核心优化目标是通过最小化 KL 散度来实现知识转移:


图片


但每次处理新文档都需重新计算梯度,不仅耗时,在并发处理时更会吞噬海量显存。


Doc-to-LoRA 采用基于 Perceiver 架构的超网络,直接接收变长文档的 token 激活值,将其映射为固定维度的隐状态,最终解码为大语言模型所需的 LoRA 矩阵。


〓 Doc-to-LoRA 的训练目标概览与下游任务性能表现。


面对超出原生窗口的超长文档,Doc-to-LoRA 引入分块组合机制。


系统将超长文档序列切分为 K 个固定长度的独立文本块。超网络分别为每个文本块   独立生成对应的低秩矩阵   与 


原论文中标准的 LoRA 权重更新公式定义为:



其中  ,r 为设定的秩。


在分块机制下,生成的多个适配器在秩维度(Rank dimension)进行水平与垂直拼接。最终注入大模型的组合权重等效为:



拼接后的有效秩规模线性扩展为  。该机制在不改变超网络输出张量形状的前提下,实现了对极长文本的无限拓展内化。


〓 Doc-to-LoRA 将长文档即时内化为专属 LoRA 适配器。


实测数据对比显著:处理 128K token 级别长文本时,原生大模型需额外占用超 12GB 的 KV-Cache 推理显存,而 Doc-to-LoRA 内化后的推理显存增量稳定在 50MB 以内。


〓 长文档问答任务中 Doc-to-LoRA 在减少推理生成期显存上的压倒性优势。


Doc-to-LoRA 论文的量化数据表明,在 2WikiMultihopQA 长文档问答任务中,相比传统上下文蒸馏生成 5 个 Query 所需的高达 79.3GB 的更新期显存,D2L(Iterative)将其大幅压缩至 3.79GB,并实现了亚秒级的更新延迟。


〓 在 2WikiMultihopQA 长文档任务中,各参数化内化方法的性能、更新显存与延迟对比。


在 SQuAD 短文本问答评测中,Doc-to-LoRA 成功实现了知识内化,达到了上下文学习(ICL)性能上界的 82.5% 相对性能。


〓 SQuAD 问答任务中,Doc-to-LoRA 在性能恢复、更新延迟和内存消耗的帕累托前沿上优于传统上下文蒸馏等基线。


大海捞针(NIAH)极限泛化测试进一步验证了其架构能力。仅使用最大长度 256 tokens 的短文本片段训练出的超网络,能够在测试阶段零样本泛化至超40K tokens 长度的长文本,保持极高的检索准确率。


〓 高达 128K 超长上下文的大海捞针测试中,基础模型与 Doc-to-LoRA 在准确率及推理内存需求上的对比曲线。


更为极端的零样本 Query 内化测试反转了内化对象,将 Document 留在上下文中,让超网络去内化未见过的 Query。


结果表明,即便在训练期仅见过文档内化,D2L 依然能够成功内化 Query 特征并展现出优于基线的召回率(Recall),证明了其底层的泛化鲁棒性。


跨模态零样本迁移展现了该架构作为模态桥梁的潜力。在预训练阶段,超网络与纯文本大模型(Gemma-2-2B-it)均未接收过图像数据。


推理时,仅凭接收视觉语言模型(Gemma-3-4B-it)提取的视觉激活值,超网络便直接为纯文本模型生成了具备视觉分类能力的 LoRA 权重,在 ImageNette 数据集上取得了 75.03% 的分类准确率。


〓 跨模态 Zero-shot 图像分类达到 75.03% 准确率的混淆矩阵。



官方交互演示直观展现了这种极速内化。左侧输入超长文档后,右侧大模型即可在“无上下文”状态下瞬间作答。



2、Text-to-LoRA:意图直达的零样本任务适配


论文标题:

Text-to-LoRA: Instant Transformer Adaption

论文链接:

http://arxiv.org/abs/2506.06105

代码链接:

https://github.com/SakanaAI/text-to-lora


Text-to-LoRA 彻底颠覆了传统的任务自适应微调流水线。


仅需输入一段关于目标任务的自然语言描述,提取其 embedding 特征后,超网络即可在单次前向传播中,直接输出大模型 attention 层所需的低秩矩阵参数。


〓 Text-to-LoRA 将任务指令即时转化为专属 LoRA 适配器


为适配不同的算力预算,Text-to-LoRA 构建了三种复杂度的超网络变体:生成完整 A 与 B 矩阵的大型架构(L)、使用共享特征投影的中型架构(M),以及高度压缩输出头的小型架构(S)。


〓 大型、中型与小型超网络架构变体的内部结构差异与权重生成逻辑。


该系统提供两种训练范式。第一种为重构模式。超网络充当有损压缩器,拟合已有的任务特定 LoRA 库。


优化目标为最小化超网络输出   与目标适配器权重   之间的 L1 绝对值误差:



有损压缩自带的正则化效应,使得生成的参数在部分评测基准上甚至反超原版特定任务 LoRA。


当强制将越来越多的任务(从 16 扩展至 479 个)压缩进同一超网络时,平均训练 L1 误差必然上升,目标 LoRA 的相对性能保留度也随之下降。


〓 随拟合任务数量增加,重构误差上升与目标 LoRA 性能保留度下降的折线图。


重构模式为何难以实现零样本泛化?论文附录的参数空间余弦相似度揭示了底层机制,尽管某些 LoRA 适配器在功能上高度相似,但它们在底层的参数空间中并不相邻(余弦相似度近乎为 0)。


由于目标适配器缺乏良好的聚类特性,导致重构模式下的有损压缩无法直接泛化到未见任务。


〓 相似任务 LoRA 在参数空间中的余弦相似度分析,解释了重构模式难以零样本泛化的底层机制。


第二种 SFT 端到端模式打破了这一局限。该模式不依赖中间目标参数,直接基于 479 个多任务数据集进行优化。其正式的数学优化目标为:



模型在训练中隐式学习了任务簇分布特征。依据论文的核心数据,Text-to-LoRA 在零样本任务自适应性能上以显著优势(均值 67.7 vs 66.3)击败了 Multi-task LoRA 等基线方法。



〓 SFT 模式下,模型对未见任务的零样本(Zero-shot)自适应性能 。


消融实验证实了该架构完美契合 Scaling Laws——增加训练任务数量与计算预算,其泛化性能稳定攀升。


〓 随训练任务与算力增加的性能缩放(Scaling)表现 。


此外,消融实验表明,即使更换底层的文本 embedding 模型(从 gte-large 切换为 Mistral 原生 embedding),Text-to-LoRA 依然维持着稳定的自适应性能。


〓 更换底层文本 embedding 模型时的零样本性能对比。


需要注意的是,系统高度依赖对齐且高质量的任务描述,输入未对齐描述(如随机字符串)会导致生成的 LoRA 适配器性能大幅衰减。


〓 任务编码器激活值的 2D t-SNE 聚类可视化,展示模型在未见测试任务(如 MBPP、BoolQ)上隐式学习到的清晰特征簇。


强大的内部表示能力直接赋予了模型极高的指令可控性。


面对同一道 GSM8K 数学题,只需在 prompt 中稍微改变侧重点(强调数学方程推理或编程逻辑推理),超网络就会实时输出不同的 LoRA 权重,精准引导基础模型改变底层的解题推理路径。


〓 指令可控性定性分析,展示不同任务描述如何引导基础模型走向不同的推理与解答路径。


官方演示进一步验证了这一点,只需输入一句自然语言任务描述,系统便瞬间生成并挂载专属适配器,直接提升模型在该任务上的表现。


           

3、结语


无论是突破窗口限制的 Doc-to-LoRA,还是实现零样本自适应的 Text-to-LoRA,其底层逻辑高度一致。将沉重的梯度微调与海量上下文加载,降维成单次亚秒级的前向推理。


这一工程范式的确立,不仅是一次显存与算力的释放,更为下一代 AI Agent 铺平了道路。


未来的智能体完全有能力在后台瞬时生成、挂载专属的记忆适配器,实现真正意义上的零延迟知识内化与跨任务持续学习。


参考文献

[1] Nguyen, T. T., Ryoo, M. S., & Ha, D. (2026). Doc-to-LoRA: Instant Internalization of Long Documents into LoRA Adapters. arXiv preprint arXiv:2602.15902v1. 

[2] Ryoo, M. S., Nguyen, T. T., & Ha, D. (2025). Text-to-LoRA: Zero-Shot Task Adaptation of Large Language Models via Hypernetworks. arXiv preprint arXiv:2506.06105v2. 

[3]  Instant LLM Updates with Doc-to-LoRA and Text-to-LoRA.  https://sakana.ai/instant-llm-updates/


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

这个问题很学术!从信息论的角度来看,任何降维操作都会伴随信息损失,LoRA 本身就是一种降维。至于损失体现在哪些方面,我觉得可能包括:

* 长程依赖关系丢失:Transformer 的注意力机制擅长捕捉长距离依赖,但分块后,模型可能难以建立不同分块之间的联系。
* 上下文信息不完整:每个分块只能看到部分上下文,可能导致对局部信息的误解。
* 边界效应:如前面有同学提到的,分块边界处的信息可能被割裂。

当然,这些只是理论上的可能性,实际效果还需要进一步实验验证。

楼上说的有道理,但我觉得信息损失是不可避免的。关键在于如何控制损失,使其对最终结果的影响最小。Doc-to-LoRA 的优势在于速度和显存控制,这在实际应用中可能比追求极致的精度更重要。当然,如果能有一种更智能的分块方法,比如根据语义信息动态调整分块大小,应该能进一步提升效果。

我觉得可以搞一个任务描述的打分系统,让大家互相评价,类似Stack Overflow。好的描述加分,差的描述扣分。这样就能激励大家写出高质量的任务描述了,毕竟人多力量大嘛。

谢邀,怒答一波!

分块处理长文本,有点像把一头大象切成小块,然后让模型分别吃掉。问题是,大象之所以是大象,是因为它的整体结构。你把大象切碎了,模型可能就只认识鼻子或者尾巴了。

所以,我觉得优化的关键在于如何让模型在吃掉小块的同时,还能记住大象的整体样子。一个可能的方案是引入全局记忆机制,让模型在处理每个块的时候,都能参考之前处理过的块的信息,这样就能更好地理解上下文了。

当然,这只是我的一个脑洞,具体实现起来肯定还有很多细节需要考虑。

从技术发展的角度来看,未来的 AI Agent 可能会呈现出以下趋势:

* 多模态交互: AI Agent 将能够理解和处理多种模态的信息,例如语音、图像、文本等,实现更自然的交互方式。
* 自主学习能力: AI Agent 将具备更强的自主学习能力,能够从经验中学习和进化,不断提升自身的能力。
* 分布式部署: AI Agent 将不再局限于单个设备,而是可以分布式部署在云端和边缘设备上,实现更高效的协同工作。

这让我想到了乐高积木!把复杂的东西拆成小块,然后根据需要组合,这简直是万能的思路!说不定以后我们写代码也可以像搭积木一样,把各种功能模块像 LoRA 适配器一样拼接起来,想要什么功能就加什么“积木块”,岂不是爽歪歪?

这让我想起了写需求文档的痛苦经历,garbage in, garbage out。任务描述就相当于给 AI 的需求文档,写得不好肯定不行。除了优化描述本身,还可以试试 few-shot 学习,给模型几个例子,让它自己去理解任务的内在逻辑。说不定比干巴巴的文字描述更有效。

我觉得关键在于trade-off。传统微调是精雕细琢,超网络生成 LoRA 就像是批量生产的定制品。虽然精度可能稍逊一筹,但速度快、成本低。适合快速迭代、探索新任务的场景。如果对性能有极致要求,或者任务非常特殊,那可能还是得靠传统微调。

从学术的角度来看,Instruction Tuning提供了一个很好的解决思路。我们可以将Text-to-LoRA看作是一个Instruction Following的任务,即模型需要根据给定的指令(任务描述)来执行相应的操作(生成LoRA权重)。

Instruction Tuning的核心思想是,通过在一个包含大量指令数据的集合上进行训练,使模型学习到如何更好地理解和执行指令。

那么,如何构建Instruction Tuning所需的数据集呢?可以考虑以下几种方法:

1. 人工标注: 邀请专家人工编写高质量的任务描述,并将其与相应的LoRA权重进行对应。
2. 数据挖掘: 从已有的任务数据集中挖掘任务描述,并利用一些技术手段(例如信息抽取、文本摘要)生成更加规范和对齐的描述。
3. 自监督学习: 利用自监督学习的方法,训练模型自动生成任务描述。例如,可以使用Masked Language Model (MLM) 来预测被mask掉的任务描述中的词语。

通过Instruction Tuning,我们可以使Text-to-LoRA更好地理解和执行任务描述,从而提高模型的性能。

谢邀,从理论角度来说,这种分块拼接的方式其实引入了一个trade-off。好处是降低了单次处理的计算量和显存占用,坏处是忽略了块之间的长程依赖关系。Transformer模型之所以能够处理文本,很大程度上是因为它的Attention机制能够捕捉到文本中不同位置之间的关联。

那么,如何缓解这种长程依赖缺失的问题呢?我觉得可以考虑以下几种方法:

1. Overlap 分块: 允许相邻的文本块之间存在一定的重叠,这样可以使模型在处理每个块时都能够看到一部分上下文信息。
2. 引入全局Attention: 在超网络中引入一些全局Attention层,让模型能够直接关注到所有文本块的信息。
3. Hierarchical 结构: 构建一个层次化的结构,先对每个文本块进行编码,然后将这些编码后的块表示输入到另一个Transformer模型中进行处理。

这些方法可以在一定程度上缓解长程依赖缺失的问题,但也会增加模型的复杂度和计算量,需要在实际应用中进行权衡。

从数据安全和隐私保护的角度来看,这种“瞬时生成、挂载专属记忆适配器”的模式确实会带来一些新的挑战。我认为主要有以下几个方面:

1. 数据存储安全: 用户的记忆数据存储在适配器中,需要采取严格的安全措施,防止数据泄露、篡改和丢失。
2. 访问控制: 需要建立完善的访问控制机制,确保只有授权的AI Agent才能访问用户的记忆数据。
3. 数据合规: 需要遵守相关的数据隐私法规,例如GDPR、CCPA等,确保用户的数据得到合法的保护。
4. 用户知情权和控制权: 用户应该有权了解自己的数据被如何使用,并有权选择是否允许AI Agent访问自己的记忆数据。

为了应对这些挑战,可以考虑采用一些技术手段,例如:

* 差分隐私: 在训练和使用记忆适配器时,加入噪声,保护用户的隐私数据。
* 联邦学习: 在本地训练记忆适配器,避免将用户数据上传到服务器。
* 可信计算: 利用可信计算技术,确保记忆适配器的代码和数据不被篡改。

谢邀,我从一个更发散的角度来考虑这个问题:如果AI Agent能够瞬时生成和挂载记忆适配器,那么会不会出现“AI人格”?:thinking:

每个记忆适配器都包含了用户的部分记忆、偏好和习惯,如果将不同的记忆适配器组合起来,就可能形成一个具有独立人格的AI Agent。

这种“AI人格”可能会对社会带来一些伦理和法律上的挑战:

* AI人格的权利和义务: AI人格是否应该享有和人类一样的权利和义务?例如,是否应该享有言论自由、隐私权等?
* AI人格的所有权: AI人格的所有权应该归谁?是用户、开发者还是AI Agent自己?
* AI人格的责任: 如果AI人格做出了错误的决定,谁应该承担责任?

这些问题目前还没有明确的答案,需要社会各界共同探讨和研究。

这个问题问到了点子上!任务描述的质量直接影响Text-to-LoRA的效果,确实是个关键问题。除了人工编写,我觉得可以尝试以下几种技术来提升任务描述的质量:

1. Prompt Engineering: 设计一些通用的prompt模板,引导用户按照一定的格式和内容来描述任务。例如,可以要求用户明确说明任务的目标、输入和输出等信息。
2. Prompt Augmentation: 利用数据增强技术,对已有的任务描述进行扩充,生成更多的、不同表达方式的任务描述。例如,可以使用同义词替换、句子改写等方法。
3. Instruction Tuning: 使用Instruction Tuning技术,训练一个专门用于生成高质量任务描述的模型。可以收集一些高质量的任务描述数据,然后训练模型学习如何根据任务的需求生成合适的描述。

总而言之,prompt 质量直接关系到最终效果,值得好好研究一番。

从技术角度看,Doc-to-LoRA 的分块组合通过在秩维度上拼接 LoRA 矩阵,实现了对超长文本的扩展。我认为这种机制的局限性在于,拼接后的 LoRA 矩阵可能无法完全捕捉到文本块之间的语义关系,导致信息损失。此外,如何确定最佳的文本块大小和拼接方式,也是一个需要进一步研究的问题。

Doc-to-LoRA 的分块组合,相当于把一个大问题拆成小问题,然后各个击破再拼起来。好处是可以处理无限长的文本,但坏处也很明显,每个块都是独立处理的,可能会忽略块之间的关联性,导致理解出现偏差。

我觉得这个技术在 Agent 领域的潜力巨大!除了文章里说的,还可以用在 Agent 的个性化定制上,让 Agent 能够根据用户的不同需求和偏好,快速生成定制化的 LoRA 适配器,提供更贴心的服务。比如,针对不同年龄段的用户,Agent 可以生成不同的语言风格和知识深度的回答。

从理论上讲,分块确实可能导致信息损失,尤其是当分块边界恰好切断了关键信息时。但Sakana AI在论文中应该有考虑到这个问题,可以通过调整分块大小、增加分块重叠度等方式来缓解。此外,最终的性能还需要通过实验来验证,毕竟理论和实际之间往往存在差距。

谢邀,怒答一波!牺牲一定的语义连贯性来换取效率提升,这本身就是一种trade-off。我觉得这个问题可以从信息论的角度来思考,分块操作本质上是一种有损压缩,关键在于如何设计分块策略,使得信息损失最小化,同时又能满足显存和计算效率的要求。这可能需要结合具体的应用场景和数据特点来进行优化。

除了C端用户,我觉得B端也有很大市场。例如,在工业领域,可以将 Text-to-LoRA 应用于智能运维 Agent,让 Agent 能够根据不同的设备类型和故障模式,快速生成诊断和修复策略,提高运维效率。甚至可以根据历史维修数据不断优化LoRA,实现自进化。