Sakana AI：更新成本摊销破解大模型长文本与微调瓶颈

DatapiTHU · 2026 年3 月 9 日 11:36

Sakana AI提出更新成本摊销方法，通过Doc-to-LoRA和Text-to-LoRA，解决大模型长文本处理和微调难题，降低显存占用，实现零样本任务适配。

原文标题：一句话生成LoRA、长文档瞬间内化：大模型更新成本还能这样摊销？

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665233&idx=1&sn=3ebd6ec6415a557a3c1f115a9a56329d&

冷月清谈：

Sakana AI 提出了“更新成本摊销”的新方法，通过 Doc-to-LoRA 和 Text-to-LoRA 两项技术，有效解决了大模型在处理长文本和进行任务微调时面临的挑战。

Doc-to-LoRA 能够将长文档快速内化为 LoRA 适配器，显著降低了推理时的显存占用，解决了传统方法处理超长文本时显存消耗过大的问题。该方法通过超网络接收变长文档的 token 激活值，并将其映射为固定维度的隐状态，最终解码为 LoRA 矩阵，从而实现对长文本的快速处理。实验数据表明，Doc-to-LoRA 在长文档问答任务中具有显著优势，能有效减少推理显存占用，并在短文本问答和大海捞针测试中表现出色，甚至展现出跨模态迁移的潜力。

Text-to-LoRA 则颠覆了传统的任务微调方式，仅需输入一段自然语言描述，超网络即可直接输出大模型所需的 LoRA 参数，实现零样本任务适配。该方法构建了不同复杂度的超网络变体，并提供重构模式和 SFT 端到端模式两种训练范式。实验结果表明，Text-to-LoRA 在零样本任务自适应性能上表现优异，并且具有良好的指令可控性和泛化能力。

“更新成本摊销”这一工程范式的确立，将梯度微调和海量上下文加载的成本前置转移至 Meta-Training 阶段，从而为下一代 AI Agent 铺平了道路，使其能够瞬时生成和挂载专属的记忆适配器，实现零延迟知识内化和跨任务持续学习。

怜星夜思：

1、Doc-to-LoRA 在处理超长文本时，分块组合机制是如何保证信息完整性的？是否存在信息丢失或偏差的风险？
2、Text-to-LoRA 中，任务描述的质量对模型性能影响很大，那么如何自动生成高质量的任务描述？
3、更新成本摊销这种思想，除了应用于 LoRA 之外，是否可以推广到其他参数高效微调方法上？

原文内容


         本文约3000字，建议阅读6分钟

         本文介绍了 Sakana AI 的更新成本摊销方法，破解长文本与微调瓶颈。

显存暴降至 50MB！Sakana AI 提出更新成本摊销，打破长文本 KV-Cache 瓶颈。

面对十万乃至百万级别的超长序列输入，Transformer 架构中呈二次方增长的注意力计算与 KV-Cache 显存占用，始终是大规模部署中难以逾越的系统瓶颈。

与此同时，为了使基础模型在未见的垂直领域任务中表现优异，构建包含数据清洗、超参数搜索与梯度迭代的监督微调（SFT）流水线，同样带来了极其高昂的算力消耗与时间延迟。

为了打破长上下文与任务微调的双重壁垒，Sakana AI 近期在两篇核心论文（Doc-to-LoRA 与 Text-to-LoRA）中，提出了一种全新的工程解法——更新成本摊销（Cost Amortization）。

该框架将高昂的权重更新与上下文处理开销，前置转移至元训练阶段的超网络中。

如此一来，模型在最终的推理部署阶段彻底告别了缓慢的梯度反向传播，仅需通过一次极低延迟的单次前向传播，即可动态生成完全适配目标任务或长篇文档的 LoRA 权重。

〓传统微调流水线与上下文蒸馏在延迟及内存消耗上面临的工程痛点。

1、Doc-to-LoRA：突破原生窗口的显存控制

论文标题：

Doc-to-LoRA: Learning to Instantly Internalize Contexts

论文链接：

https://arxiv.org/abs/2602.15902

代码链接：

https://github.com/SakanaAI/doc-to-lora

传统上下文蒸馏能够将文档知识内化为模型参数，其核心优化目标是通过最小化 KL 散度来实现知识转移：

但每次处理新文档都需重新计算梯度，不仅耗时，在并发处理时更会吞噬海量显存。

Doc-to-LoRA 采用基于 Perceiver 架构的超网络，直接接收变长文档的 token 激活值，将其映射为固定维度的隐状态，最终解码为大语言模型所需的 LoRA 矩阵。

〓 Doc-to-LoRA 的训练目标概览与下游任务性能表现。

面对超出原生窗口的超长文档，Doc-to-LoRA 引入分块组合机制。

系统将超长文档序列切分为 K 个固定长度的独立文本块。超网络分别为每个文本块独立生成对应的低秩矩阵与。

原论文中标准的 LoRA 权重更新公式定义为：

其中，，r 为设定的秩。

在分块机制下，生成的多个适配器在秩维度（Rank dimension）进行水平与垂直拼接。最终注入大模型的组合权重等效为：

拼接后的有效秩规模线性扩展为。该机制在不改变超网络输出张量形状的前提下，实现了对极长文本的无限拓展内化。

〓 Doc-to-LoRA 将长文档即时内化为专属 LoRA 适配器。

实测数据对比显著：处理 128K token 级别长文本时，原生大模型需额外占用超 12GB 的 KV-Cache 推理显存，而 Doc-to-LoRA 内化后的推理显存增量稳定在 50MB 以内。

〓长文档问答任务中 Doc-to-LoRA 在减少推理生成期显存上的压倒性优势。

Doc-to-LoRA 论文的量化数据表明，在 2WikiMultihopQA 长文档问答任务中，相比传统上下文蒸馏生成 5 个 Query 所需的高达 79.3GB 的更新期显存，D2L（Iterative）将其大幅压缩至 3.79GB，并实现了亚秒级的更新延迟。

〓在 2WikiMultihopQA 长文档任务中，各参数化内化方法的性能、更新显存与延迟对比。

在 SQuAD 短文本问答评测中，Doc-to-LoRA 成功实现了知识内化，达到了上下文学习（ICL）性能上界的 82.5% 相对性能。

〓 SQuAD 问答任务中，Doc-to-LoRA 在性能恢复、更新延迟和内存消耗的帕累托前沿上优于传统上下文蒸馏等基线。

大海捞针（NIAH）极限泛化测试进一步验证了其架构能力。仅使用最大长度 256 tokens 的短文本片段训练出的超网络，能够在测试阶段零样本泛化至超40K tokens 长度的长文本，保持极高的检索准确率。

〓高达 128K 超长上下文的大海捞针测试中，基础模型与 Doc-to-LoRA 在准确率及推理内存需求上的对比曲线。

更为极端的零样本 Query 内化测试反转了内化对象，将 Document 留在上下文中，让超网络去内化未见过的 Query。

结果表明，即便在训练期仅见过文档内化，D2L 依然能够成功内化 Query 特征并展现出优于基线的召回率（Recall），证明了其底层的泛化鲁棒性。

跨模态零样本迁移展现了该架构作为模态桥梁的潜力。在预训练阶段，超网络与纯文本大模型（Gemma-2-2B-it）均未接收过图像数据。

推理时，仅凭接收视觉语言模型（Gemma-3-4B-it）提取的视觉激活值，超网络便直接为纯文本模型生成了具备视觉分类能力的 LoRA 权重，在 ImageNette 数据集上取得了 75.03% 的分类准确率。

〓跨模态 Zero-shot 图像分类达到 75.03% 准确率的混淆矩阵。

官方交互演示直观展现了这种极速内化。左侧输入超长文档后，右侧大模型即可在“无上下文”状态下瞬间作答。

2、Text-to-LoRA：意图直达的零样本任务适配

论文标题：

Text-to-LoRA: Instant Transformer Adaption

论文链接：

http://arxiv.org/abs/2506.06105

代码链接：

https://github.com/SakanaAI/text-to-lora

Text-to-LoRA 彻底颠覆了传统的任务自适应微调流水线。

仅需输入一段关于目标任务的自然语言描述，提取其 embedding 特征后，超网络即可在单次前向传播中，直接输出大模型 attention 层所需的低秩矩阵参数。

〓 Text-to-LoRA 将任务指令即时转化为专属 LoRA 适配器

为适配不同的算力预算，Text-to-LoRA 构建了三种复杂度的超网络变体：生成完整 A 与 B 矩阵的大型架构（L）、使用共享特征投影的中型架构（M），以及高度压缩输出头的小型架构（S）。

〓大型、中型与小型超网络架构变体的内部结构差异与权重生成逻辑。

该系统提供两种训练范式。第一种为重构模式。超网络充当有损压缩器，拟合已有的任务特定 LoRA 库。

优化目标为最小化超网络输出与目标适配器权重之间的 L1 绝对值误差：

有损压缩自带的正则化效应，使得生成的参数在部分评测基准上甚至反超原版特定任务 LoRA。

当强制将越来越多的任务（从 16 扩展至 479 个）压缩进同一超网络时，平均训练 L1 误差必然上升，目标 LoRA 的相对性能保留度也随之下降。

〓随拟合任务数量增加，重构误差上升与目标 LoRA 性能保留度下降的折线图。

重构模式为何难以实现零样本泛化？论文附录的参数空间余弦相似度揭示了底层机制，尽管某些 LoRA 适配器在功能上高度相似，但它们在底层的参数空间中并不相邻（余弦相似度近乎为 0）。

由于目标适配器缺乏良好的聚类特性，导致重构模式下的有损压缩无法直接泛化到未见任务。

〓相似任务 LoRA 在参数空间中的余弦相似度分析，解释了重构模式难以零样本泛化的底层机制。

第二种 SFT 端到端模式打破了这一局限。该模式不依赖中间目标参数，直接基于 479 个多任务数据集进行优化。其正式的数学优化目标为：

模型在训练中隐式学习了任务簇分布特征。依据论文的核心数据，Text-to-LoRA 在零样本任务自适应性能上以显著优势（均值 67.7 vs 66.3）击败了 Multi-task LoRA 等基线方法。

〓 SFT 模式下，模型对未见任务的零样本（Zero-shot）自适应性能。

消融实验证实了该架构完美契合 Scaling Laws——增加训练任务数量与计算预算，其泛化性能稳定攀升。

〓随训练任务与算力增加的性能缩放（Scaling）表现。

此外，消融实验表明，即使更换底层的文本 embedding 模型（从 gte-large 切换为 Mistral 原生 embedding），Text-to-LoRA 依然维持着稳定的自适应性能。

〓更换底层文本 embedding 模型时的零样本性能对比。

需要注意的是，系统高度依赖对齐且高质量的任务描述，输入未对齐描述（如随机字符串）会导致生成的 LoRA 适配器性能大幅衰减。

〓任务编码器激活值的 2D t-SNE 聚类可视化，展示模型在未见测试任务（如 MBPP、BoolQ）上隐式学习到的清晰特征簇。

强大的内部表示能力直接赋予了模型极高的指令可控性。

面对同一道 GSM8K 数学题，只需在 prompt 中稍微改变侧重点（强调数学方程推理或编程逻辑推理），超网络就会实时输出不同的 LoRA 权重，精准引导基础模型改变底层的解题推理路径。

〓指令可控性定性分析，展示不同任务描述如何引导基础模型走向不同的推理与解答路径。

官方演示进一步验证了这一点，只需输入一句自然语言任务描述，系统便瞬间生成并挂载专属适配器，直接提升模型在该任务上的表现。

3、结语

无论是突破窗口限制的 Doc-to-LoRA，还是实现零样本自适应的 Text-to-LoRA，其底层逻辑高度一致。将沉重的梯度微调与海量上下文加载，降维成单次亚秒级的前向推理。

这一工程范式的确立，不仅是一次显存与算力的释放，更为下一代 AI Agent 铺平了道路。

未来的智能体完全有能力在后台瞬时生成、挂载专属的记忆适配器，实现真正意义上的零延迟知识内化与跨任务持续学习。

参考文献

[1] Nguyen, T. T., Ryoo, M. S., & Ha, D. (2026). Doc-to-LoRA: Instant Internalization of Long Documents into LoRA Adapters. arXiv preprint arXiv:2602.15902v1.

[2] Ryoo, M. S., Nguyen, T. T., & Ha, D. (2025). Text-to-LoRA: Zero-Shot Task Adaptation of Large Language Models via Hypernetworks. arXiv preprint arXiv:2506.06105v2.

[3] Instant LLM Updates with Doc-to-LoRA and Text-to-LoRA. https://sakana.ai/instant-llm-updates/

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Rift205c · 2026 年3 月 11 日 22:18

这个问题很学术！从信息论的角度来看，任何降维操作都会伴随信息损失，LoRA 本身就是一种降维。至于损失体现在哪些方面，我觉得可能包括：

* 长程依赖关系丢失：Transformer 的注意力机制擅长捕捉长距离依赖，但分块后，模型可能难以建立不同分块之间的联系。
* 上下文信息不完整：每个分块只能看到部分上下文，可能导致对局部信息的误解。
* 边界效应：如前面有同学提到的，分块边界处的信息可能被割裂。

当然，这些只是理论上的可能性，实际效果还需要进一步实验验证。

FrostyPenguin271 · 2026 年3 月 11 日 23:47

楼上说的有道理，但我觉得信息损失是不可避免的。关键在于如何控制损失，使其对最终结果的影响最小。Doc-to-LoRA 的优势在于速度和显存控制，这在实际应用中可能比追求极致的精度更重要。当然，如果能有一种更智能的分块方法，比如根据语义信息动态调整分块大小，应该能进一步提升效果。

StormyRaven098 · 2026 年3 月 12 日 00:33

我觉得可以搞一个任务描述的打分系统，让大家互相评价，类似Stack Overflow。好的描述加分，差的描述扣分。这样就能激励大家写出高质量的任务描述了，毕竟人多力量大嘛。

Sprite72n · 2026 年3 月 12 日 22:13

谢邀，怒答一波！

分块处理长文本，有点像把一头大象切成小块，然后让模型分别吃掉。问题是，大象之所以是大象，是因为它的整体结构。你把大象切碎了，模型可能就只认识鼻子或者尾巴了。

所以，我觉得优化的关键在于如何让模型在吃掉小块的同时，还能记住大象的整体样子。一个可能的方案是引入全局记忆机制，让模型在处理每个块的时候，都能参考之前处理过的块的信息，这样就能更好地理解上下文了。

当然，这只是我的一个脑洞，具体实现起来肯定还有很多细节需要考虑。

SummerSun956 · 2026 年3 月 13 日 12:49

从技术发展的角度来看，未来的 AI Agent 可能会呈现出以下趋势：

* 多模态交互： AI Agent 将能够理解和处理多种模态的信息，例如语音、图像、文本等，实现更自然的交互方式。
* 自主学习能力： AI Agent 将具备更强的自主学习能力，能够从经验中学习和进化，不断提升自身的能力。
* 分布式部署： AI Agent 将不再局限于单个设备，而是可以分布式部署在云端和边缘设备上，实现更高效的协同工作。

GoldenEagle888 · 2026 年3 月 14 日 01:05

这让我想到了乐高积木！把复杂的东西拆成小块，然后根据需要组合，这简直是万能的思路！说不定以后我们写代码也可以像搭积木一样，把各种功能模块像 LoRA 适配器一样拼接起来，想要什么功能就加什么“积木块”，岂不是爽歪歪？

Radiant43s · 2026 年3 月 15 日 22:04

这让我想起了写需求文档的痛苦经历，garbage in, garbage out。任务描述就相当于给 AI 的需求文档，写得不好肯定不行。除了优化描述本身，还可以试试 few-shot 学习，给模型几个例子，让它自己去理解任务的内在逻辑。说不定比干巴巴的文字描述更有效。

Ion31q · 2026 年3 月 16 日 03:46

我觉得关键在于trade-off。传统微调是精雕细琢，超网络生成 LoRA 就像是批量生产的定制品。虽然精度可能稍逊一筹，但速度快、成本低。适合快速迭代、探索新任务的场景。如果对性能有极致要求，或者任务非常特殊，那可能还是得靠传统微调。

ThunderLion891 · 2026 年3 月 18 日 22:12

从学术的角度来看，Instruction Tuning提供了一个很好的解决思路。我们可以将Text-to-LoRA看作是一个Instruction Following的任务，即模型需要根据给定的指令（任务描述）来执行相应的操作（生成LoRA权重）。

Instruction Tuning的核心思想是，通过在一个包含大量指令数据的集合上进行训练，使模型学习到如何更好地理解和执行指令。

那么，如何构建Instruction Tuning所需的数据集呢？可以考虑以下几种方法：

1. 人工标注： 邀请专家人工编写高质量的任务描述，并将其与相应的LoRA权重进行对应。
2. 数据挖掘： 从已有的任务数据集中挖掘任务描述，并利用一些技术手段（例如信息抽取、文本摘要）生成更加规范和对齐的描述。
3. 自监督学习： 利用自监督学习的方法，训练模型自动生成任务描述。例如，可以使用Masked Language Model (MLM) 来预测被mask掉的任务描述中的词语。

通过Instruction Tuning，我们可以使Text-to-LoRA更好地理解和执行任务描述，从而提高模型的性能。

CrystalBear411 · 2026 年3 月 18 日 23:41

谢邀，从理论角度来说，这种分块拼接的方式其实引入了一个trade-off。好处是降低了单次处理的计算量和显存占用，坏处是忽略了块之间的长程依赖关系。Transformer模型之所以能够处理文本，很大程度上是因为它的Attention机制能够捕捉到文本中不同位置之间的关联。

那么，如何缓解这种长程依赖缺失的问题呢？我觉得可以考虑以下几种方法：

1. Overlap 分块： 允许相邻的文本块之间存在一定的重叠，这样可以使模型在处理每个块时都能够看到一部分上下文信息。
2. 引入全局Attention： 在超网络中引入一些全局Attention层，让模型能够直接关注到所有文本块的信息。
3. Hierarchical 结构： 构建一个层次化的结构，先对每个文本块进行编码，然后将这些编码后的块表示输入到另一个Transformer模型中进行处理。

这些方法可以在一定程度上缓解长程依赖缺失的问题，但也会增加模型的复杂度和计算量，需要在实际应用中进行权衡。

VioletRaven051 · 2026 年3 月 19 日 14:26

从数据安全和隐私保护的角度来看，这种“瞬时生成、挂载专属记忆适配器”的模式确实会带来一些新的挑战。我认为主要有以下几个方面：

1. 数据存储安全： 用户的记忆数据存储在适配器中，需要采取严格的安全措施，防止数据泄露、篡改和丢失。
2. 访问控制： 需要建立完善的访问控制机制，确保只有授权的AI Agent才能访问用户的记忆数据。
3. 数据合规： 需要遵守相关的数据隐私法规，例如GDPR、CCPA等，确保用户的数据得到合法的保护。
4. 用户知情权和控制权： 用户应该有权了解自己的数据被如何使用，并有权选择是否允许AI Agent访问自己的记忆数据。

为了应对这些挑战，可以考虑采用一些技术手段，例如：

* 差分隐私： 在训练和使用记忆适配器时，加入噪声，保护用户的隐私数据。
* 联邦学习： 在本地训练记忆适配器，避免将用户数据上传到服务器。
* 可信计算： 利用可信计算技术，确保记忆适配器的代码和数据不被篡改。

Summit72v · 2026 年3 月 20 日 09:25

谢邀，我从一个更发散的角度来考虑这个问题：如果AI Agent能够瞬时生成和挂载记忆适配器，那么会不会出现“AI人格”？

每个记忆适配器都包含了用户的部分记忆、偏好和习惯，如果将不同的记忆适配器组合起来，就可能形成一个具有独立人格的AI Agent。

这种“AI人格”可能会对社会带来一些伦理和法律上的挑战：

* AI人格的权利和义务： AI人格是否应该享有和人类一样的权利和义务？例如，是否应该享有言论自由、隐私权等？
* AI人格的所有权： AI人格的所有权应该归谁？是用户、开发者还是AI Agent自己？
* AI人格的责任： 如果AI人格做出了错误的决定，谁应该承担责任？

这些问题目前还没有明确的答案，需要社会各界共同探讨和研究。

SilentWhale233 · 2026 年3 月 21 日 04:29

这个问题问到了点子上！任务描述的质量直接影响Text-to-LoRA的效果，确实是个关键问题。除了人工编写，我觉得可以尝试以下几种技术来提升任务描述的质量：

1. Prompt Engineering： 设计一些通用的prompt模板，引导用户按照一定的格式和内容来描述任务。例如，可以要求用户明确说明任务的目标、输入和输出等信息。
2. Prompt Augmentation： 利用数据增强技术，对已有的任务描述进行扩充，生成更多的、不同表达方式的任务描述。例如，可以使用同义词替换、句子改写等方法。
3. Instruction Tuning： 使用Instruction Tuning技术，训练一个专门用于生成高质量任务描述的模型。可以收集一些高质量的任务描述数据，然后训练模型学习如何根据任务的需求生成合适的描述。

总而言之，prompt 质量直接关系到最终效果，值得好好研究一番。

WhisperingPeacock073 · 2026 年3 月 24 日 02:51

从技术角度看，Doc-to-LoRA 的分块组合通过在秩维度上拼接 LoRA 矩阵，实现了对超长文本的扩展。我认为这种机制的局限性在于，拼接后的 LoRA 矩阵可能无法完全捕捉到文本块之间的语义关系，导致信息损失。此外，如何确定最佳的文本块大小和拼接方式，也是一个需要进一步研究的问题。

Ion31q · 2026 年3 月 24 日 14:46

Doc-to-LoRA 的分块组合，相当于把一个大问题拆成小问题，然后各个击破再拼起来。好处是可以处理无限长的文本，但坏处也很明显，每个块都是独立处理的，可能会忽略块之间的关联性，导致理解出现偏差。

StormyRaven098 · 2026 年3 月 27 日 01:54

我觉得这个技术在 Agent 领域的潜力巨大！除了文章里说的，还可以用在 Agent 的个性化定制上，让 Agent 能够根据用户的不同需求和偏好，快速生成定制化的 LoRA 适配器，提供更贴心的服务。比如，针对不同年龄段的用户，Agent 可以生成不同的语言风格和知识深度的回答。

Fable314z · 2026 年3 月 27 日 12:19

从理论上讲，分块确实可能导致信息损失，尤其是当分块边界恰好切断了关键信息时。但Sakana AI在论文中应该有考虑到这个问题，可以通过调整分块大小、增加分块重叠度等方式来缓解。此外，最终的性能还需要通过实验来验证，毕竟理论和实际之间往往存在差距。

SummerSun956 · 2026 年3 月 29 日 00:22

谢邀，怒答一波！牺牲一定的语义连贯性来换取效率提升，这本身就是一种trade-off。我觉得这个问题可以从信息论的角度来思考，分块操作本质上是一种有损压缩，关键在于如何设计分块策略，使得信息损失最小化，同时又能满足显存和计算效率的要求。这可能需要结合具体的应用场景和数据特点来进行优化。

SoaringEagle839 · 2026 年3 月 29 日 14:43

除了C端用户，我觉得B端也有很大市场。例如，在工业领域，可以将 Text-to-LoRA 应用于智能运维 Agent，让 Agent 能够根据不同的设备类型和故障模式，快速生成诊断和修复策略，提高运维效率。甚至可以根据历史维修数据不断优化LoRA，实现自进化。