Sakana AI 通过 DroPE、REPO 和 FwPKM 三项研究,为大模型长文本处理提供了新思路:赋予模型推理时动态调整自身状态的能力。
原文标题:跳出窗口内卷 Sakana AI 给大模型长文本找了新解法
原文作者:数据派THU
冷月清谈:
1. RoPE 在长文本处理中存在泛化困境,缩放策略会造成信息损失,甚至导致语义理解偏差。
2. DroPE 提出移除位置编码,在推理阶段释放模型捕捉深层语义的能力,通过移除位置编码并进行再校准训练,模型能够更好地依赖语义相关性进行检索。
3. REPO 引入认知负荷理论,提出根据 Token 的隐藏状态动态生成位置值,降低模型的认知负荷,提升在噪声、结构化数据和长上下文等任务上的性能。
4. FwPKM 引入 Test-Time Training,使记忆模块在推理过程中具备实时更新与扩展的能力,通过复读提升记忆效果,实现大存储容量和推理时记忆的架构方案。
总体而言,Sakana AI 的研究表明,解决长文本难题的关键在于赋予模型在推理阶段实时调整自身状态的能力,而非单纯扩大显存。
怜星夜思:
2、REPO 中根据内容动态生成位置值的思想很有趣,这种非线性的位置表示方式,除了降低认知负荷外,还有什么潜在的好处或风险?
3、FwPKM 引入 Test-Time Training,让模型在推理时也能学习,这种模式对大模型的未来发展有什么启示?
原文内容
本文约3000字,建议阅读5分钟本文介绍了 Sakana AI 三项研究重构大模型长序列处理,突破长文本理解瓶颈。
后 Transformer 时代,从“丢掉位置编码”到“外挂大脑”,Sakana AI 做对了什么?
后 Transformer 时代,从“丢掉位置编码”到“外挂大脑”,Sakana AI 做对了什么?
当 128K 甚至 1M 的长窗口成为大模型标配,大家似乎都想当然地以为,只要单纯拉长上下文窗口,长文本理解能力就会自然涌现。
针对这一现状,由 Transformer 原作者 Llion Jones 领衔的 Sakana AI 团队近期连发三文,直接将矛头对准了模型架构本身。
这一组工作没有继续在现有架构上做简单的增量修补,而是从位置编码的移除(DroPE)、位置感知的重构(REPO)以及动态记忆机制的引入(FwPKM)三个维度,对 Transformer 处理长序列的方式提出了系统性的质疑与重构方案。
它们共同指向了一个核心观点,模型处理长文本能力的瓶颈,不在于窗口开得不够大,而在于现有的注意力机制和静态参数无法有效适应推理时的动态需求。
1、RoPE 在长文本中的泛化困境
自 Llama 普及以来,旋转位置编码(RoPE)已成为大模型的标配。
RoPE 通过将绝对位置信息编码为向量的旋转角度,让模型有了相对位置的概念。其核心计算方式如下:
其中 使得注意力分数仅取决于 Token 间的相对距离。
为了让模型处理比预训练时更长的文本,业界目前的主流做法(如 YaRN、PI 等)是对旋转频率进行缩放(Scaling):
但在 Sakana AI 的研究中 [1],研究人员通过热力图分析发现了一个关键问题,这种缩放策略并非无损的数学游戏,而是实打实的数据有损压缩。
〓 图1. 可视化显示,YaRN 等方法在处理长文本时,实际上将注意力强制限制在了训练长度的窗口内(类似一种软截断),导致模型无法有效检索到窗口外的远端信息。
除了看不远,更严重的问题是看错。
〓 图2. 该图直观展示了 RoPE Scaling 对语义理解的副作用。
在 NIAH 测试中,当使用 YaRN 扩展上下文时,原本负责捕捉特定语义(如 Key-Value 对)的注意力头(Semantic Head)出现了显著的权重偏移(Attention Mass Shift)。
位置编码的强行缩放干扰了模型对内容的语义匹配,导致模型指鹿为马。
2、DroPE
论文标题:
Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
论文链接:
https://arxiv.org/pdf/2512.12167
代码链接:
https://github.com/SakanaAI/DroPE
针对 RoPE 在外推时的局限性,Sakana AI 提出了一个反直觉的假设:位置编码可能只在训练阶段是必要的,而在推理阶段处理长文本时,它反而是一种阻碍。
这被称为脚手架理论(Scaffolding),就像建造大楼时必须搭建脚手架一样,位置编码在预训练初期为模型提供了必要的归纳偏置,帮助模型理解序列顺序并加速收敛。
但当“大楼”(模型能力)建成后,继续保留脚手架(位置编码)反而会遮挡视线(限制外推能力)。
1. 为什么不能直接去掉 PE?
论文首先验证了完全不使用位置编码(NoPE)的可行性。通过分析 Attention Positional Bias (APB):
实验数据显示,在初始化阶段,如果缺乏显式位置编码,Attention 矩阵的梯度范数极小,导致模型难以捕捉序列的因果结构,训练收敛极其困难。
因此,预训练阶段必须保留 RoPE。
2. 推理时的移除与再校准
DroPE (Dropping Positional Embeddings) 的具体方案十分简洁:
1. 正常使用 RoPE 完成预训练;
2. 在预训练结束后,完全移除所有位置编码;
3. 使用原始上下文窗口(如 4K)的数据进行极短的再校准训练,让模型适应没有位置编码的推理模式。
3. 实验效果
实验结果表明,经过 DroPE 处理的模型,无需在长文本数据上进行微调,即可实现对超长文本的泛化。
〓 图3. 在 2 倍上下文长度(8K)的 Multi-Query NIAH(大海捞针)任务中,RoPE-Base 的准确率大幅下降至 0% 附近,而 DroPE 保持了近乎 100% 的检索准确率。
下表的数据进一步量化了这种差异,在难度更高的 Multi-Key 检索任务中,RoPE+YaRN 的准确率仅为 0.5%,而 DroPE 达到了 41.6%。
‘’‘’
〓 表1. DroPE 与 RoPE 变体在 2 倍长文外推下的性能对比。
这表明,当移除位置编码的干扰后,Transformer 能够更纯粹地依赖语义相关性进行检索,从而释放了被压抑的长距离捕捉能力。
3、REPO
论文标题:
REPO: Language Models with Context Re-Positioning
论文链接:
https://arxiv.org/pdf/2512.14391
代码链接:
https://github.com/SakanaAI/repo
DroPE 选择了“做减法”来解决外推问题,REPO 则试图“做加法”——重构位置感知。
Sakana AI 团队在这篇论文中提出了一个核心质疑,为什么 Token 的位置索引必须是 0, 1, 2, 3 这样的固定整数?
1. 认知负荷理论的引入
论文引入了认知科学中的认知负荷理论(Cognitive Load Theory)。作者认为,在处理自然语言时,许多虚词、填充词并不承载关键信息。
强制给这些无关 Token 分配线性增长的位置索引,实际上增加了模型的无关认知负荷。
2. 内容感知的位置生成模块
REPO 引入了一个轻量级的可微分模块 ,它不再依赖预定义的整数序列,而是根据 Token 的隐藏状态动态生成位置值。
计算公式如下:
这里, 是当前 Token 的表示,经过门控机制处理后,映射为一个标量位置 。
随后,这个动态生成的 被代入 RoPE 公式中,替代原本的整数索引 :
此时,注意力机制中的相对距离 变成了一个基于语义内容的动态变量。
3. 可视化:非线性的位置分布
REPO 训练后的位置分布呈现出了非常有趣的特性。
〓 图4. 纵轴为 REPO 分配的动态位置,横轴为原始的线性位置。可以看到,分配的位置并非一条直线,而是呈现出明显的波动。模型学会了根据内容调整 Token 的逻辑位置,部分标点符号甚至被赋予了负值或相同的数值,实现了对无效信息的折叠。
在综合能力的评估上,REPO 展现出了极强的针对性。
〓 图5. 雷达图对比了 REPO 与 RoPE、NoPE 等基准模型在不同任务上的表现。
可以看出,REPO 在噪声上下文(Noisy)、结构化数据(Structured)和长上下文(Long)三个维度上全面领先,而在通用短文(Short)任务上保持了与 RoPE 持平的性能。
4、FwPKM
论文标题:
Fast-weight Product Key Memory
论文链接:
https://arxiv.org/pdf/2601.00671
前两篇论文主要针对 Attention 机制内部的位置感知进行优化,而第三篇论文 FwPKM 则试图解决 Transformer 架构层面的一个根本性短板,它缺一个外部记忆模块——既要能实时读写,容量还得可扩展。
1. 从静态 PKM 到动态 Fast Weights
传统的 Product Key Memory (PKM) 利用键值对的大规模检索来扩展模型容量,但它通常是慢权重(Slow Weights),即只在训练阶段更新,推理阶段是冻结的。
Sakana AI 提出的 FwPKM 将其改造为快权重(Fast Weights)系统。其核心创新在于:在推理阶段,模型会根据当前的输入数据,实时更新记忆模块的参数。
〓 图6. FwPKM 架构示意图。
2. 基于梯度的实时写入
FwPKM 利用局部的重建误差作为信号,在前向传播的过程中执行一步或多步梯度下降。
具体的参数更新规则如下:
当模型阅读一段新文本时,它不仅仅是在计算 Attention,更是在将这段信息通过梯度更新直接写入到 FwPKM 的 Value 矩阵(Fast Weights)中,同时保持 Key 矩阵作为稳定的寻址基准。
为了防止记忆坍塌(即所有 Query 都指向同一个 Key),FwPKM 引入了最大化边缘熵的 Addressing Loss:
3. Iterative Reading:复读提升记忆质量
由于记忆是在推理时动态写入的,FwPKM 验证了一个类似人类认知的现象:复习(Iterative Reading)能显著提升记忆效果。
〓 图7. 在 128K 长度的 NIAH 测试中,单次阅读(1-iter)的模型表现一般,但一旦开启 2-iter(读两遍)或 3-iter,准确率出现质的飞跃,达到 SOTA 水平。这证实了通过多次 Test-Time Training,模型能更牢固地掌握长下文信息。
最后,我们可以通过下表清晰地看到 FwPKM 在记忆机制上的独特生态位,它是唯一同时具备大存储容量且支持推理时记忆的架构方案。
〓 表2. FwPKM 与标准 Attention 及传统 PKM 的特性对比
5、总结与展望
这三项工作并非孤立的优化,而是体现了一种明确的技术转向,从预训练的静态拟合,走向推理时的动态适应。
DroPE 证明了对于长文推理,移除人工设计的静态位置约束,反而能释放模型捕捉深层语义的能力。
REPO 提出位置本身不应是固定的,而应根据内容实时生成,以降低模型的认知负荷。
FwPKM 则进一步引入了 Test-Time Training,让记忆模块在推理过程中具备了实时更新与扩展的能力。
这种架构层面的探索表明,解决长文本难题,除了依赖硬件堆叠上下文长度外,更本质的解法或许在于赋予模型在推理阶段实时调整自身状态的能力。
这为下一代大模型的设计,提供了一个比单纯扩大显存更具效率的演进方向。
参考文献
[1] Gelberg, Y., Eguchi, K., Akiba, T., & Cetin, E. (2025). Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings. arXiv preprint arXiv:2512.12167.
[2] Li, H., Zhao, T., & Sproat, R. (2025). REPO: Language Models with Context Re-Positioning. arXiv preprint arXiv:2512.14391.
[3] Zhao, T., & Jones, L. (2026). Fast-weight Product Key Memory. arXiv preprint arXiv:2601.00671.



















