Sakana AI:重构大模型长文本处理,挑战窗口内卷

Sakana AI 通过 DroPE、REPO 和 FwPKM 三项研究,为大模型长文本处理提供了新思路:赋予模型推理时动态调整自身状态的能力。

原文标题:跳出窗口内卷 Sakana AI 给大模型长文本找了新解法

原文作者:数据派THU

冷月清谈:

Sakana AI 团队针对当前大模型长文本处理的瓶颈,提出了三项研究,对 Transformer 架构进行了系统性的质疑与重构。

1. RoPE 在长文本处理中存在泛化困境,缩放策略会造成信息损失,甚至导致语义理解偏差。
2. DroPE 提出移除位置编码,在推理阶段释放模型捕捉深层语义的能力,通过移除位置编码并进行再校准训练,模型能够更好地依赖语义相关性进行检索。
3. REPO 引入认知负荷理论,提出根据 Token 的隐藏状态动态生成位置值,降低模型的认知负荷,提升在噪声、结构化数据和长上下文等任务上的性能
4. FwPKM 引入 Test-Time Training,使记忆模块在推理过程中具备实时更新与扩展的能力,通过复读提升记忆效果,实现大存储容量和推理时记忆的架构方案。

总体而言,Sakana AI 的研究表明,解决长文本难题的关键在于赋予模型在推理阶段实时调整自身状态的能力,而非单纯扩大显存。

怜星夜思:

1、DroPE 移除位置编码后,模型如何保证对序列顺序的理解?仅仅依靠语义相关性能否完全替代位置信息?
2、REPO 中根据内容动态生成位置值的思想很有趣,这种非线性的位置表示方式,除了降低认知负荷外,还有什么潜在的好处或风险?
3、FwPKM 引入 Test-Time Training,让模型在推理时也能学习,这种模式对大模型的未来发展有什么启示?

原文内容

图片
本文约3000字,建议阅读5分钟
本文介绍了 Sakana AI 三项研究重构大模型长序列处理,突破长文本理解瓶颈。


后 Transformer 时代,从“丢掉位置编码”到“外挂大脑”,Sakana AI 做对了什么?


当 128K 甚至 1M 的长窗口成为大模型标配,大家似乎都想当然地以为,只要单纯拉长上下文窗口,长文本理解能力就会自然涌现。


针对这一现状,由 Transformer 原作者 Llion Jones 领衔的 Sakana AI 团队近期连发三文,直接将矛头对准了模型架构本身。


这一组工作没有继续在现有架构上做简单的增量修补,而是从位置编码的移除(DroPE)、位置感知的重构(REPO)以及动态记忆机制的引入(FwPKM)三个维度,对 Transformer 处理长序列的方式提出了系统性的质疑与重构方案。


它们共同指向了一个核心观点,模型处理长文本能力的瓶颈,不在于窗口开得不够大,而在于现有的注意力机制和静态参数无法有效适应推理时的动态需求。


1、RoPE 在长文本中的泛化困境


Llama 普及以来,旋转位置编码(RoPE)已成为大模型的标配。


RoPE 通过将绝对位置信息编码为向量的旋转角度,让模型有了相对位置的概念。其核心计算方式如下:



其中   使得注意力分数仅取决于 Token 间的相对距离。


为了让模型处理比预训练时更长的文本,业界目前的主流做法(如 YaRN、PI 等)是对旋转频率进行缩放(Scaling):



但在 Sakana AI 的研究中 [1],研究人员通过热力图分析发现了一个关键问题,这种缩放策略并非无损的数学游戏,而是实打实的数据有损压缩。


〓 图1. 可视化显示,YaRN 等方法在处理长文本时,实际上将注意力强制限制在了训练长度的窗口内(类似一种软截断),导致模型无法有效检索到窗口外的远端信息。


除了看不远,更严重的问题是看错。


〓 图2. 该图直观展示了 RoPE Scaling 对语义理解的副作用。


在 NIAH 测试中,当使用 YaRN 扩展上下文时,原本负责捕捉特定语义(如 Key-Value 对)的注意力头(Semantic Head)出现了显著的权重偏移(Attention Mass Shift)。


位置编码的强行缩放干扰了模型对内容的语义匹配,导致模型指鹿为马。


2、DroPE


论文标题:

Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings

论文链接:

https://arxiv.org/pdf/2512.12167

代码链接:

https://github.com/SakanaAI/DroPE


针对 RoPE 在外推时的局限性,Sakana AI 提出了一个反直觉的假设:位置编码可能只在训练阶段是必要的,而在推理阶段处理长文本时,它反而是一种阻碍。


这被称为脚手架理论(Scaffolding),就像建造大楼时必须搭建脚手架一样,位置编码在预训练初期为模型提供了必要的归纳偏置,帮助模型理解序列顺序并加速收敛。


但当“大楼”(模型能力)建成后,继续保留脚手架(位置编码)反而会遮挡视线(限制外推能力)。


1. 为什么不能直接去掉 PE?


论文首先验证了完全不使用位置编码(NoPE)的可行性。通过分析 Attention Positional Bias (APB):



实验数据显示,在初始化阶段,如果缺乏显式位置编码,Attention 矩阵的梯度范数极小,导致模型难以捕捉序列的因果结构,训练收敛极其困难。


因此,预训练阶段必须保留 RoPE。


2. 推理时的移除与再校准


DroPE (Dropping Positional Embeddings) 的具体方案十分简洁:


1. 正常使用 RoPE 完成预训练;


2. 在预训练结束后,完全移除所有位置编码;


3. 使用原始上下文窗口(如 4K)的数据进行极短的再校准训练,让模型适应没有位置编码的推理模式。


3. 实验效果


实验结果表明,经过 DroPE 处理的模型,无需在长文本数据上进行微调,即可实现对超长文本的泛化。


〓 图3. 在 2 倍上下文长度(8K)的 Multi-Query NIAH(大海捞针)任务中,RoPE-Base 的准确率大幅下降至 0% 附近,而 DroPE 保持了近乎 100% 的检索准确率。


下表的数据进一步量化了这种差异,在难度更高的 Multi-Key 检索任务中,RoPE+YaRN 的准确率仅为 0.5%,而 DroPE 达到了 41.6%

‘’‘’

〓 表1. DroPE 与 RoPE 变体在 2 倍长文外推下的性能对比。


这表明,当移除位置编码的干扰后,Transformer 能够更纯粹地依赖语义相关性进行检索,从而释放了被压抑的长距离捕捉能力。


3、REPO

论文标题:

REPO: Language Models with Context Re-Positioning

论文链接:

https://arxiv.org/pdf/2512.14391

代码链接:

https://github.com/SakanaAI/repo


DroPE 选择了“做减法”来解决外推问题,REPO 则试图“做加法”——重构位置感知。


Sakana AI 团队在这篇论文中提出了一个核心质疑,为什么 Token 的位置索引必须是 0, 1, 2, 3 这样的固定整数?


1. 认知负荷理论的引入


论文引入了认知科学中的认知负荷理论(Cognitive Load Theory)。作者认为,在处理自然语言时,许多虚词、填充词并不承载关键信息。


强制给这些无关 Token 分配线性增长的位置索引,实际上增加了模型的无关认知负荷。


2. 内容感知的位置生成模块


REPO 引入了一个轻量级的可微分模块  ,它不再依赖预定义的整数序列,而是根据 Token 的隐藏状态动态生成位置值。


计算公式如下:


这里,  是当前 Token 的表示,经过门控机制处理后,映射为一个标量位置 


随后,这个动态生成的   被代入 RoPE 公式中,替代原本的整数索引 



此时,注意力机制中的相对距离   变成了一个基于语义内容的动态变量。


3. 可视化:非线性的位置分布


REPO 训练后的位置分布呈现出了非常有趣的特性。


〓 图4. 纵轴为 REPO 分配的动态位置,横轴为原始的线性位置。可以看到,分配的位置并非一条直线,而是呈现出明显的波动。模型学会了根据内容调整 Token 的逻辑位置,部分标点符号甚至被赋予了负值或相同的数值,实现了对无效信息的折叠。


在综合能力的评估上,REPO 展现出了极强的针对性。


〓 图5. 雷达图对比了 REPO 与 RoPE、NoPE 等基准模型在不同任务上的表现。


可以看出,REPO 在噪声上下文(Noisy)、结构化数据(Structured)和长上下文(Long)三个维度上全面领先,而在通用短文(Short)任务上保持了与 RoPE 持平的性能。


4、FwPKM


论文标题:

Fast-weight Product Key Memory

论文链接:

https://arxiv.org/pdf/2601.00671


前两篇论文主要针对 Attention 机制内部的位置感知进行优化,而第三篇论文 FwPKM 则试图解决 Transformer 架构层面的一个根本性短板,它缺一个外部记忆模块——既要能实时读写,容量还得可扩展。


1. 从静态 PKM 到动态 Fast Weights


传统的 Product Key Memory (PKM) 利用键值对的大规模检索来扩展模型容量,但它通常是慢权重(Slow Weights),即只在训练阶段更新,推理阶段是冻结的。


Sakana AI 提出的 FwPKM 将其改造为快权重(Fast Weights)系统。其核心创新在于:在推理阶段,模型会根据当前的输入数据,实时更新记忆模块的参数。


〓 图6. FwPKM 架构示意图。


2. 基于梯度的实时写入


FwPKM 利用局部的重建误差作为信号,在前向传播的过程中执行一步或多步梯度下降。


具体的参数更新规则如下:



当模型阅读一段新文本时,它不仅仅是在计算 Attention,更是在将这段信息通过梯度更新直接写入到 FwPKM 的 Value 矩阵(Fast Weights)中,同时保持 Key 矩阵作为稳定的寻址基准。


为了防止记忆坍塌(即所有 Query 都指向同一个 Key),FwPKM 引入了最大化边缘熵的 Addressing Loss:



3. Iterative Reading:复读提升记忆质量


由于记忆是在推理时动态写入的,FwPKM 验证了一个类似人类认知的现象:复习(Iterative Reading)能显著提升记忆效果。


〓 图7. 在 128K 长度的 NIAH 测试中,单次阅读(1-iter)的模型表现一般,但一旦开启 2-iter(读两遍)或 3-iter,准确率出现质的飞跃,达到 SOTA 水平。这证实了通过多次 Test-Time Training,模型能更牢固地掌握长下文信息。



最后,我们可以通过下表清晰地看到 FwPKM 在记忆机制上的独特生态位,它是唯一同时具备大存储容量且支持推理时记忆的架构方案。


〓 表2. FwPKM 与标准 Attention 及传统 PKM 的特性对比


5、总结与展望


这三项工作并非孤立的优化,而是体现了一种明确的技术转向,从预训练的静态拟合,走向推理时的动态适应。


DroPE 证明了对于长文推理,移除人工设计的静态位置约束,反而能释放模型捕捉深层语义的能力。


REPO 提出位置本身不应是固定的,而应根据内容实时生成,以降低模型的认知负荷。


FwPKM 则进一步引入了 Test-Time Training,让记忆模块在推理过程中具备了实时更新与扩展的能力。


这种架构层面的探索表明,解决长文本难题,除了依赖硬件堆叠上下文长度外,更本质的解法或许在于赋予模型在推理阶段实时调整自身状态的能力。


这为下一代大模型的设计,提供了一个比单纯扩大显存更具效率的演进方向。

参考文献

[1] Gelberg, Y., Eguchi, K., Akiba, T., & Cetin, E. (2025). Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings. arXiv preprint arXiv:2512.12167.

[2] Li, H., Zhao, T., & Sproat, R. (2025). REPO: Language Models with Context Re-Positioning. arXiv preprint arXiv:2512.14391.

[3] Zhao, T., & Jones, L. (2026). Fast-weight Product Key Memory. arXiv preprint arXiv:2601.00671.


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得 FwPKM 的启示在于,未来的大模型应该更加注重个性化和自适应性。传统的预训练模型,本质上是“一刀切”的,所有用户都使用同一个模型。而 FwPKM 允许模型在推理时根据用户的具体需求和数据进行调整,从而提供更加个性化的服务。这对于一些对精度和效率要求较高的应用场景,例如医疗诊断、金融风控等,具有重要的意义。当然,这也对模型的安全性和隐私保护提出了更高的要求。

从认知科学的角度来看,REPO 试图模拟人类大脑处理信息的非线性方式。我们并非按照严格的顺序来理解事物,而是会根据内容的关联性和重要性来调整我们的注意力。这种动态的位置表示方式,有可能提高模型对文本的理解和概括能力。但同时也可能存在过拟合的风险,特别是当训练数据不足时,模型可能会过度依赖内容来生成位置信息,从而降低了泛化能力。此外,这种非线性的位置表示方式,可能会使模型更难解释和调试。

这个问题涉及到模型如何学习和表示序列信息的核心。我的理解是,DroPE 并非完全放弃了序列信息,而是在 RoPE 已经提供了足够的预训练知识后,转而更多地依赖注意力机制来动态地捕捉 token 之间的关系。可以类比人类学习,一开始我们需要死记硬背一些规则(类似位置编码),但熟练之后,我们更多的是通过理解内容本身来推断上下文关系。至于是否能完全替代位置信息,我觉得这取决于模型的规模、训练数据和任务的复杂度。在某些特定任务中,纯粹的语义相关性可能就足够了,但在其他任务中,可能还需要一些隐式的位置信息。

FwPKM 的 Test-Time Training 实际上是引入了一种元学习(Meta-Learning)的思想。模型不仅仅是在学习如何完成特定的任务,更是在学习如何快速适应新的任务和环境。这种能力对于大模型来说至关重要,因为它们需要处理各种各样的任务和数据。当然,Test-Time Training 也面临着一些挑战,例如如何保证学习的稳定性和效率,以及如何避免灾难性遗忘等。

FwPKM 这个 Test-Time Training 的思路,感觉有点像“学以致用”啊!以前我们都觉得模型训练好了就固定下来了,推理就是个“死”过程。但 FwPKM 告诉我们,模型其实也可以在推理的时候继续学习,根据遇到的新情况来调整自己。这对于大模型的未来发展来说,绝对是个重要的启示。以后的大模型,可能不仅仅是“知识库”,更像是一个能够不断进化的“智能体”。

我个人觉得,DroPE 的有效性可能与 Transformer 架构的自注意力机制密切相关。自注意力机制允许模型在处理每个 token 时,都能够关注到序列中的所有其他 token,并根据它们之间的相关性来调整权重。这种机制本身就能够捕捉到序列中的一些相对位置关系。此外,即使移除了显式的位置编码,模型可能仍然会学习到一些隐式的位置信息,例如通过不同 token 之间的语义关系来推断它们在序列中的相对位置。当然,这需要大量的实验和分析来验证。

我看到的潜在好处是,也许可以更好地处理长文本中的信息衰减问题。在传统的 Transformer 中,随着文本长度的增加,模型对早期 token 的注意力可能会逐渐减弱。而 REPO 通过动态调整位置值,有可能让模型更加关注重要的信息,从而缓解信息衰减的问题。至于风险,我觉得最大的挑战在于如何设计一个合适的门控机制,既能够有效地根据内容生成位置值,又不会引入过多的噪声和偏差。

我觉得这个问题挺有意思的。DroPE 移除位置编码,乍一听好像模型就不知道谁先谁后了。但仔细想想,语言本身就包含了很多顺序信息,比如语法结构、因果关系等等。可能模型之前太依赖位置编码这个“拐杖”了,反而忽略了对语义本身的挖掘。现在把拐杖扔掉,反而能逼着它更好地理解语义关系,进而推断出正确的语序。不过,完全不依赖位置信息可能也不现实,感觉还是需要一些其他的机制来辅助,比如注意力机制中的一些权重偏置。