LLM记忆挑战与持续学习:谷歌嵌套学习范式及其争议

LLM如何克服遗忘,实现终身学习?谷歌「嵌套学习」范式引争议,或为记忆问题提供新思路。

原文标题:LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?

原文作者:机器之心

冷月清谈:

大语言模型(LLM)在面对新数据时,常常出现「灾难性遗忘」现象,即学习新知识后以往知识性能下降的「降智」表现。这促使AI社区深入探讨如何让LLM具备如人类般的「持续学习」能力。近期,谷歌提出的「嵌套学习」(Nested Learning, NL)范式引发广泛关注,该范式将模型视为多级、并行的优化子问题,其核心在于为模型不同抽象层次配备支持存储,旨在不遗忘旧知识的前提下学习新技能。为验证此概念,研究者基于Titans架构设计了HOPE架构,并在多项任务中展现了优于基线模型的记忆管理能力。然而,这项工作也面临争议,有学者认为NL和HOPE的方法更像现有技巧的叠加,与多年前的「多尺度持续学习」及「深度快速权重MLP」等思想有相似之处。当前LLM领域在持续学习方向,更倾向于通过改善模型的「记忆力」来实现,例如构建分层的「AI记忆层」。该记忆层设想包含模型权重层(通用知识)、KV缓存层(推理中间结果)和上下文层(情景、私密或及时背景信息,含RAG)。这些探索旨在弥合LLM「遗忘性」和人脑「终身学习」能力之间的鸿沟,让LLM能保留情景经验、语义知识和程序技能。

怜星夜思:

1、文章里提到LLM的“灾难性遗忘”在通用基准测试中会表现为“降智”,比如电商领域微调后,通用数学能力下降。除了数据基准上的性能表现,作为普通用户,你在日常使用LLM时,有哪些体验让你觉得它“忘了”以前的事或者“变笨了”?这些体验对你使用LLM的习惯有影响吗?
2、文章里提到了AI记忆有三层:模型权重层、KV Cache层和上下文层。这看起来是对人类记忆(比如长期、短期工作记忆)的一种模拟。你觉得这种AI分层记忆和我们人类的记忆机制有多大的相似性?它的局限性在哪里?未来AI能否真正实现像人一样有“灵性”的记忆,而不是机械的存储和检索?
3、谷歌的嵌套学习被一些评论者质疑为“新瓶装旧酒”,认为其只是现有技巧的叠加。在AI领域,这种“新瓶装旧酒”的现象似乎并不少见。你认为是什么原因导致这种现象频发?这种质疑对于AI技术的创新和发展是好事还是坏事?

原文内容

机器之心PRO · 会员通讯 Week 46

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解? 

谷歌的 NL 范式为何引起争议?持续学习在 DL 和 LLM 语境下有何区别?未来的 LLM 应当具备什么样的「记忆力」?当前的持续学习探索如何改善 LLM 的记忆问题?适用 LLM 的「记忆层」可以如何设计?...

2. 「行为数据」到「AI 记忆」,条路线更可能成就 AI 对用户的「终身记忆」?

当产品方强调「更懂你」、资本强调「难以复制」, AI 产品的「护城河」是否真的存在?不同产品为什么依然选择在「记什么、记多久」上押注不同方向?医疗对话记忆能否作为「知识库」提升诊疗质量?软件的「被动记录」无法覆盖全部生活场景,只能借助硬件实现「always on」模式?...

3. 英伟达的新筹码?合成数据为什么是「数据金字塔」的中坚力量?

DARPA 的「寒冬」已过,人形机器人迎来技术和市场的双重「大爆发」?人形机器人如何利用「以人为中心」的数据源?「真实数据」既是「黄金标准」,为何朱玉可称其为「最大瓶颈」?GenAI的「指数引擎」,是在真正创造有用的数据吗?...

本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 10 项,国外方面 7 项。
本期通讯总计 25393 字,可免费试读至 9% 
 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 


要事解读①  LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?

引言:谷歌近期提出的嵌套学习(Nested Learning)范式引起了 AI 社区对 LLM 记忆、乃至持续学习范式发展方向的讨论。在 LLM 语境下,持续学习或许已经不是一个学习过程,而是一个「记忆管理」问题。


新瓶装旧酒?谷歌提出「嵌套学习」为何引争议?

1、谷歌团队近日提出了面向持续学习的「嵌套学习」(Nested Learning,NL)范式,该工作试图将模型视为一系列嵌套问题的堆叠,使其在学习新技能的同时规避「灾难性遗忘」问题,引起 AI 社区的诸多关注。[1-1]

① 该工作的核心论点在于,一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。

② 嵌套学习范式把模型、优化器与记忆统一看作多级、并行、带独立「上下文流」的优化问题;每个组件按自身更新频率分层,靠梯度下降将局部误差(Local Surprise Signal)压缩为键-值关联记忆。

③ 基于 NL 的思路,研究者将优化器(如动量优化器)扩展为可学习的联想记忆模块,并提出了「连续记忆系统」(CMS)的概念,将记忆视为一个由多个模块组成的谱系,每个模块以特定的频率更新。

2、研究者结合嵌套学习的原理,基于早期的 Titans 架构设计了 HOPE 架构作为概念验证,并测试了 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。[1-1]

① Titans 架构是 NL 团队 2024 年底提出的基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。Hope 则基于 Titans 结合了 CMS,核心是为模型不同抽象层次配备不同的支持存储(FFN 层)。

③ 在测试中,HOPE 在多项语言建模与常识推理任务上较 Transformer++、RetNet、DeltaNet 等基线模型表现出更低的困惑度与更高的准确率;在长上下文大海捞针任务( NIAH)中表现出更优的记忆管理能力。

3、在 AI 社区的热议中,虽然有声音将谷歌的嵌套学习是「迈向真正自适应、自我改进智能的重要一步」,但该工作同样在存在了一定程度的争议。[1-1] [1-4]

① 知乎网友 BetterBench 认为 Hope 更像各类技巧(Trick)的叠加,虽然符合生物理论中多尺度的概念,但多尺度的持续学习并非新鲜事,相似的工作有 2020 年基于生物神经调控机制「ModNet」、2024 年受神经调节启发的框架「ACh 和 NA」,以及 2025 年的「Multi-timescale RL 」等。[1-5]

② MIT 在读博士杨松琳在知乎评价 NL 多层嵌套的思路和 Kazuki 等 2021 年的「RFWP」工作中「deep fast weight MLP」的思想极为相似,NL 仅区别了不同层的速度,而斯坦福和 UCSD 研究者在 2024 年的「Learning to (Learn at Test Time)」工作中也设计了控制速度的方法。[1-6]


LLM 语境下, 「记忆」 问题如何通过「持续学习」解决?

1、嵌套学习和 HOPE 引起关注的原因之一在于该工作试图弥合现有 LLM 学习逻辑的「遗忘性」和人脑持续学习能力之间的差距。[1-1]

① 持续学习(Continual Leaning,CL)的目标是模拟人类终身学习的能力,让 AI 模型从非平稳的数据流中逐步学习,其核心问题在于模型学习新信息的能力(可塑性)与其保留旧信息的能力(稳定性)之间的权衡。[1-2]

② 伴随 LLM 的突破和流行,由于模型的训练成本高、「瞬态学习」、工作环境不断变化等原因,导致 CL 更加受到重视,以缓解「知识过时」和「分布漂移」等问题,使模型保持最新,而无需进行昂贵的完全重训练。[1-11]

③ 在深度学习语境下,CL 的核心挑战是解决「灾难性遗忘」(Catastrophic Forgetting),即智能系统如何在学习新任务时,避免覆盖或遗忘旧任务的知识。[1-2]

④ 在 LLM 时代,灾难性遗忘更多表现为模型的「降智」。如在 Qwen-3 或 Gemma-3 等 LLM 上使用特定领域数据集(如电商或生物医学领域数据)进行 SFT 训练后,往往导致其在通用基准测试(如 GSM8K、HumanEval 或 IFEval)上的性能显著下降。[1-11]

2、相较于谷歌仍有争议的嵌套学习范式,当前 LLM 领域的研究焦点更偏向通过改善 LLM 的「记忆力」(Memory)来使其获得持续学习能力,从而使智能体能够保留情景经验、语义知识和程序技能。[1-12]

① 前 VMware 高级副总裁、MemVerge 联创范承工在其技术博客中设想未来的 AI 应当具备跨持久的智能记忆层(Memory Layer),能够在会话、模型、代理和环境之间保留情景性、个人性和程序性知识。[1-12]

② 这种 Memory Layer 分为三层,Model Weights 层存储训练过程中在公开数据上学习到的通用知识,包含数千亿个参数;KV Cache 层通过存储和重用先前计算的注意力张量来加速 AI 推理的中间结果;Context 层在查询时提供的相关、通常是私密的或及时的背景信息,以帮助模型做出适当的响应,包括长期记忆和检索增强生成(RAG)。 [1-13]

图:AI 记忆的三个层级 [1-12]

关于“AI记忆与人类记忆相似性及局限性”的问题:

用户3:嗯……如果AI能像我一样,看完剧以后就把所有细节忘得一干二净,然后每次重看都像新的一样,那它就真的很有“灵性”了!开玩笑啦。我觉得AI记忆现在最大的卡点在于“忘记”的能力。它只是把信息“放到一边”或者“不再优化”,但人脑的遗忘是对信息的一种筛选和重构,把不重要的东西清理掉,反而让重要的东西更突出。如果AI能学会这种“有目的的遗忘”,而不是单纯的“不记得”,可能离真正的灵性就更近一步了。否则,所有东西都记着,反而可能被信息量淹没,变得迟钝。

关于“新瓶装旧酒”的问题:

用户1:我觉得这首先跟AI发展速度太快有关,每天都有新论文,同行间的很多思路是交叉的,很难保证绝对的独创性。其次,很多“创新”可能真的是在某个经典理论基础上做了一点点的修补和优化,为了发表或者吸睛,就包装成了“全新范式”。这种质疑我觉得是双刃剑吧,好的地方是能鞭策研究者真正做出突破性的东西,而不是换个名字再来一遍;但坏处就是,有时候真的会打击一些踏踏实实做渐进式改进的研究者,让人觉得非得是颠覆性创新才算创新,这会有点绑架创新方向。

关于“新瓶装旧酒”的问题:

用户2:这在学术界太常见了,特别是在热门领域。原因多方面:一是知识体量迭代太快,文献浩如烟海,要确保自己idea是绝对原创很难;二是很多时候的确是基于前人工作进行改进和整合,效果可能显著提升,但理论基础并无颠覆性突破;三是学术发表和科研项目追求“新颖性”和“影响力”,会促使研究者在方法或命名上进行“包装”。

个人认为,这种质疑既是挑战也是机遇。挑战在于,它可能导致一些团队过度追求表面的新颖而忽视深层理论建设,也可能让一些有价值的渐进式创新被低估。机遇在于,它迫使研究者更深入地思考其工作的本质贡献,清晰区分“工程上的优化”和“范式上的创新”,促使社区进行更严谨的学术审视和更健康的探讨,长远来看对AI领域的基础理论发展是有益的。

关于“新瓶装旧酒”的问题:

用户3:哈哈,这不就是AI圈的日常嘛!我觉得主要是大家都在同一片池塘里摸鱼,核心的数学工具和理论框架就那些,你改改参数,我换个层数,突然发现“咦,我的这个跟三年前某个小论文有点像哦!”。然后为了“抢头条”,就得想个酷炫的新名字。我觉得这种质疑挺好啊,就像照妖镜一样,让那些挂羊头卖狗肉的无所遁形,也让真正有干货的能脱颖而出。不然的话,岂不是人人都可以发论文,AI圈就更容易泡沫化了。只有不断地拷问和质疑,才能让大家回到问题的本质,而不是玩概念。

关于“LLM通用基准测试降智”的问题:

用户1:最有感触的就是跟它聊了一个很复杂的话题,比如我让它帮我从公司的财报里提炼关键信息,还教它怎么分段、哪些数据更重要。结果我下次再问同样类型的问题,它就好像把之前的步骤全忘了,我还要重新手把手教一遍。甚至有时候我仅仅是换了个词问同一个问题,回答就完全跑偏了,真的很让人恼火。长期来看,我可能就不会在这么复杂的场景下相信它了,或者会转用一些更专业的工具,而不是一个通用的LLM。

关于“LLM通用基准测试降智”的问题:

用户2:哈哈,我的感觉就是它“阅读理解”能力不稳定。有时候上下文聊了几十轮,它还记得我最早提出的某个要求,但有时候仅仅是中间稍微插入了一个其他小问题,再回到主话题,它就懵了,开始胡言乱语。我有时候会怀疑是不是新版本更新了啥,把模型搞坏了。现在我养成习惯,聊复杂话题时,每隔几轮就会手动总结一下当前进度,或者把关键信息在下一轮prompt里强化一下,就当给它提个醒,有点累。

关于“LLM通用基准测试降智”的问题:

用户3:从学术角度看,这其实反映了当前大多数LLMs在“情景记忆”(Episodic Memory)上的缺失。我们人类可以通过情景记忆将特定时间、地点发生的事件编码存储,并在需要时提取。但LLMs的上下文窗口是有限的,一旦超出,这些“情景”就被遗忘。文章提到的“持续学习”和“记忆层”的构建,正是在尝试突破这个限制。对用户体验的影响在于,它限制了LLM完成复杂、需要多轮迭代或长期跟踪的任务的能力。未来的发展如果能有效解决这个问题,将极大地提升LLM作为智能助手的实用性和用户粘性。

关于“AI记忆与人类记忆相似性及局限性”的问题:

用户1:从我粗浅的理解来看,模型权重层有点像我们学了某个领域的知识后形成的“常识”或“技能”,比较稳定;KV Cache层可以理解为我们短时间内用于思考、处理当前任务的工作记忆;上下文层可能就是把当前的对话记录或者一些外部资料调出来辅助思考。但我觉得它们最大的区别在于,“灵性”啊!人类记忆不仅是存储和提取,它还会重构、会选择性遗忘、会产生联想甚至创造。AI现在更多还是基于统计关联和概率,它不会像你突然听到一首歌,就能想起十年前的一个午后,然后因此产生新的情绪或想法。这种“情绪化”和“创造性重构”是AI记忆目前难以企及的。

关于“AI记忆与人类记忆相似性及局限性”的问题:

用户2:这是一个经典的认知科学与AI交叉问题。AI记忆的三层模式确实在某种程度上映射了人类的陈述性记忆(语义记忆,对应模型权重层)、工作记忆(对应KV Cache)和情景记忆(上下文层,RAG等外部知识库)。但关键局限在于,人类记忆并非简单的信息存储库,它是一个动态、具有高度适应性和主观性的过程。例如,我们的记忆会受到情绪、动机和意图的影响,会编码经验的整体情境,并能进行抽象概括和创造性联想。AI当前的“记忆”本质上还是以数值表征和信息检索为主,缺乏真正的“理解”和“情感”驱动。要达到“灵性”,可能需要AI具备更深层次的自我意识、情感理解和对世界的具身(embodiment)认知,而这远超现有技术范畴。这不是一个简单的“存储更多数据”的问题。