LLM如何克服遗忘,实现终身学习?谷歌「嵌套学习」范式引争议,或为记忆问题提供新思路。
原文标题:LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章里提到了AI记忆有三层:模型权重层、KV Cache层和上下文层。这看起来是对人类记忆(比如长期、短期工作记忆)的一种模拟。你觉得这种AI分层记忆和我们人类的记忆机制有多大的相似性?它的局限性在哪里?未来AI能否真正实现像人一样有“灵性”的记忆,而不是机械的存储和检索?
3、谷歌的嵌套学习被一些评论者质疑为“新瓶装旧酒”,认为其只是现有技巧的叠加。在AI领域,这种“新瓶装旧酒”的现象似乎并不少见。你认为是什么原因导致这种现象频发?这种质疑对于AI技术的创新和发展是好事还是坏事?
原文内容
机器之心PRO · 会员通讯 Week 46
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
谷歌的 NL 范式为何引起争议?持续学习在 DL 和 LLM 语境下有何区别?未来的 LLM 应当具备什么样的「记忆力」?当前的持续学习探索如何改善 LLM 的记忆问题?适用 LLM 的「记忆层」可以如何设计?...
当产品方强调「更懂你」、资本强调「难以复制」, AI 产品的「护城河」是否真的存在?不同产品为什么依然选择在「记什么、记多久」上押注不同方向?医疗对话记忆能否作为「知识库」提升诊疗质量?软件的「被动记录」无法覆盖全部生活场景,只能借助硬件实现「always on」模式?...
3. 英伟达的新筹码?合成数据为什么是「数据金字塔」的中坚力量?
DARPA 的「寒冬」已过,人形机器人迎来技术和市场的双重「大爆发」?人形机器人如何利用「以人为中心」的数据源?「真实数据」既是「黄金标准」,为何朱玉可称其为「最大瓶颈」?GenAI的「指数引擎」,是在真正创造有用的数据吗?...
要事解读① LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
引言:谷歌近期提出的嵌套学习(Nested Learning)范式引起了 AI 社区对 LLM 记忆、乃至持续学习范式发展方向的讨论。在 LLM 语境下,持续学习或许已经不是一个学习过程,而是一个「记忆管理」问题。
新瓶装旧酒?谷歌提出「嵌套学习」为何引争议?
1、谷歌团队近日提出了面向持续学习的「嵌套学习」(Nested Learning,NL)范式,该工作试图将模型视为一系列嵌套问题的堆叠,使其在学习新技能的同时规避「灾难性遗忘」问题,引起 AI 社区的诸多关注。[1-1]
① 该工作的核心论点在于,一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。
② 嵌套学习范式把模型、优化器与记忆统一看作多级、并行、带独立「上下文流」的优化问题;每个组件按自身更新频率分层,靠梯度下降将局部误差(Local Surprise Signal)压缩为键-值关联记忆。
③ 基于 NL 的思路,研究者将优化器(如动量优化器)扩展为可学习的联想记忆模块,并提出了「连续记忆系统」(CMS)的概念,将记忆视为一个由多个模块组成的谱系,每个模块以特定的频率更新。
2、研究者结合嵌套学习的原理,基于早期的 Titans 架构设计了 HOPE 架构作为概念验证,并测试了 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。[1-1]
① Titans 架构是 NL 团队 2024 年底提出的基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。Hope 则基于 Titans 结合了 CMS,核心是为模型不同抽象层次配备不同的支持存储(FFN 层)。
③ 在测试中,HOPE 在多项语言建模与常识推理任务上较 Transformer++、RetNet、DeltaNet 等基线模型表现出更低的困惑度与更高的准确率;在长上下文大海捞针任务( NIAH)中表现出更优的记忆管理能力。
3、在 AI 社区的热议中,虽然有声音将谷歌的嵌套学习是「迈向真正自适应、自我改进智能的重要一步」,但该工作同样在存在了一定程度的争议。[1-1] [1-4]
① 知乎网友 BetterBench 认为 Hope 更像各类技巧(Trick)的叠加,虽然符合生物理论中多尺度的概念,但多尺度的持续学习并非新鲜事,相似的工作有 2020 年基于生物神经调控机制「ModNet」、2024 年受神经调节启发的框架「ACh 和 NA」,以及 2025 年的「Multi-timescale RL 」等。[1-5]
② MIT 在读博士杨松琳在知乎评价 NL 多层嵌套的思路和 Kazuki 等 2021 年的「RFWP」工作中「deep fast weight MLP」的思想极为相似,NL 仅区别了不同层的速度,而斯坦福和 UCSD 研究者在 2024 年的「Learning to (Learn at Test Time)」工作中也设计了控制速度的方法。[1-6]
LLM 语境下, 「记忆」 问题如何通过「持续学习」解决?
1、嵌套学习和 HOPE 引起关注的原因之一在于该工作试图弥合现有 LLM 学习逻辑的「遗忘性」和人脑持续学习能力之间的差距。[1-1]
① 持续学习(Continual Leaning,CL)的目标是模拟人类终身学习的能力,让 AI 模型从非平稳的数据流中逐步学习,其核心问题在于模型学习新信息的能力(可塑性)与其保留旧信息的能力(稳定性)之间的权衡。[1-2]
② 伴随 LLM 的突破和流行,由于模型的训练成本高、「瞬态学习」、工作环境不断变化等原因,导致 CL 更加受到重视,以缓解「知识过时」和「分布漂移」等问题,使模型保持最新,而无需进行昂贵的完全重训练。[1-11]
③ 在深度学习语境下,CL 的核心挑战是解决「灾难性遗忘」(Catastrophic Forgetting),即智能系统如何在学习新任务时,避免覆盖或遗忘旧任务的知识。[1-2]
④ 在 LLM 时代,灾难性遗忘更多表现为模型的「降智」。如在 Qwen-3 或 Gemma-3 等 LLM 上使用特定领域数据集(如电商或生物医学领域数据)进行 SFT 训练后,往往导致其在通用基准测试(如 GSM8K、HumanEval 或 IFEval)上的性能显著下降。[1-11]
2、相较于谷歌仍有争议的嵌套学习范式,当前 LLM 领域的研究焦点更偏向通过改善 LLM 的「记忆力」(Memory)来使其获得持续学习能力,从而使智能体能够保留情景经验、语义知识和程序技能。[1-12]
① 前 VMware 高级副总裁、MemVerge 联创范承工在其技术博客中设想未来的 AI 应当具备跨持久的智能记忆层(Memory Layer),能够在会话、模型、代理和环境之间保留情景性、个人性和程序性知识。[1-12]
② 这种 Memory Layer 分为三层,Model Weights 层存储训练过程中在公开数据上学习到的通用知识,包含数千亿个参数;KV Cache 层通过存储和重用先前计算的注意力张量来加速 AI 推理的中间结果;Context 层在查询时提供的相关、通常是私密的或及时的背景信息,以帮助模型做出适当的响应,包括长期记忆和检索增强生成(RAG)。 [1-13]
图:AI 记忆的三个层级 [1-12]
