DeepSeek Engram:为大模型引入条件记忆,突破稀疏性新维度

DeepSeek 发布 Engram,为大模型引入条件记忆,显著提升知识和推理能力,并有效降低计算成本。

原文标题:DeepSeek 发布全新论文,一文读懂 Engram!

原文作者:图灵编辑部

冷月清谈:

DeepSeek 团队发布 Engram 模块,为大模型架构开辟了一个全新的稀疏性维度——条件记忆。Engram 旨在通过常数级快速查找,高效利用静态知识,解决大模型重复计算静态知识的效率难题。研究发现,在 MoE 模型中合理分配参数预算给 Engram,可实现性能的显著提升,最佳比例约为 20%-25%。基于此,团队训练了 Engram-27B 模型,在知识、推理、代码和数学等多个任务上均表现出优于 MoE-27B 的性能。Engram 的优势不仅体现在性能上,还展现出良好的工程落地特性,例如通过确定性寻址实现异步预取,突破显存瓶颈。论文指出,条件记忆将成为下一代稀疏模型中不可或缺的核心建模组件,DeepSeek 计划在 2 月发布的新一代旗舰 AI 模型 DeepSeek V4 将会应用这项技术。

怜星夜思:

1、Engram 模块通过引入条件记忆来优化大模型,那么这种"记忆"与人类的记忆有什么异同?你认为未来 AI 模型在"记忆"方面会如何发展?
2、论文中提到,Engram 承担了早期层对静态模式的重建工作,从而提升了模型的"有效深度"。你如何理解"有效深度"这个概念?它对大模型的性能有何影响?
3、DeepSeek 计划在 V4 模型中使用 Engram 技术,你认为这项技术会对 V4 模型的哪些方面带来提升?你对 DeepSeek V4 有哪些期待?

原文内容

在大模型的发展历程中,一个长期困扰研究者效率难题是:模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。

近日,DeepSeek 团队发布重磅论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models由梁文锋等研究者署名,宣布为大模型架构开辟了一个全新的稀疏维度条件记忆(Conditional Memory)



为什么 MOE 还不够 

长期以来,MoE(专家混合模型) 是大模型稀疏性的事实标准。它通过条件计算平衡了模型容量与计算成本。但 DeepSeek 指出,语言信号具有高度的异质性:

  • 动态推理:需要深度的神经计算。

  • 静态知识:如命名实体、公式,本应通过查找直接获取。

目前的 Transformer 缺乏原生的查找原语,被迫用昂贵的算力去运行时重建静态表,这极大地浪费了序列深度。

为此,DeepSeek 推出了 Engram 模块——一个将经典 N-gram 嵌入现代化,实现 O(1) 常数级快速查找的高效知识外挂。

论文四个重点划线:


稀疏分配:发现 U 形扩展规律

研究团队为量化 Engram 与 MoE 之间的协同,论文提出稀疏性的分配问题。这也是该论文的核心。并通过大量实验发现了一个显著的 U 形扩展规律(U-shaped scaling law)

  • 权衡关系:纯 MoE 架构缺乏专用内存,迫使模型通过计算低效重构静态模式;而过度分配给记忆则会损害模型的动态推理能力 

  • 最佳平衡点:当大约 20%-25% 的稀疏参数预算分配给 Engram 时,模型性能达到峰值。例如在 10B 参数规模下,验证损失从 1.7248 降至 1.7109。

基于前述容量分配规律,研究团队训练了 Engram-27B 模型(总参数量 26.7B,激活参数 3.8B)。在该模型中,原 MoE-27B 的专家数量从 72 个减少到 55 个,同时将释放出的参数重新分配到 5.7B 参数的 Engram 内存中,使容量分配比例达到  ρ = 74.3 % \rho = 74.3\%ρ=74.3%。

经过预训练后,Engram-27B 在保持与 MoE-27B 相同参数规模和 FLOPs 的前提下,在知识与推理、通用推理、代码以及数学等多个任务上均表现出明显提升。


实证验证:全维度性能飞跃 

在严格的等参数(iso-parameter)和等浮点运算量(iso-FLOPs)约束下,Engram-27B 模型在知识、推理、代码和数学等领域均表现出相较 MoE 基线的一致性提升。

预训练性能比较:Dense 模型、MoE 模型与 Engram 模型(来源:论文)

  • 知识储备:MMLU 提升 3.4 分,CMMLU 提升 4.0 分 

  • 通用推理:最令人惊喜的是,复杂推理(BBH)提升了 5.0 分,科学推理(ARC-C)提升 3.7 分。

  • 代码与数学:HumanEval (+3.0) 和 MATH (+2.4) 同样显著提升。

  • 长文本能力:在“大海捞针”(Multi-Query NIAH)测试中,准确率从 84.2% 飙升至 97.0%。


机制分析:释放有效深度

为什么记性好能让逻辑更强?通过 LogitLens 和 CKA 分析发现 Engram 接管了早期层对静态模式的重建工作。 当底层不再需要浪费算力去死记硬背时,模型保留了更多的 Effective Depth(有效深度) 来处理深层语义,让大脑全身心投入高阶推导。
  • 底层减负:Engram 承担了早期层对静态模式(如固定搭配、实体名)的重建工作 

  • 提升有效深度(Effective Depth):当底层不再浪费算力去死记硬背时,模型实际上获得了更深的表示能力来处理深层语义。

  • 解放注意力:通过将局部依赖交给 Engram 处理,模型释放了宝贵的注意力容量来聚焦全局上下文。


系统效率:突破显存天花板

在工程落地层面,Engram 展现了极致的基础设施感知特性 

  • 确定性寻址:由于检索索引仅取决于输入序列,系统可以在计算当前层时,异步预取下一层所需的记忆向量 

  • 打破显存瓶颈:DeepSeek 演示了将高达 100B 参数的嵌入表卸载到廉价的 CPU 内存中。

  • 极低开销:这种跨硬件搬运带来的额外推理延迟低于 3%。这为未来挂载 TB 级别的海量记忆库铺平了道路。

值得关注的是,论文最后明确指出,条件记忆将成为下一代稀疏模型中不可或缺的核心建模组件。

据外媒报道,DeepSeek 计划于 2 月发布其新一代旗舰 AI 模型 DeepSeek V4。并且 V4 在多个关键指标上表现优异,与现有主流模型相比展现出一定优势,因此让人不禁拭目以待这款新旗舰的正式亮相。

参考论文:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf


DeepSeek 图书推荐

《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

《图解DeepSeek技术》

[沙特] 杰伊·阿拉马尔, [荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 孟佳颖 | 译

大模型领域知名专家 Jay & Maarten 作品。近 120 幅全彩插图通俗解读,不枯燥。从推理模型原理到 DeepSeek-R1 训练。

我猜测 Engram 会让 DeepSeek V4 在知识密集型任务上表现更好,比如问答、信息检索等。我也希望 V4 能够更加高效,在相同的硬件条件下运行速度更快,成本更低。当然,最重要的是 V4 的推理能力要更上一层楼,能够更好地理解人类的意图,并且给出更加准确和可靠的回答。

有效深度就好像一条生产线,如果前面的工序一直在重复劳动,那后面的高级工序就没法展开了。Engram 相当于优化了前面的工序,让整个生产线能够更加高效地运转,产出更好的产品(模型性能)。

如果 Engram 真的能突破显存瓶颈,那 V4 就能用上更大的知识库,变得更加博学。我期待 V4 能够像一个真正的“AI 专家”,可以帮助我们解决各种各样的问题,甚至是进行科学研究!

有效深度可以从模型的梯度传播角度理解。如果浅层网络承担了过多的简单任务,可能会导致梯度消失或爆炸,从而影响深层网络的训练。Engram 的引入可以缓解这个问题,让梯度能够更有效地传递到深层网络,从而提升模型的学习能力。

这个问题很有意思!Engram 的“记忆”更像是对知识的索引和快速检索,类似于我们查阅百科全书。而人类的记忆则包含更多情感、联想和情境信息,更加复杂和动态。未来 AI 模型的记忆可能会朝着更高效、更灵活的方向发展,例如,可以将知识图谱、外部数据库等多种形式的知识整合起来,并根据不同的任务和场景进行动态调整。

我感觉 Engram 就像给大模型加了个“快速启动”按钮,直接跳过一些重复计算的步骤。人类记忆可没这么高效,经常需要回忆半天。未来的 AI 估计能把所有知识都塞进“记忆”里,变成一个无所不知的“超级大脑”,想想有点可怕!

我更关注 DeepSeek V4 在长文本处理方面的表现。如果 Engram 能够有效提升长文本的记忆能力,那么 V4 在阅读理解、文档生成等任务上应该会有显著的提升。希望 DeepSeek 能够给我们带来惊喜!

“有效深度”我认为可以理解为模型真正用于学习和推理的层数。如果底层都在忙着处理简单的记忆任务,那么留给高层进行复杂推理的空间就变小了。Engram 通过分担底层的工作,让模型能够“更专注”地学习更深层次的知识,从而提升性能。

从信息论的角度来看,Engram 实现了对静态知识的无损压缩和快速解压,这与人脑通过神经元连接存储记忆的方式有着本质区别。但我认为未来的 AI 模型会更倾向于模拟人脑的记忆机制,建立更加复杂的记忆网络,从而实现更高级的认知功能。