Meta新型记忆层显著提升LLM性能,1280亿参数规模下超越更大规模密集模型和MoE模型。
原文标题:Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE
原文作者:机器之心
冷月清谈:
该记忆层使用可训练的键值查找机制,类似于注意力机制,但键和值是可训练的参数。研究人员通过并行化嵌入查找和聚合、共享记忆参数池以及引入输入相关门控等技术对记忆层进行了扩展和优化。
实验结果表明,在各种基准测试中,具有记忆层的模型在性能上优于参数规模更大的密集模型以及计算和参数规模相当的专家混合(MoE)模型。例如,一个 13 亿参数且包含 6400 万键(1280 亿记忆参数)的记忆模型的性能接近于 70 亿参数的 Llama2 模型,而后者的计算量是前者的 10 倍以上。这表明,记忆层为 LLM 的扩展提供了一条高效且高性能的途径。
怜星夜思:
2、文章提到了并行记忆、共享记忆等技术,这些技术是如何解决记忆层扩展带来的挑战的?有没有其他潜在的优化方向?
3、记忆层在LLM扩展中展现了巨大的潜力,但它是否会取代传统的参数扩展方式?未来LLM的架构会如何发展?
原文内容
机器之心报道
编辑:小舟、陈陈
预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网络原则上(给定足够的规模)可以学习任何函数,但使用联想记忆(associative memory)会更高效。
记忆层(memory layers)使用可训练的键值查找机制向模型添加额外的参数,而不会增加 FLOP。从概念上讲,稀疏激活的记忆层补充了计算量大的密集前馈层,提供了廉价地存储和检索信息的专用容量。
最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。
-
论文标题:Memory Layers at Scale
-
论文地址:https://arxiv.org/pdf/2412.09764
-
项目地址:https://github.com/facebookresearch/memory
-
首先,记忆层中的键和值是可训练参数,而不是激活参数;
-
其次,记忆层在键和值的数量方面通常具有更大的规模,因此稀疏查询和更新是必需的。