Meta的LCM:用“概念”取代“Token”,开启大模型范式变革?

Meta推出LCM,用“概念”取代“Token”,或将开启大模型范式变革,实现更接近人类思维的抽象推理。

原文标题:No More Next-Token Prediction?

原文作者:机器之心

冷月清谈:

Meta 提出了大型概念模型(LCM),旨在通过概念而非 token 进行学习和推理,挑战了现有大语言模型的 next-token prediction 范式。

LCM 的核心在于其抽象推理能力。与基于 token 的传统 LLM 不同,LCM 直接处理“概念”,即与语言和模态无关的抽象实体,通常对应于句子或等效的语音表达。

LCM 将句子转换为概念序列进行训练,而非 token 序列,这使其能够在更高的抽象层面上进行语言建模。这种方法更接近人类的思维方式,例如在写作或演讲时,人们通常先构思整体框架和核心观点,而非逐字逐句地思考。

LCM 的优势在于其多语言零样本泛化能力超越了同等规模的 LLM,并且在处理长上下文方面更有效率。一些专家认为,LCM 代表了 AI 认知的新范式,并对其与 Meta 其他工作的结合抱有期待,例如 BLT、JEPA 和 Coconut。

然而,LCM 也存在一些局限性,例如训练存在模态竞争风险、计算效率较低、概念粒度不稳定以及缺乏专用的向量空间。

怜星夜思:

1、LCM 中“概念”的粒度如何确定?如何避免概念的歧义性?
2、LCM 如何在多模态任务中应用?与传统的基于 token 的多模态模型相比,LCM 有哪些优势和劣势?
3、LCM 的“next-concept prediction”与传统的“next-token prediction”相比,在计算效率方面有哪些差异?

原文内容

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
Meta 团队在 2024 年 12 月中旬提出了无需 tokenizer 的 BLT 架构,在多模态对齐、融合问题中展现了极大潜力。而同期发布的另一项工作提出的大型概念模型(LCM)同样舍弃了 token,试图粘合符号主义和连接主义,让 AI 直接在语义空间中进行推理和生成,被许多声音认为是大模型范式变革的新起点。

目录

01.从质疑 Transformer 到质疑「Next-token Prediction」?LLM 的「底层逻辑」还能 Hold 多久?

NTP 有什么根本缺陷?LCM 代表了什么样的范式?
02. 不再预测下一个 token 的 LCM 如何学会抽象推理?
Next-Concept Prediction 有何优势?LCM 如何学习 Concept?

03. LCM 可能解锁什么样的未来?

LCM+BLT+JEPA=未来?Latent Space 会是下一个研究热点吗?...

01   从质疑 Transformer 到质疑「Next-token Prediction」?LLM 的「底层逻辑」还能 Hold 多久?

Meta 的研究者在 2024 年 12 月发布了多项工作中探索了模型的潜在空间(Latent Space),试图通过改变潜空间的排列方式,彻底改变模型的思维表征,进而实现更符合人类思维方式的推理。对潜在空间探索的背景部分原由在于,当前所有开源、闭源的 LLM 均缺乏在抽象层面、独立于特定语言或模态的信息处理和生成的显式分层结构。


1、传统 LLM 中,预测下一个 token 的范式得以广泛应用的原因之一在于,其在工程实现上相对容易,也因此在实践中取得了显著的成效。

① 由于计算机只能处理离散的数值表示,因此需要将文本转换为向量进行数学运算,token 则是实现这种转换的最简单直接的方式。

2、Ilya Sutskever 曾在与黄仁勋的对谈中指出,模型预测下一个词时,实际上是理解了文本背后的现实世界过程和情感等信息,形成了「世界模型」。

3、然而,业内对这种用离散的符号系统来捕捉连续且复杂的人类思维的方式的诟病在于,它和人类思维的本质存在冲突,因为人类并不会以 token 的方式进行思考。

① 人类在解决复杂任务或撰写长篇文档时,往往采用分层方法,通常先在高层次规划整体结构,再逐步添加细节。

② 以准备演讲稿为例,人类通常不会准备好每个具体的用词,而是罗列需要在演讲中传达的核心观点和流程。即便进行多次同主题演讲,其中的具体用词、语言均可能不同,但核心观点的逻辑流程保持不变。

③ 以撰写论文为例,人类通常会准备一个整体框架,将文档分为若干章节,然后逐步细化。人们还能在抽象层面上识别和记住长篇文档各部分之间的关联。

4、Meta 的研究者在「LCM」(大型概念模型)工作中提出了让模型从抽象的概念层面进行学习和推理的架构,模型输入和输出均为「concept」而非「token」,并在多语言零试泛化能力上超越了所有同尺寸 LLM,引起业内热议。

Hyperbolic 的 CTO Yuchen Jin 在社交平台评论 LCM 称,他越来越确信 tokenization 会消失,LCM 用「next-concept prediction」取代 LLM 的「next-token prediction」,他的直觉认为 LCM 可能更擅长推理和多模态。

② LCM 同样引发了大量 reddit 网友的热议,认为 LCM 带来的是 AI 认知的新范式,并十分期待 LCM 与 Meta 的 BLT、JEPA、Coconut 等工作相结合带来的化学作用。

表:LLM 与 LCM 的特征对比

特征 传统LLM LCM
抽象层级
(Level of Abstraction)
基于 Token层面工作 基于概念层面工作
输入表征
(Input Representation)
处理为单个 Token(子词) 处理为句子嵌入
输出生成
(Output Generation)
按单词逐字生成文本 按句子逐句生成文本
语言和模态支持
(Language and Modality Support)
通常针对特定语言进行训练 设计用于处理多种语言和模态
训练目标
(Training Objective)
最小化 Token 预测误差 最小化概念预测误差
推理与规划
(Reasoning And Planning)
隐式学习层次化推理 显式层次化推理
零试泛化能力
(Zero-Shot Generalizatin)
表现较弱 表现出色
长上下文处理效率
(Efficiency with Long Contexts)
效率较低 更高效
局限
(Limitation)
在深层次语义理解和多语言泛化方面存在局限。 训练存在模态竞争风险,计算效率较低;概念粒度不稳定;缺少专用的向量空间



02  不再预测下一个 token 的 LCM 如何学会抽象推理?

1、LCM 的核心思路在于尝试在更高层次的抽象层面上进行语言建模,是一种「以概念为中心」的范式。

① LCM 将抽象层次限定为 subword token 和 concept(概念)两个层面。

② 「概念」的定义是与语言和模态无关的抽象实体,代表了流程中更高层次的想法或行为。在实践中通常对应文本文档中的一个句子或等效的语音表述。

③ 换言之,LCM 的思路可以理解为让模型直接学习「概念」,通过转换器把句子还原成一组组概念序列来取代 token 序列,然后进行训练.....


 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

引用一下问题:LCM 如何在多模态任务中应用?我觉得可以将不同模态的数据都转换成概念表示,然后在概念层面上进行融合和推理。这样可以更好地捕捉不同模态之间的语义关联。

关于“next-concept prediction”和“next-token prediction”的计算效率,我觉得最终还是要看具体的实现方式和硬件平台。理论上的分析只能提供一个参考。

是不是可以考虑结合知识图谱来定义和区分概念?知识图谱可以提供更丰富的语义信息,帮助 LCM 更好地理解和处理概念。

感觉LCM 在处理多模态数据时,可能会遇到模态之间概念不对齐的问题。比如图像中的一个物体和文本中的一个词语,它们的概念如何对应?

next-concept prediction 的计算量应该更大吧?毕竟概念的表示比 token 更复杂,处理起来也更费劲。不过文章里说 LCM 处理长上下文更有效率,这又有点矛盾。

关于LCM中“概念”的粒度问题,我感觉文章里提到的“通常对应文本文档中的一个句子”这个说法有点模糊。句子长度可长可短,这会导致概念粒度不一致吧?是不是需要更精确的定义或者更细致的划分方法?

我觉得概念的歧义性是个很大的挑战。比如“苹果”这个概念,可以指水果,也可以指公司。LCM 如何区分这些不同的含义,避免在推理过程中出现错误?

LCM 的优势可能在于其更强的泛化能力,因为它处理的是抽象的概念,而不是具体的 token。但劣势可能在于概念的表示和学习更加困难。

我觉得需要考虑训练和推理两个阶段的计算效率。训练阶段,LCM 可能需要更大的计算量来学习概念表示。但推理阶段,由于概念的粒度更大,LCM 的效率可能会更高。