Meta推出LCM,用“概念”取代“Token”,或将开启大模型范式变革,实现更接近人类思维的抽象推理。
原文标题:No More Next-Token Prediction?
原文作者:机器之心
冷月清谈:
LCM 的核心在于其抽象推理能力。与基于 token 的传统 LLM 不同,LCM 直接处理“概念”,即与语言和模态无关的抽象实体,通常对应于句子或等效的语音表达。
LCM 将句子转换为概念序列进行训练,而非 token 序列,这使其能够在更高的抽象层面上进行语言建模。这种方法更接近人类的思维方式,例如在写作或演讲时,人们通常先构思整体框架和核心观点,而非逐字逐句地思考。
LCM 的优势在于其多语言零样本泛化能力超越了同等规模的 LLM,并且在处理长上下文方面更有效率。一些专家认为,LCM 代表了 AI 认知的新范式,并对其与 Meta 其他工作的结合抱有期待,例如 BLT、JEPA 和 Coconut。
然而,LCM 也存在一些局限性,例如训练存在模态竞争风险、计算效率较低、概念粒度不稳定以及缺乏专用的向量空间。
怜星夜思:
2、LCM 如何在多模态任务中应用?与传统的基于 token 的多模态模型相比,LCM 有哪些优势和劣势?
3、LCM 的“next-concept prediction”与传统的“next-token prediction”相比,在计算效率方面有哪些差异?
原文内容
本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
目录
01.从质疑 Transformer 到质疑「Next-token Prediction」?LLM 的「底层逻辑」还能 Hold 多久?
03. LCM 可能解锁什么样的未来?
LCM+BLT+JEPA=未来?Latent Space 会是下一个研究热点吗?...
Meta 的研究者在 2024 年 12 月发布了多项工作中探索了模型的潜在空间(Latent Space),试图通过改变潜空间的排列方式,彻底改变模型的思维表征,进而实现更符合人类思维方式的推理。对潜在空间探索的背景部分原由在于,当前所有开源、闭源的 LLM 均缺乏在抽象层面、独立于特定语言或模态的信息处理和生成的显式分层结构。
1、传统 LLM 中,预测下一个 token 的范式得以广泛应用的原因之一在于,其在工程实现上相对容易,也因此在实践中取得了显著的成效。
① 由于计算机只能处理离散的数值表示,因此需要将文本转换为向量进行数学运算,token 则是实现这种转换的最简单直接的方式。
2、Ilya Sutskever 曾在与黄仁勋的对谈中指出,模型预测下一个词时,实际上是理解了文本背后的现实世界过程和情感等信息,形成了「世界模型」。
3、然而,业内对这种用离散的符号系统来捕捉连续且复杂的人类思维的方式的诟病在于,它和人类思维的本质存在冲突,因为人类并不会以 token 的方式进行思考。
① 人类在解决复杂任务或撰写长篇文档时,往往采用分层方法,通常先在高层次规划整体结构,再逐步添加细节。
② 以准备演讲稿为例,人类通常不会准备好每个具体的用词,而是罗列需要在演讲中传达的核心观点和流程。即便进行多次同主题演讲,其中的具体用词、语言均可能不同,但核心观点的逻辑流程保持不变。
③ 以撰写论文为例,人类通常会准备一个整体框架,将文档分为若干章节,然后逐步细化。人们还能在抽象层面上识别和记住长篇文档各部分之间的关联。
4、Meta 的研究者在「LCM」(大型概念模型)工作中提出了让模型从抽象的概念层面进行学习和推理的架构,模型输入和输出均为「concept」而非「token」,并在多语言零试泛化能力上超越了所有同尺寸 LLM,引起业内热议。
① Hyperbolic 的 CTO Yuchen Jin 在社交平台评论 LCM 称,他越来越确信 tokenization 会消失,LCM 用「next-concept prediction」取代 LLM 的「next-token prediction」,他的直觉认为 LCM 可能更擅长推理和多模态。
② LCM 同样引发了大量 reddit 网友的热议,认为 LCM 带来的是 AI 认知的新范式,并十分期待 LCM 与 Meta 的 BLT、JEPA、Coconut 等工作相结合带来的化学作用。
表:LLM 与 LCM 的特征对比
特征 | 传统LLM | LCM |
抽象层级 (Level of Abstraction) |
基于 Token层面工作 | 基于概念层面工作 |
输入表征 (Input Representation) |
处理为单个 Token(子词) | 处理为句子嵌入 |
输出生成 (Output Generation) |
按单词逐字生成文本 | 按句子逐句生成文本 |
语言和模态支持 (Language and Modality Support) |
通常针对特定语言进行训练 | 设计用于处理多种语言和模态 |
训练目标 (Training Objective) |
最小化 Token 预测误差 | 最小化概念预测误差 |
推理与规划 (Reasoning And Planning) |
隐式学习层次化推理 | 显式层次化推理 |
零试泛化能力 (Zero-Shot Generalizatin) |
表现较弱 | 表现出色 |
长上下文处理效率 (Efficiency with Long Contexts) |
效率较低 | 更高效 |
局限 (Limitation) |
在深层次语义理解和多语言泛化方面存在局限。 | 训练存在模态竞争风险,计算效率较低;概念粒度不稳定;缺少专用的向量空间 |
1、LCM 的核心思路在于尝试在更高层次的抽象层面上进行语言建模,是一种「以概念为中心」的范式。
① LCM 将抽象层次限定为 subword token 和 concept(概念)两个层面。
② 「概念」的定义是与语言和模态无关的抽象实体,代表了流程中更高层次的想法或行为。在实践中通常对应文本文档中的一个句子或等效的语音表述。
③ 换言之,LCM 的思路可以理解为让模型直接学习「概念」,通过转换器把句子还原成一组组概念序列来取代 token 序列,然后进行训练.....