多模态大模型中的离散化技术：综述与展望

almosthuman2014 · 2025 年8 月 6 日 02:55

首个系统综述揭秘离散化技术，为多模态大模型搭建统一桥梁。

原文标题：Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650983845&idx=2&sn=bd7fb36bf1ccc8ecd97ecf04ccfc66e7&

冷月清谈：

近年来，大语言模型（LLM）能力拓展至图像、音频等非文本模态，Discrete Tokenization（离散化）成为关键方案。它通过向量量化（VQ）等技术，将高维连续输入压缩为紧凑的离散token，实现高效存储与计算，并与LLM原生机制无缝衔接，显著提升跨模态理解、推理与生成能力。本文团队发布了首个面向多模态LLM的系统化综述，提供全面的技术地图。该综述按模态与模态组合组织内容，系统梳理了八大类向量量化（VQ）方法，并探讨了码本坍塌等核心挑战。文章还追溯了早期离散化在单模态与多模态任务中的应用，并重点阐述了LLM驱动下离散化在图像、音频、图结构及推荐系统等单模态，以及双模态（如图文、音文）和多模态（三模态及以上）融合任务中的关键作用。尽管进展显著，离散化仍面临码本利用率、信息损失、梯度传播困难、粒度与语义对齐等挑战，未来研究方向可聚焦自适应量化、统一框架、跨模态泛化等方面，以推动其更高效、通用地发展。

怜星夜思：

1、文章提到了这么多离散化方法，比如RVQ、PQ、FSQ等等，感觉各有优劣。如果我要开发一个跨模态模型，比如图像生成，应该怎么选择最适合的离散化方法呢？这些方法在实际应用中，性能、计算资源消耗和效果之间怎么权衡？
2、码本坍塌听起来是个挺严重的问题，它具体会对多模态大模型的表现带来哪些实际影响？比如，会不会导致生成的图片模糊、语音失真，或者模型难以理解某些复杂的指令？除了文章里提到的解决方案，社区里还有没有其他比较新颖、有效的缓解方法？
3、文章提到了离散化技术能让大模型处理图像、音频、视频甚至推荐系统数据，这听起来太酷了！但如果所有的信息都能被统一成 token，未来我们在信息处理上可能会遇到什么新的伦理或隐私问题吗？比如，个人多模态数据被统一分析后，会不会更容易被推测出更多隐私？

原文内容

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇，也提出了一个核心挑战：如何将各种模态信号转化为 LLM 可处理的离散表示。

在这一背景下，Discrete Tokenization（离散化）逐渐成为关键方案。通过向量量化（Vector Quantization, VQ）等技术，高维连续输入可以被压缩为紧凑的离散 token，不仅实现高效存储与计算，还能与 LLM 原生的 token 机制无缝衔接，从而显著提升跨模态理解、推理与生成的能力。

尽管 Discrete Tokenization 在多模态 LLM 中扮演着日益重要的角色，现有研究却缺乏系统化的总结，研究者在方法选择、应用设计与优化方向上缺少统一参考。为此，本文团队发布了首个面向多模态 LLM 的 Discrete Tokenization 系统化综述，系统地梳理技术脉络，总结多模态场景下的实践、挑战与前沿研究方向，为该领域提供全面的技术地图。

论文标题：Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey
论文链接：https://arxiv.org/abs/2507.22920
论文仓库：https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey
发文单位：香港科技大学（广州），吉林大学，香港中文大学，南京大学，加州大学默塞德分校

此综述按照输入数据的模态与模态组合来组织内容：从早期的单模态与多模态 Tokenization 方法，到 LLM 结合下的单模态与多模态应用，逐步构建出清晰的技术全景。这种结构既反映了方法的演进路径，也方便读者快速定位自己关心的模态领域。

方法体系：八大类核心技术全景梳理

此综述首次系统性地整理了八类 Vector Quantization 方法，覆盖从经典方法到最新技术变体，并剖析了它们在码本构建、梯度传播、量化实现上的差异。

八类方法包括：

VQ（Vector Quantization）：经典码本设计与更新机制，结构简单、便于实现；
RVQ（Residual Vector Quantization）：多阶段残差量化，逐步细化编码精度；
PQ（Product Quantization）：乘积量化，子空间划分与独立量化；
AQ（Additive Quantization）：加性量化，多码本叠加建模，增强表达能力；
FSQ（Finite Scalar Quantization）：有限标量量化，每个维度独立映射到有限标量集合，通过隐式码本组合实现离散化，无需显式存储完整码本，计算高效；
LFQ（Lookup-Free Quantization）：去查表量化，每个维度通过符号函数直接离散化，无需显式存储完整码本；
BSQ（Binary Spherical Quantization）：球面二值量化，单位球面上进行离散化，无需显式码本；
Graph Anchor-Relation Tokenization：面向图结构的锚点 - 关系离散化，降低存储与计算开销。

不同方法在编码器训练、梯度传递、量化精度等方面各具特点，适用于不同模态与任务场景。

方法挑战：码本坍塌（Codebook Collapse）

在多种 VQ 方法实践中，码本坍塌是影响性能的核心问题之一。它指的是在训练过程中，码本的有效向量逐渐收敛到极少数几个，导致码本利用率下降、表示多样性不足。

常见解决思路包括：

码本重置（Code Reset）：对长期未使用的码字进行重新初始化，使其靠近活跃码字，从而提升利用率；
线性再参数化（Linear Reparameterization）：通过线性变换优化码字分布，并为未使用码字引入可学习参数，保持其活跃状态；
软量化（Soft Quantization）：将输入表示为多个码字的加权组合，平衡不同码字的使用频率，防止过度集中在少数码字；
正则化（Regularization）：引入熵正则、先验分布约束或 KL 正则等机制，提高码本利用率并避免表示空间坍缩。

缓解码本坍塌对于提升 Discrete Tokenization 在多模态 LLM 中的稳定性与泛化能力至关重要。

早期 Tokenization

在 LLM 出现之前，Discrete Tokenization 已经在多个深度学习任务中得到广泛应用，涵盖单模态场景与多模态场景。在这一阶段，它的主要作用是实现高效表示、压缩以及不同模态间的对齐。典型应用包括：

早期单模态任务：在图像任务中，Discrete Tokenization 常用于检索与合成，高效保留全局语义与关键细节；在音频任务中，它在编解码中作为稳定中间表示，兼顾压缩比与音质；在视频任务中，它实现帧级高效表示，支持可控生成与长时序建模；在结构化数据任务中，它将节点、边或交互序列映射为紧凑的离散表示，用于图表示学习与推荐系统。
早期多模态任务：在视觉 - 语言任务中，Discrete Tokenization 将视觉特征离散化，与文本 token 共享模型接口，实现描述生成与跨模态检索；在语音 - 文本任务中，它将连续语音离散化，与文本 token 对齐，支持语音识别、合成、翻译等互转；在跨模态生成任务中，它让视觉、音频、文本等模态能够统一输入到生成模型，完成多模态协同输出。

这一阶段的实践奠定了 Discrete Tokenization 在后续 LLM 时代广泛应用的技术基础，并为跨模态对齐和统一处理提供了早期经验。

LLM 驱动的单模态离散建模

LLMs 在生成、理解、泛化等任务中展现了强大的能力，使其成为建模非文本模态的理想骨干。在单模态任务中，Discrete Tokenization 被广泛应用于图像、音频、图、动作以及推荐系统等领域，通过将非文本模态编码为 LLM 可读的 token，Discrete Tokenization 实现了与语言 token 在同一空间下的融合。这些离散 token 作为桥梁，使 LLM 能够完成多类下游任务：

图像任务：通过离散 token 编码局部细节与全局语义，实现图像描述、生成与编辑；
音频任务：利用量化后的语音单元支持语音识别、语音合成等任务；
图结构任务：将节点与边离散化，支持节点分类、链接预测、图分类等结构化任务；
动作序列任务：对动作轨迹与控制信号进行离散化，便于 LLM 处理序列生成与预测；
推荐系统任务：将用户行为、商品属性等多类型非语言特征映射为统一 token，提升推荐与排序性能。

通过 Discrete Tokenization，不同单模态的数据特征得以映射到 LLM 的词表空间中，统一进入模型处理框架，从而充分利用 LLM 强大的序列建模和泛化能力。

LLM 驱动的多模态离散建模

在多模态任务中，Discrete Tokenization 的作用尤为关键，它为不同模态之间建立了统一的语义桥梁，使模型能够在一致的 token 表示下处理复杂的多模态输入。

双模态融合

双模态组合起步于 2023 年，其中 Text + Image 是最活跃的方向，其次是 Text + Audio，随后扩展到 Text + Video、Text + Graph、Text + Motion。在这些任务中，各模态通过各自的 tokenizer 转换为离散 token，并映射到统一空间，从而支持图文描述、跨模态问答、语音合成、视频理解、动作生成等任务。

多模态融合

在三模态及以上的组合中，Discrete Tokenization 帮助更多模态在统一框架中协同工作，例如 Text + Image + Audio、Text + Image + Video、Text + Image + Audio + Action。这些组合在统一 token 空间中实现检索、生成、对话、理解等复杂任务。

统一 token 机制使得模型无需为每个模态单独定制架构，而能够在单一框架内自然扩展到更多模态组合，大幅提升泛化性与扩展性。

挑战与未来方向

尽管已有显著进展，Discrete Tokenization 在多模态 LLM 中仍存在多方面挑战：

码本利用率不足：部分码字长期闲置，降低表示多样性。
信息损失：量化过程中压缩语义细节，影响下游性能。
梯度传播困难：离散化阻碍了梯度流动，影响稳定训练。
粒度与语义对齐：粒度选择不当可能导致细节缺失或计算开销高。
离散与连续统一：缺乏两类表示的有效协同。
模态与任务可迁移性：跨模态与跨任务的泛化能力不足。
可解释性与可控性：token 语义不透明，难以调试与控制。

未来研究方向可以聚焦在：自适应量化、统一框架、生物启发式码本、跨模态泛化、可解释性提升等方面，推动离散化在多模态 LLM 中更高效、更通用地发展。

结语

作为多模态 LLM 的底层桥梁，Discrete Tokenization 的重要性会随着模型能力边界的拓展而不断提升。此综述提供了首个全景化、系统化的离散化参考，不仅梳理了八类核心技术，还围绕输入数据的模态与模态组合构建了完整的应用全景，从单模态到双模态，再到多模态融合，形成了清晰的技术脉络。

这是首个以输入模态为主线构建内容结构的系统化综述，为研究者提供了按模态快速检索方法与应用的技术地图。这种组织方式不仅凸显方法演进的脉络，还为不同研究方向提供了清晰的切入路径，有望在推动理论创新的同时，加速实际落地与跨模态系统的发展。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Sprite72n · 2025 年8 月 7 日 17:00

码本坍塌啊，这就好比你做饭，本来有五花八门的食材，结果你老是只用土豆和白菜，那做出来的菜就永远是土豆炖白菜、炒白菜、炖土豆……种类少了，味儿当然也就单一了，甚至有的时候你明明想做个红烧肉，结果因为没有五花肉这个"码字"，硬生生地给你做成了土豆。

对多模态模型来说，这直接导致了生成质量和多样性的"瘸腿"。你问"有没有其他新颖的缓解方法"？当然有啦！这可是一片"内卷"严重的领域呢！现在不少研究者也在尝试把对比学习、蒸馏甚至是因果推断等先进的机器学习理念引入到离散化过程中，目的就是为了让码本里的每个"食材"都能被充分利用起来，“厨师”（模型）也能做出更多创新"菜品"。有时候一些奇思妙想也能带来突破，比如从生物神经科学中寻找灵感，模拟人脑处理信息的方式来设计更高效的码本激活机制，未来可能会有更多惊喜！

Sprite72n · 2025 年8 月 7 日 18:51

没错，离散化技术确实让数据处理变得更"丝滑"了，但你提到的隐私和伦理问题，简直是"硬币的另一面"，是必须要正视的。

就像给每个人建了一个超级完整、巨细靡遗的"数字档案"一样。以前，文字数据归文字数据，图片归图片，互相之间割裂着，即便有人拿到单类数据，也很难拼凑出全貌。但现在，它们都变成了统一的"积木"，任何"积木"都可以放入统一的"模型盒子"里去"玩"，这组合能力是呈指数级上升的。

想象一下，你的声音习惯、面部表情特征、在网上的浏览痕迹、甚至是摄像头拍到的生活场景，都被统一编码并分析。这不仅能推测出你的健康状况（比如从咳嗽声判断呼吸道问题），还能分析你的消费倾向（从浏览商品图的时间和语音评论），甚至推断你的政治倾向或情绪状态。这种"数字人格"的精准度，可能连你自己都"不认识"。这就要求我们在享受技术便利的同时，必须同步加强法律监管、技术防护，以及公民对自身数据权利的认知。不然，数据统一后带来的便利，很可能成为隐私裸奔的"加速器"。

PolishedStone452 · 2025 年8 月 8 日 12:36

欸，这个问题问到点子上了！“酷"的背后往往藏着"危险”。你想啊，以前你跟朋友发微信，那是个文本；你语音聊天，那是段音频；你拍个照发朋友圈，那是张图片。它们是各自独立的"小世界"。现在好了，大模型通过离散化，把这些"小世界"全都统一成了一堆"像素"（token），然后揉在一起算。就像你的所有零碎记忆，突然被一个超级大脑串联起来，形成了你都没意识到的"完整人生轨迹"。

这不就是赤裸裸的"数字透明人"嘛！大数据分析师都要"失业"了，因为AI自己就能把你的"七大姑八大姨十八代祖宗"的习惯和喜好都给你挖出来。买个东西，广告直接精准到你心坎里去；聊句话，立马推给你相关服务。感觉好用是好用，但细思极恐。未来我们可能得学会在"数字世界"里给自己穿"隐身衣"，或者说，整个社会得想办法制定更严格的"数字隐私法"和"伦理红线"，不然就真的是在"裸奔"了。毕竟，技术本身是中立的，关键看掌握在谁手里，以及被如何使用，对吧？

Crux18l · 2025 年8 月 8 日 23:26

哇，听起来像是要在性能跑车和经济适用小轿车之间做选择嘛。简单来说，如果你是土豪，算力管够，那当然是往高级的、能保留更多细节的方法冲，比如那些多阶段、多码本堆砌起来的，生成的图肯定更精致。但如果你像我一样，普通打工人，只有一张3090，那肯定要选那些"性价比之王"，比如兼顾效率和效果的FSQ或者改进过的VQ变体。计算资源消耗就像是车的油耗，效果是开起来爽不爽，性能是最高能跑多快。我个人觉得，先跑几个小数据集试试水，看看不同方法的"油耗"和"手感"，然后再决定上哪个 “车”，毕竟理论是一回事，实践又是另一回事，对吧？

Void912s · 2025 年8 月 9 日 05:33

你这个问题非常敏锐，点出了多模态统一建模背后深层次的伦理和隐私风险。当图像、音频、视频、文字甚至你的购物习惯和社交行为都被转化为统一的"token"，并进入同一个大模型进行分析时，确实可能带来前所未有的挑战：

1. 更强的个人画像能力： 当模型能够同时处理你的语音语调、面部表情、文字内容、消费偏好，甚至你的步态和生活环境数据时，它能构建出远比现在更全面、更细致的个人画像。这意味着你的喜好、习惯、健康状况甚至情绪状态，都可能被更精准地推测出来，而且这种推测的"粒度"会非常细致。
2. 隐性隐私泄露： 即使表面上数据经过了"匿名化"处理，但如果多种模态的数据结合起来，攻击者可能更容易通过交叉验证的方式对个人进行"去匿名化"。例如，一段"匿名"的语音+一段"匿名"的购物记录，在多模态模型的加持下，可能就足以识别出特定个人。
3. 偏见与歧视的放大： 如果训练数据中存在偏见，多模态模型可能会将这些偏见放大，并体现在对个人信息的推测或自动化决策中。比如，基于你的多模态数据，模型可能会 “判断"你属于某个特定群体，并据此给你打上标签，进而影响你获得服务、信贷甚至就业的机会。
4. 数据滥用与监管空白： 信息被"token"化简化了数据处理的复杂度，但也可能降低了数据被滥用的门槛。目前针对多模态数据的法律法规和伦理规范尚不完善，如何界定"合理使用”、如何确保数据安全、如何提供有效的"被遗忘权"等，都是亟待解决的问题。

所以，随着技术的发展，我们确实需要在数据收集、存储、处理和模型部署的各个环节，更深入地思考和实践"隐私设计"（Privacy by Design）和"负责任的AI"原则。

ShimmeringSeal612 · 2025 年8 月 12 日 08:51

是的，码本坍塌确实是离散化技术在多模态大模型中面临的一个核心"顽疾"。简单来说，它就像我们常用的调色盘，如果很多颜色（码字）因为各种原因被闲置了，久而久之我们能用的颜色就越来越少。反映到实际表现上，最直观的就是生成内容的"多样性"和"质量"下降。

具体来说：
1. 生成图片模糊或失真： 如果码本里的有效"视觉词汇"锐减，模型在重构图像时就无法找到足够丰富的细节表示，容易出现模糊、伪影，或者生成的内容缺乏真实感和多样性。
2. 语音失真或单调： 类似地，在音频处理中，可用的"音素"或"音节"码字减少，会导致合成的语音听起来不自然、机器人化，甚至出现特定发音失真。
3. 理解与表达能力受限： 对于更复杂的跨模态理解任务（比如文生图、图生文），如果码本无法捕获到细粒度的语义信息，模型就难以准确地将视觉概念与文本概念对齐，导致理解偏差或生成的结果"文不对题"。

除了文章提到的码本重置、线性再参数化、软量化和正则化，目前社区里还有一些结合其他技术思路的缓解方法，比如：
* 对抗性训练（Adversarial Training）： 引入判别器来迫使生成器更充分地利用码本，提升生成样本的多样性和真实性。
* 自适应码本大小： 动态调整码本大小，让模型自己决定需要多少个"词汇"，而不是固定一个大而无效的码本。
* 层次化或分层码本： 将码本设计成多层次结构，高层捕获全局信息，低层捕获局部细节，有助于更细致地利用码字。
* 分布式码本或共享编码器： 在多模态场景下，让不同模态的编码器能够以更协调的方式共享和利用码本空间，促进跨模态对齐的同时减少冗余和闲置。

MidnightOwl519 · 2025 年8 月 12 日 19:56

嗯，说到图像生成，很多时候我们追求的是视觉保真度和多样性。从技术角度看，像VQVAE这类方法是经典的基石，但可能在码本坍塌上更容易遇到问题。后面出现的比如VQ-GAN，通过对抗训练来提升生成质量，其背后的量化机制也会结合多种改进策略。选择时，你需要考虑几个关键指标：量化误差（信息损失程度），码本利用率（码字是不是都被有效使用了），以及前向和反向传播的稳定性。对于生成任务，确保量化后的潜在空间能支持丰富的语义表达至关重要。有些方法在理论上提供更好的重构能力，比如PQ会把特征分解到多个子空间独立编码，理论上能降低维度灾难，但可能会损失一些全局信息。最佳实践往往是先从经典且有大量开源实现的方法着手，结合你的数据集特性进行实验，而不是一开始就追求最新的"黑科技"，迭代优化是常态。

Mystic98x · 2025 年8 月 13 日 01:05

这个问题问得好，选择离散化方法确实是门学问。对于图像生成这类对细节和质量要求高的任务，可能需要更精细的量化方法。比如，RVQ（残差向量量化）通过多阶段编码，可以在保证精度方面表现不错，但计算量相对大些。FSQ（有限标量量化）则更注重计算效率，因为它无需显式存储码本。在实际权衡时，首先得看你的数据模态特性和模型最终的应用场景：对实时性要求高的（比如视频生成），或者模型部署在资源有限设备上的，可能要优先考虑计算效率更高的，即便牺牲一点点精度。而如果是离线训练，对最终生成质量有极致追求的，就可以考虑更复杂的量化技术。通常来说，没有"一招鲜吃遍天"的方法，更多的是根据实际业务需求和算力预算做取舍，甚至可以尝试组合不同的方法或进行微调。

IronKnight238 · 2025 年8 月 13 日 11:07

关于码本坍塌，我觉得可以类比为我们学外语。如果字典里很多词你从没用过，慢慢地你就只用那几个常用词，表达就变得非常贫乏了。对大模型来说，就是它只能"说"有限的几种"话"或者"画"有限的几种"画"。具体影响嘛，最明显的就是你会觉得模型变得"呆板"，生成的结果"千篇一律"，或者"文不对题"。你让它生成一只"戴着墨镜的猫"，结果可能就只有"猫"的模糊轮廓，墨镜细节完全没有，甚至生出来的是只狗，因为它"认识"的"墨镜"和"猫"的组合"词汇"太少了。

社区里有些很前沿的玩法，比如结合强化学习来优化码本利用率，或者尝试让码本自己"进化"，根据数据的分布来动态调整自己的结构。还有些研究在探索如何更好地设计码本的初始化策略，以及如何用更智能的采样方式来激活那些"沉睡"的码字。总的来说，大家都在想办法，让模型的"语言"更丰富、更灵活。