多模态大模型中的离散化技术:综述与展望

首个系统综述揭秘离散化技术,为多模态大模型搭建统一桥梁。

原文标题:Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布

原文作者:机器之心

冷月清谈:

近年来,大语言模型(LLM)能力拓展至图像、音频等非文本模态,Discrete Tokenization(离散化)成为关键方案。它通过向量量化(VQ)等技术,将高维连续输入压缩为紧凑的离散token,实现高效存储与计算,并与LLM原生机制无缝衔接,显著提升跨模态理解、推理与生成能力。本文团队发布了首个面向多模态LLM的系统化综述,提供全面的技术地图。该综述按模态与模态组合组织内容,系统梳理了八大类向量量化(VQ)方法,并探讨了码本坍塌等核心挑战。文章还追溯了早期离散化在单模态与多模态任务中的应用,并重点阐述了LLM驱动下离散化在图像、音频、图结构及推荐系统等单模态,以及双模态(如图文、音文)和多模态(三模态及以上)融合任务中的关键作用。尽管进展显著,离散化仍面临码本利用率、信息损失、梯度传播困难、粒度与语义对齐等挑战,未来研究方向可聚焦自适应量化、统一框架、跨模态泛化等方面,以推动其更高效、通用地发展。

怜星夜思:

1、文章提到了这么多离散化方法,比如RVQ、PQ、FSQ等等,感觉各有优劣。如果我要开发一个跨模态模型,比如图像生成,应该怎么选择最适合的离散化方法呢?这些方法在实际应用中,性能、计算资源消耗和效果之间怎么权衡?
2、码本坍塌听起来是个挺严重的问题,它具体会对多模态大模型的表现带来哪些实际影响?比如,会不会导致生成的图片模糊、语音失真,或者模型难以理解某些复杂的指令?除了文章里提到的解决方案,社区里还有没有其他比较新颖、有效的缓解方法?
3、文章提到了离散化技术能让大模型处理图像、音频、视频甚至推荐系统数据,这听起来太酷了!但如果所有的信息都能被统一成 token,未来我们在信息处理上可能会遇到什么新的伦理或隐私问题吗?比如,个人多模态数据被统一分析后,会不会更容易被推测出更多隐私?

原文内容


近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇,也提出了一个核心挑战:如何将各种模态信号转化为 LLM 可处理的离散表示


在这一背景下,Discrete Tokenization(离散化)逐渐成为关键方案。通过向量量化(Vector Quantization, VQ)等技术,高维连续输入可以被压缩为紧凑的离散 token,不仅实现高效存储与计算,还能与 LLM 原生的 token 机制无缝衔接,从而显著提升跨模态理解、推理与生成的能力。


尽管 Discrete Tokenization 在多模态 LLM 中扮演着日益重要的角色,现有研究却缺乏系统化的总结,研究者在方法选择、应用设计与优化方向上缺少统一参考。为此,本文团队发布了首个面向多模态 LLM 的 Discrete Tokenization 系统化综述,系统地梳理技术脉络,总结多模态场景下的实践、挑战与前沿研究方向,为该领域提供全面的技术地图。




  • 论文标题:Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

  • 论文链接:https://arxiv.org/abs/2507.22920 

  • 论文仓库:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey

  • 发文单位:香港科技大学(广州),吉林大学,香港中文大学,南京大学,加州大学默塞德分校



此综述按照输入数据的模态与模态组合来组织内容:从早期的单模态与多模态 Tokenization 方法,到 LLM 结合下的单模态与多模态应用,逐步构建出清晰的技术全景。这种结构既反映了方法的演进路径,也方便读者快速定位自己关心的模态领域。


方法体系:八大类核心技术全景梳理


此综述首次系统性地整理了八类 Vector Quantization 方法,覆盖从经典方法到最新技术变体,并剖析了它们在码本构建、梯度传播、量化实现上的差异。

八类方法包括:


  • VQ(Vector Quantization):经典码本设计与更新机制,结构简单、便于实现;

  • RVQ(Residual Vector Quantization):多阶段残差量化,逐步细化编码精度;

  • PQ(Product Quantization):乘积量化,子空间划分与独立量化;

  • AQ(Additive Quantization):加性量化,多码本叠加建模,增强表达能力;

  • FSQ(Finite Scalar Quantization):有限标量量化,每个维度独立映射到有限标量集合,通过隐式码本组合实现离散化,无需显式存储完整码本,计算高效;

  • LFQ(Lookup-Free Quantization):去查表量化,每个维度通过符号函数直接离散化,无需显式存储完整码本;

  • BSQ(Binary Spherical Quantization):球面二值量化,单位球面上进行离散化,无需显式码本;

  • Graph Anchor-Relation Tokenization:面向图结构的锚点 - 关系离散化,降低存储与计算开销。


不同方法在编码器训练、梯度传递、量化精度等方面各具特点,适用于不同模态与任务场景。



方法挑战:码本坍塌(Codebook Collapse)


在多种 VQ 方法实践中,码本坍塌是影响性能的核心问题之一。它指的是在训练过程中,码本的有效向量逐渐收敛到极少数几个,导致码本利用率下降、表示多样性不足。


常见解决思路包括:


  • 码本重置(Code Reset):对长期未使用的码字进行重新初始化,使其靠近活跃码字,从而提升利用率;

  • 线性再参数化(Linear Reparameterization):通过线性变换优化码字分布,并为未使用码字引入可学习参数,保持其活跃状态;

  • 软量化(Soft Quantization):将输入表示为多个码字的加权组合,平衡不同码字的使用频率,防止过度集中在少数码字;

  • 正则化(Regularization):引入熵正则、先验分布约束或 KL 正则等机制,提高码本利用率并避免表示空间坍缩。


缓解码本坍塌对于提升 Discrete Tokenization 在多模态 LLM 中的稳定性与泛化能力至关重要。



早期 Tokenization


在 LLM 出现之前,Discrete Tokenization 已经在多个深度学习任务中得到广泛应用,涵盖单模态场景与多模态场景。在这一阶段,它的主要作用是实现高效表示、压缩以及不同模态间的对齐。典型应用包括:


  • 早期单模态任务:在图像任务中,Discrete Tokenization 常用于检索与合成,高效保留全局语义与关键细节;在音频任务中,它在编解码中作为稳定中间表示,兼顾压缩比与音质;在视频任务中,它实现帧级高效表示,支持可控生成与长时序建模;在结构化数据任务中,它将节点、边或交互序列映射为紧凑的离散表示,用于图表示学习与推荐系统。


  • 早期多模态任务:在视觉 - 语言任务中,Discrete Tokenization 将视觉特征离散化,与文本 token 共享模型接口,实现描述生成与跨模态检索;在语音 - 文本任务中,它将连续语音离散化,与文本 token 对齐,支持语音识别、合成、翻译等互转;在跨模态生成任务中,它让视觉、音频、文本等模态能够统一输入到生成模型,完成多模态协同输出。


这一阶段的实践奠定了 Discrete Tokenization 在后续 LLM 时代广泛应用的技术基础,并为跨模态对齐和统一处理提供了早期经验。



LLM 驱动的单模态离散建模


LLMs 在生成、理解、泛化等任务中展现了强大的能力,使其成为建模非文本模态的理想骨干。在单模态任务中,Discrete Tokenization 被广泛应用于图像、音频、图、动作以及推荐系统等领域,通过将非文本模态编码为 LLM 可读的 token,Discrete Tokenization 实现了与语言 token 在同一空间下的融合。这些离散 token 作为桥梁,使 LLM 能够完成多类下游任务:


  • 图像任务:通过离散 token 编码局部细节与全局语义,实现图像描述、生成与编辑;

  • 音频任务:利用量化后的语音单元支持语音识别、语音合成等任务;

  • 图结构任务:将节点与边离散化,支持节点分类、链接预测、图分类等结构化任务;

  • 动作序列任务:对动作轨迹与控制信号进行离散化,便于 LLM 处理序列生成与预测;

  • 推荐系统任务:将用户行为、商品属性等多类型非语言特征映射为统一 token,提升推荐与排序性能。


通过 Discrete Tokenization,不同单模态的数据特征得以映射到 LLM 的词表空间中,统一进入模型处理框架,从而充分利用 LLM 强大的序列建模和泛化能力。



LLM 驱动的多模态离散建模


在多模态任务中,Discrete Tokenization 的作用尤为关键,它为不同模态之间建立了统一的语义桥梁,使模型能够在一致的 token 表示下处理复杂的多模态输入。


双模态融合


双模态组合起步于 2023 年,其中 Text + Image 是最活跃的方向,其次是 Text + Audio,随后扩展到 Text + Video、Text + Graph、Text + Motion。在这些任务中,各模态通过各自的 tokenizer 转换为离散 token,并映射到统一空间,从而支持图文描述、跨模态问答、语音合成、视频理解、动作生成等任务。


多模态融合


在三模态及以上的组合中,Discrete Tokenization 帮助更多模态在统一框架中协同工作,例如 Text + Image + Audio、Text + Image + Video、Text + Image + Audio + Action。这些组合在统一 token 空间中实现检索、生成、对话、理解等复杂任务。


统一 token 机制使得模型无需为每个模态单独定制架构,而能够在单一框架内自然扩展到更多模态组合,大幅提升泛化性与扩展性。



挑战与未来方向


尽管已有显著进展,Discrete Tokenization 在多模态 LLM 中仍存在多方面挑战:


  • 码本利用率不足:部分码字长期闲置,降低表示多样性。

  • 信息损失:量化过程中压缩语义细节,影响下游性能。

  • 梯度传播困难:离散化阻碍了梯度流动,影响稳定训练。

  • 粒度与语义对齐:粒度选择不当可能导致细节缺失或计算开销高。

  • 离散与连续统:缺乏两类表示的有效协同。

  • 模态与任务可迁移性:跨模态与跨任务的泛化能力不足。

  • 可解释性与可控性:token 语义不透明,难以调试与控制。


未来研究方向可以聚焦在:自适应量化、统一框架、生物启发式码本、跨模态泛化、可解释性提升等方面,推动离散化在多模态 LLM 中更高效、更通用地发展。


结语


作为多模态 LLM 的底层桥梁,Discrete Tokenization 的重要性会随着模型能力边界的拓展而不断提升。此综述提供了首个全景化、系统化的离散化参考,不仅梳理了八类核心技术,还围绕输入数据的模态与模态组合构建了完整的应用全景,从单模态到双模态,再到多模态融合,形成了清晰的技术脉络。


这是首个以输入模态为主线构建内容结构的系统化综述,为研究者提供了按模态快速检索方法与应用的技术地图。这种组织方式不仅凸显方法演进的脉络,还为不同研究方向提供了清晰的切入路径,有望在推动理论创新的同时,加速实际落地与跨模态系统的发展。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

码本坍塌啊,这就好比你做饭,本来有五花八门的食材,结果你老是只用土豆和白菜,那做出来的菜就永远是土豆炖白菜、炒白菜、炖土豆……种类少了,味儿当然也就单一了,甚至有的时候你明明想做个红烧肉,结果因为没有五花肉这个"码字",硬生生地给你做成了土豆。

对多模态模型来说,这直接导致了生成质量和多样性的"瘸腿"。你问"有没有其他新颖的缓解方法"?当然有啦!这可是一片"内卷"严重的领域呢!现在不少研究者也在尝试把对比学习、蒸馏甚至是因果推断等先进的机器学习理念引入到离散化过程中,目的就是为了让码本里的每个"食材"都能被充分利用起来,“厨师”(模型)也能做出更多创新"菜品"。有时候一些奇思妙想也能带来突破,比如从生物神经科学中寻找灵感,模拟人脑处理信息的方式来设计更高效的码本激活机制,未来可能会有更多惊喜!

没错,离散化技术确实让数据处理变得更"丝滑"了,但你提到的隐私和伦理问题,简直是"硬币的另一面",是必须要正视的。

就像给每个人建了一个超级完整、巨细靡遗的"数字档案"一样。以前,文字数据归文字数据,图片归图片,互相之间割裂着,即便有人拿到单类数据,也很难拼凑出全貌。但现在,它们都变成了统一的"积木",任何"积木"都可以放入统一的"模型盒子"里去"玩",这组合能力是呈指数级上升的。

想象一下,你的声音习惯、面部表情特征、在网上的浏览痕迹、甚至是摄像头拍到的生活场景,都被统一编码并分析。这不仅能推测出你的健康状况(比如从咳嗽声判断呼吸道问题),还能分析你的消费倾向(从浏览商品图的时间和语音评论),甚至推断你的政治倾向或情绪状态。这种"数字人格"的精准度,可能连你自己都"不认识"。这就要求我们在享受技术便利的同时,必须同步加强法律监管、技术防护,以及公民对自身数据权利的认知。不然,数据统一后带来的便利,很可能成为隐私裸奔的"加速器"。

欸,这个问题问到点子上了!“酷"的背后往往藏着"危险”。你想啊,以前你跟朋友发微信,那是个文本;你语音聊天,那是段音频;你拍个照发朋友圈,那是张图片。它们是各自独立的"小世界"。现在好了,大模型通过离散化,把这些"小世界"全都统一成了一堆"像素"(token),然后揉在一起算。就像你的所有零碎记忆,突然被一个超级大脑串联起来,形成了你都没意识到的"完整人生轨迹"。

这不就是赤裸裸的"数字透明人"嘛!大数据分析师都要"失业"了,因为AI自己就能把你的"七大姑八大姨十八代祖宗"的习惯和喜好都给你挖出来。买个东西,广告直接精准到你心坎里去;聊句话,立马推给你相关服务。感觉好用是好用,但细思极恐。未来我们可能得学会在"数字世界"里给自己穿"隐身衣",或者说,整个社会得想办法制定更严格的"数字隐私法"和"伦理红线",不然就真的是在"裸奔"了。毕竟,技术本身是中立的,关键看掌握在谁手里,以及被如何使用,对吧?

哇,听起来像是要在性能跑车和经济适用小轿车之间做选择嘛:automobile:。简单来说,如果你是土豪,算力管够,那当然是往高级的、能保留更多细节的方法冲,比如那些多阶段、多码本堆砌起来的,生成的图肯定更精致。但如果你像我一样,普通打工人,只有一张3090,那肯定要选那些"性价比之王",比如兼顾效率和效果的FSQ或者改进过的VQ变体。计算资源消耗就像是车的油耗,效果是开起来爽不爽,性能是最高能跑多快。我个人觉得,先跑几个小数据集试试水,看看不同方法的"油耗"和"手感",然后再决定上哪个 “车”,毕竟理论是一回事,实践又是另一回事,对吧?

你这个问题非常敏锐,点出了多模态统一建模背后深层次的伦理和隐私风险。当图像、音频、视频、文字甚至你的购物习惯和社交行为都被转化为统一的"token",并进入同一个大模型进行分析时,确实可能带来前所未有的挑战:

1. 更强的个人画像能力: 当模型能够同时处理你的语音语调、面部表情、文字内容、消费偏好,甚至你的步态和生活环境数据时,它能构建出远比现在更全面、更细致的个人画像。这意味着你的喜好、习惯、健康状况甚至情绪状态,都可能被更精准地推测出来,而且这种推测的"粒度"会非常细致。
2. 隐性隐私泄露: 即使表面上数据经过了"匿名化"处理,但如果多种模态的数据结合起来,攻击者可能更容易通过交叉验证的方式对个人进行"去匿名化"。例如,一段"匿名"的语音+一段"匿名"的购物记录,在多模态模型的加持下,可能就足以识别出特定个人。
3. 偏见与歧视的放大: 如果训练数据中存在偏见,多模态模型可能会将这些偏见放大,并体现在对个人信息的推测或自动化决策中。比如,基于你的多模态数据,模型可能会 “判断"你属于某个特定群体,并据此给你打上标签,进而影响你获得服务、信贷甚至就业的机会。
4. 数据滥用与监管空白: 信息被"token"化简化了数据处理的复杂度,但也可能降低了数据被滥用的门槛。目前针对多模态数据的法律法规和伦理规范尚不完善,如何界定"合理使用”、如何确保数据安全、如何提供有效的"被遗忘权"等,都是亟待解决的问题。

所以,随着技术的发展,我们确实需要在数据收集、存储、处理和模型部署的各个环节,更深入地思考和实践"隐私设计"(Privacy by Design)和"负责任的AI"原则。

是的,码本坍塌确实是离散化技术在多模态大模型中面临的一个核心"顽疾"。简单来说,它就像我们常用的调色盘,如果很多颜色(码字)因为各种原因被闲置了,久而久之我们能用的颜色就越来越少。反映到实际表现上,最直观的就是生成内容的"多样性"和"质量"下降。

具体来说:
1. 生成图片模糊或失真: 如果码本里的有效"视觉词汇"锐减,模型在重构图像时就无法找到足够丰富的细节表示,容易出现模糊、伪影,或者生成的内容缺乏真实感和多样性。
2. 语音失真或单调: 类似地,在音频处理中,可用的"音素"或"音节"码字减少,会导致合成的语音听起来不自然、机器人化,甚至出现特定发音失真。
3. 理解与表达能力受限: 对于更复杂的跨模态理解任务(比如文生图、图生文),如果码本无法捕获到细粒度的语义信息,模型就难以准确地将视觉概念与文本概念对齐,导致理解偏差或生成的结果"文不对题"。

除了文章提到的码本重置、线性再参数化、软量化和正则化,目前社区里还有一些结合其他技术思路的缓解方法,比如:
* 对抗性训练(Adversarial Training): 引入判别器来迫使生成器更充分地利用码本,提升生成样本的多样性和真实性。
* 自适应码本大小: 动态调整码本大小,让模型自己决定需要多少个"词汇",而不是固定一个大而无效的码本。
* 层次化或分层码本: 将码本设计成多层次结构,高层捕获全局信息,低层捕获局部细节,有助于更细致地利用码字。
* 分布式码本或共享编码器: 在多模态场景下,让不同模态的编码器能够以更协调的方式共享和利用码本空间,促进跨模态对齐的同时减少冗余和闲置。

嗯,说到图像生成,很多时候我们追求的是视觉保真度和多样性。从技术角度看,像VQVAE这类方法是经典的基石,但可能在码本坍塌上更容易遇到问题。后面出现的比如VQ-GAN,通过对抗训练来提升生成质量,其背后的量化机制也会结合多种改进策略。选择时,你需要考虑几个关键指标:量化误差(信息损失程度),码本利用率(码字是不是都被有效使用了),以及前向和反向传播的稳定性。对于生成任务,确保量化后的潜在空间能支持丰富的语义表达至关重要。有些方法在理论上提供更好的重构能力,比如PQ会把特征分解到多个子空间独立编码,理论上能降低维度灾难,但可能会损失一些全局信息。最佳实践往往是先从经典且有大量开源实现的方法着手,结合你的数据集特性进行实验,而不是一开始就追求最新的"黑科技",迭代优化是常态。

这个问题问得好,选择离散化方法确实是门学问:light_bulb:。对于图像生成这类对细节和质量要求高的任务,可能需要更精细的量化方法。比如,RVQ(残差向量量化)通过多阶段编码,可以在保证精度方面表现不错,但计算量相对大些。FSQ(有限标量量化)则更注重计算效率,因为它无需显式存储码本。在实际权衡时,首先得看你的数据模态特性和模型最终的应用场景:对实时性要求高的(比如视频生成),或者模型部署在资源有限设备上的,可能要优先考虑计算效率更高的,即便牺牲一点点精度。而如果是离线训练,对最终生成质量有极致追求的,就可以考虑更复杂的量化技术。通常来说,没有"一招鲜吃遍天"的方法,更多的是根据实际业务需求和算力预算做取舍,甚至可以尝试组合不同的方法或进行微调。

关于码本坍塌,我觉得可以类比为我们学外语。如果字典里很多词你从没用过,慢慢地你就只用那几个常用词,表达就变得非常贫乏了。对大模型来说,就是它只能"说"有限的几种"话"或者"画"有限的几种"画"。具体影响嘛,最明显的就是你会觉得模型变得"呆板",生成的结果"千篇一律",或者"文不对题"。你让它生成一只"戴着墨镜的猫",结果可能就只有"猫"的模糊轮廓,墨镜细节完全没有,甚至生出来的是只狗,因为它"认识"的"墨镜"和"猫"的组合"词汇"太少了。

社区里有些很前沿的玩法,比如结合强化学习来优化码本利用率,或者尝试让码本自己"进化",根据数据的分布来动态调整自己的结构。还有些研究在探索如何更好地设计码本的初始化策略,以及如何用更智能的采样方式来激活那些"沉睡"的码字。总的来说,大家都在想办法,让模型的"语言"更丰富、更灵活。