冻结的大型语言模型如何理解视觉信号

展示了如何通过V2T分词器使大型语言模型在无需微调的情况下理解视觉信号。

原文标题:【CVPR2024】超越文本:在视觉信号理解中冻结的大型语言模型

原文作者:数据派THU

冷月清谈:

本文介绍了一种创新的方法,即视觉到语言的分词器(V2T分词器),通过将图像转换为适合大型语言模型(LLM)理解的令牌,探索LLM在无需微调的情况下直接理解视觉信号的可行性。V2T分词器结合了编解码器和CLIP模型的功能,使得LLM能够执行如图像识别、图像字幕生成和视觉问答等多种视觉理解任务,同时实现图像的去噪与恢复。该方法避免了通常的微调过程,直接在输入空间进行视觉与语言的对齐,展现了LLM在处理视觉信号方面的新潜力。通过对比现有多模态方法,该工作强调了其方法的简化和高效性,同时提供了代码和模型以供研究者使用。

怜星夜思:

1、这种新的视觉到语言的分词器对传统NLP模型的影响如何?
2、这个方法的局限性是什么?
3、是否有其他领域可以借鉴这个方法?

原文内容

图片
来源:专知
本文为论文介绍,建议阅读5分钟
我们提出了视觉到语言的分词器,简称为V2T分词器,该分词器借助编解码器、LLM词汇表和CLIP模型的综合帮助,将图像转换为“外国语言”。


在这项工作中,我们探讨了大型语言模型(LLM)直接理解视觉信号而无需在多模态数据集上进行微调的可能性。我们方法的基础概念将图像视为一种语言实体,并将其翻译为源自LLM词汇表的一组离散单词。为实现这一点,我们提出了视觉到语言的分词器,简称为V2T分词器,该分词器借助编解码器、LLM词汇表和CLIP模型的综合帮助,将图像转换为“外国语言”。借助这种创新的图像编码,LLM不仅获得了视觉理解的能力,而且还能以自回归的方式进行图像去噪和恢复——关键是,无需任何微调。我们进行了严格的实验来验证我们的方法,包括理解任务如图像识别、图像字幕和视觉问答,以及图像去噪任务如图像修复、图像外扩、去模糊和偏移恢复。代码和模型可在 https://github.com/zh460045050/V2L-Tokenizer 上获取。
在自然语言处理(NLP)领域通过部署大型语言模型(LLM),如GPT [3, 30, 34, 35]、PaLM [2, 6]和LLaMA [45, 46],已经取得了显著进展。为了解决需要文本和视觉理解相结合的复杂挑战,学者们正在扩大现成LLM的能力。这种增强包括加入额外的视觉处理组件,以便于理解视觉内容[13, 23–25, 62]或从文本生成图像[41, 50, 59, 61]。随后,这些改进的模型会通过使用各种多模态数据集进行额外的重新训练或微调,以将视觉潜在空间与语言潜在空间对齐。尽管如此,精炼过程通常需要大量的训练资源。如图1所示,本工作旨在赋予大型语言模型天生的理解视觉信号的能力,重要的是,无需微调。在我们的方法中,我们将每幅图像视为源自“外语”的语言实体,将其适配以满足普通LLM的输入要求。因此,这种对齐发生在输入(令牌)空间而不是特征空间,这使我们的工作区别于之前需要微调以进行模态对齐的多模态方法[1, 23, 24, 62]。因此,在我们的方法论中可以避免多模态数据集上的微调或重新训练过程。我们的技术将图像转换为一系列属于LLM词汇表内的离散令牌。一旦转换,这些令牌可以被输入LLM,使其能够处理并理解视觉信息,从而促进涉及图像理解和去噪的一系列任务。
将图像转换为被冻结的LLM能够理解的一组令牌是具有挑战性的。在这项工作中,我们介绍了一个旨在将图像(非语言模态)映射到冻结LLM的输入(令牌)空间的分词器。这个分词器被称为视觉到语言分词器,或简称为V2L分词器。受到VQ-GAN [12]胜利进展的启发,V2L分词器采用了编码器-量化器-解码器结构。然而,其目标是将视觉信息翻译到LLM的令牌空间。这与其灵感来源不同,后者旨在仅为图像生成的目的学习一个独立的潜在空间。我们的V2L分词器避免了优化随机初始化的量化器代码本的标准过程;相反,它在整个训练过程中利用LLM的预先存在的词汇表作为其量化器代码本。在优化过程完成后,图像通过量化损失函数的指导被转换为一组LLM令牌。
通常,LLM的词汇表包含全词和子词单元,这是由于使用了如BPE [42]和SentencePiece [19]等语言分词器。在不失一般性的情况下,这个词汇表的广度影响了其将图像编码为LLM令牌的能力——通常,更大的词汇表提供了更强大的表示能力。在我们的方法中,我们通过组合其词汇项形成双词或三词语,显著增加了在将图像映射到LLM令牌时的表示能力。除了将每个图像块转换为语言令牌外,我们的V2L分词器还包括提取整个图像的全局表示。我们通过使用扩展LLM词汇表中的子词、双词或三词语的组合来实现这一点,以封装图像的全面信息。
在上下文学习[3, 27, 28]中已被证明对LLM的零样本推断非常有益。这是通过在LLM推断过程中,用一些领域特定的示例前置指令文本来实现的。我们的方法避免了LLM微调的必要性,而是采用在上下文学习来指导LLM模仿给定的少样本示例中呈现的模式。这使得模型能够更好地理解“外语”(即,视觉模态)。
实验上,我们的工作在这一新颖情景中超越了之前的尝试[25, 54],在该情景中,一个LLM能够在没有任何微调或重新训练的情况下理解视觉信号,包括理解任务如图像字幕和视觉问答,以及图像去噪任务如图像修复、外扩、去模糊和图像恢复。

虽然该方法在没有微调的情况下展现了出色的性能,但它也可能在处理非常复杂或罕见的视觉场景时遇到问题,毕竟,模型缺乏额外的学习环节。

使用的V2T分词器是基于已有的词汇表,而这些词汇表的限制可能会影响模型对特定视觉内容的理解深度。

我觉得还有一个问题是处理速度,虽然避免了微调,但实时处理复杂图像可能仍然会受限于计算资源。

我认为这可能会改变我们目前的模型训练方式。以往需要大规模的数据集和微调,现在通过V2T分词器,LLM可以更有效地应用于视觉任务,极大降低了使用门槛。

确实,如果这个技术成熟,可能会导致更多领域的交叉,如智能助手在处理图像方面的能力提升,甚至在自动驾驶等技术中也会有所作用。

这有没有可能会导致模型的偏见更加明显呢?因为如果模型没有经过微调,可能会无法适应一些特定的视觉场景。

当然,教育和以图像为中心的应用(如虚拟现实)可以从中获得启示,帮助系统更快地理解使用者的意图。

医疗图像分析也是一个不错的应用案例,可能可以简化现有模型的复杂性,使得医生在面临图像时能够获取更直观的支持。

对于艺术创作领域,比如生成艺术品,结合这个分词器后,可以让模型更好地理解艺术作品的视觉特征,从而生成更贴合的作品。