PyTorch构建视觉语言模型(VLM)完全指南

DatapiTHU · 2024 年12 月 7 日 11:46

使用PyTorch构建VLM模型完全指南，深入解析核心组件、实现细节及训练技巧。

原文标题：使用Pytorch构建视觉语言模型（VLM）

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247649130&idx=1&sn=0de2744e3199f93a669b314f256f1d09&

冷月清谈：

本文详细介绍了如何使用PyTorch构建一个视觉语言模型（VLM），并深入探讨了其核心组件和实现细节。VLM 的总体架构包括图像编码器、视觉-语言投影器、分词器和嵌入层、位置编码、共享嵌入空间和解码器。图像编码器用于从图像中提取视觉特征，视觉-语言投影器将图像嵌入投影到文本嵌入空间，分词器将文本转换为标记 ID，位置编码帮助模型理解标记之间的序列关系，共享嵌入空间将文本嵌入与位置编码的嵌入拼接，解码器负责最终的文本生成。文章还详细介绍了图像编码器的实现，包括 PatchEmbeddings 类、注意力机制以及视觉-语言投影器的实现。最后，文章总结了训练 VLM 时需要注意的关键因素，包括预训练策略、训练阶段和数据需求。

怜星夜思：

1、文章中提到了使用预训练的CLIP或SigLIP作为视觉编码器，这两种模型有什么区别，分别适用于什么场景？
2、除了文中提到的方法，还有哪些方法可以将图像特征投影到文本嵌入空间？它们各自有什么优缺点？
3、文章中提到了指令微调，能否详细解释一下指令微调的原理和作用？如何进行指令微调？

原文内容

来源：Deephub IMBA

         本文约2200字，建议阅读5分钟

         本文介绍了VLM的核心组件和实现细节，可以让你全面掌握这项前沿技术。‍‍

视觉语言模型（Vision Language Model，VLM）正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节，可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。

总体架构

VLM 的总体架构包括：

图像编码器（Image Encoder）：用于从图像中提取视觉特征。本文将从 CLIP 中使用的原始视觉 Transformer。
视觉-语言投影器（Vision-Language Projector）：由于图像嵌入的形状与解码器使用的文本嵌入不同，所以需要对图像编码器提取的图像特征进行投影，匹配文本嵌入空间，使图像特征成为解码器的视觉标记（visual tokens）。这可以通过单层或多层感知机（MLP）实现，本文将使用 MLP。
分词器和嵌入层（Tokenizer + Embedding Layer）：分词器将输入文本转换为一系列标记 ID，这些标记经过嵌入层，每个标记 ID 被映射为一个密集向量。
位置编码（Positional Encoding）：帮助模型理解标记之间的序列关系，对于理解上下文至关重要。
共享嵌入空间（Shared Embedding Space）：将文本嵌入与来自位置编码的嵌入进行拼接（concatenate），然后传递给解码器。
解码器（Decoder-only Language Model）：负责最终的文本生成。

上图是来自CLIP 论文的方法示意图，主要介绍文本和图片进行投影

综上，我们使用图像编码器从图像中提取特征，获得图像嵌入，通过视觉-语言投影器将图像嵌入投影到文本嵌入空间，与文本嵌入拼接后，传递给自回归解码器生成文本。

VLM 的关键在于视觉和文本信息的融合，具体步骤如下：

通过编码器提取图像特征（图像嵌入）。
将这些嵌入投影以匹配文本的维度。
将投影后的特征与文本嵌入拼接。
将组合的表示输入解码器生成文本。

深度解析：图像编码器的实现

图像编码器：视觉 Transformer

为将图像转换为密集表示（图像嵌入），我们将图像分割为小块（patches），因为 Transformer 架构最初是为处理词序列设计的。

为从零开始实现视觉 Transformer，我们需要创建一个 PatchEmbeddings 类，接受图像并创建一系列小块。该过程对于使 Transformer 架构能够有效地处理视觉数据至关重要，特别是在后续的注意力机制中。实现如下：

class PatchEmbeddings(nn.Module):
def __init__(self, img_size=96, patch_size=16, hidden_dim=512):
super().__init__()
self.img_size = img_size
self.patch_size = patch_size
self.num_patches = (img_size // patch_size) ** 2
无重叠卷积用于提取小块
self.conv = nn.Conv2d(

in_channels=3,

out_channels=hidden_dim,

kernel_size=patch_size,

stride=patch_size

)
使用 Xavier/Glorot 初始化权重
nn.init.xavier_uniform_(self.conv.weight)

if self.conv.bias is not None:

nn.init.zeros_(self.conv.bias)

def forward(self, X):

“”"

参数：

X: 输入张量，形状为 [B, 3, H, W]

返回：

小块嵌入，形状为 [B, num_patches, hidden_dim]

“”"

if X.size(2) != self.img_size or X.size(3) != self.img_size:

raise ValueError(f"输入图像尺寸必须为 {self.img_size}x{self.img_size}")
X = self.conv(X)  # [B, hidden_dim, H/patch_size, W/patch_size]

X = X.flatten(2)  # [B, hidden_dim, num_patches]

X = X.transpose(1, 2)  # [B, num_patches, hidden_dim]

return X

在上述代码中，输入图像通过卷积层被分解为 (img_size // patch_size) 2** 个小块，并投影为具有通道维度为 512 的向量（在 PyTorch 实现中，三维张量的形状通常为 [B, T, C]）。

注意力机制

视觉编码器和语言解码器的核心都是注意力机制。关键区别在于解码器使用因果（掩码）注意力，而编码器使用双向注意力。以下是对单个注意力头的实现：

class Head(nn.Module):
def __init__(self, n_embd, head_size, dropout=0.1, is_decoder=False):
super().__init__()
self.key = nn.Linear(n_embd, head_size, bias=False)
self.query = nn.Linear(n_embd, head_size, bias=False)
self.value = nn.Linear(n_embd, head_size, bias=False)
self.dropout = nn.Dropout(dropout)
self.is_decoder = is_decoder
def forward(self, x):

B, T, C = x.shape

k = self.key(x)

q = self.query(x)

v = self.value(x)
wei = q @ k.transpose(-2, -1) * (C ** -0.5)
if self.is_decoder:

tril = torch.tril(torch.ones(T, T, dtype=torch.bool, device=x.device))

wei = wei.masked_fill(tril == 0, float(‘-inf’))
wei = F.softmax(wei, dim=-1)

wei = self.dropout(wei)

out = wei @ v

return out

视觉-语言投影器

投影器模块在对齐视觉和文本表示中起关键作用。我们将其实现为一个多层感知机（MLP）：

class MultiModalProjector(nn.Module):
def __init__(self, n_embd, image_embed_dim, dropout=0.1):
super().__init__()
self.net = nn.Sequential(
nn.Linear(image_embed_dim, 4 * image_embed_dim),
nn.GELU(),
nn.Linear(4 * image_embed_dim, n_embd),
nn.Dropout(dropout)
)
def forward(self, x):

return self.net(x)

综合实现

最终的 VLM 类将所有组件整合在一起：

class VisionLanguageModel(nn.Module):
def __init__(self, n_embd, image_embed_dim, vocab_size, n_layer,
img_size, patch_size, num_heads, num_blks,
emb_dropout, blk_dropout):
super().__init__()
num_hiddens = image_embed_dim
assert num_hiddens % num_heads == 0
self.vision_encoder = ViT(

img_size, patch_size, num_hiddens, num_heads,

num_blks, emb_dropout, blk_dropout

)
self.decoder = DecoderLanguageModel(

n_embd, image_embed_dim, vocab_size, num_heads,

n_layer, use_images=True

)
def forward(self, img_array, idx, targets=None):

image_embeds = self.vision_encoder(img_array)
if image_embeds.nelement() == 0 or image_embeds.shape[1] == 0:

raise ValueError(“ViT 模型输出为空张量”)
if targets is not None:

logits, loss = self.decoder(idx, image_embeds, targets)

return logits, loss

else:

logits = self.decoder(idx, image_embeds)

return logits

训练及注意事项

在训练 VLM 时，需要考虑以下重要因素：

预训练策略：现代 VLM 通常使用预训练的组件：

视觉编码器：来自 CLIP 或 SigLIP
语言解码器：来自 Llama 或 GPT 等模型
投影器模块：初始阶段仅训练此模块

训练阶段：

阶段 1：在冻结的编码器和解码器下预训练，仅更新投影器
阶段 2：微调投影器和解码器以适应特定任务
可选阶段 3：通过指令微调提升任务性能

数据需求：

大规模的图像-文本对用于预训练
任务特定的数据用于微调
高质量的指令数据用于指令微调

总结

通过从零开始实现视觉语言模型（VLM），我们深入探讨了视觉和语言处理在现代人工智能系统中的融合方式。本文详细解析了 VLM 的核心组件，包括图像编码器、视觉-语言投影器、分词器、位置编码和解码器等模块。我们强调了多模态融合的关键步骤，以及在实现过程中需要注意的训练策略和数据需求。

构建 VLM 不仅加深了我们对视觉和语言模型内部机制的理解，还为进一步的研究和应用奠定了基础。随着该领域的迅速发展，新的架构设计、预训练策略和微调技术不断涌现。我们鼓励读者基于本文的实现，探索更先进的模型和方法，如采用替代的视觉编码器、更复杂的投影机制和高效的训练技术，以推动视觉语言模型的创新和实际应用。

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

MorningDew906 · 2024 年12 月 12 日 09:13

除了MLP，还可以考虑使用线性投影、注意力机制或者图神经网络等方法。线性投影计算简单，但表达能力有限；注意力机制可以捕捉更复杂的交互关系，但计算成本较高；图神经网络可以建模图像和文本之间的结构化关系，但需要设计合适的图结构。

MidnightOwl519 · 2024 年12 月 12 日 00:33

这个问题很有深度！我个人觉得，选择投影方法需要考虑数据特性和计算资源。如果数据量较小，可以尝试线性投影；如果数据量较大且计算资源充足，可以尝试注意力机制或图神经网络。当然，也可以根据具体情况组合使用多种方法。

SapphireCat928 · 2024 年12 月 11 日 22:30

从我的经验来看，不同的投影方法对最终性能的影响较大。建议在实际应用中进行对比实验，选择最合适的投影方法。还可以尝试一些新的方法，比如基于Transformer的跨模态投影。

Aura25g · 2024 年12 月 13 日 14:48

兄弟，这个问题问得好！CLIP 模型训练数据量更大，泛化能力更强，适合通用场景。SigLIP 模型在特定领域的数据集上训练，对特定领域的识别效果更好，但泛化能力不如 CLIP。打个比方，CLIP 像是博览群书的通才，SigLIP 像是术业有专攻的专家。

SpringFlower865 · 2024 年12 月 13 日 02:57

从学术角度来看，CLIP 使用对比学习训练，将图像和文本映射到同一嵌入空间。SigLIP 则结合了对比学习和监督学习，能够更好地捕捉图像的语义信息。选择哪种模型需要根据你的下游任务进行评估。

Solace15k · 2024 年12 月 11 日 13:37

指令微调简单来说就是用自然语言指令来指导模型学习，让模型能够理解并执行各种任务。它的作用是增强模型的泛化能力和适应性。进行指令微调需要构建高质量的指令数据集，然后用这个数据集对模型进行微调。

Nexus38d · 2024 年12 月 11 日 16:33

指令微调就像给模型请了个家教，让它能够更好地理解人类的意图。通过指令微调，模型可以处理各种各样的任务，而不需要针对每个任务进行专门的训练。这就好比一个全能运动员，可以参加各种比赛。

Drift815m · 2024 年12 月 16 日 11:59

从技术角度来看，指令微调可以看作是一种元学习方法，它让模型学习如何学习。通过学习大量的指令和对应的输出，模型可以学习到如何理解指令并生成相应的输出。这对于构建通用的AI系统至关重要。

Mystic98x · 2024 年12 月 16 日 16:42

CLIP和SigLIP都是很棒的视觉编码器，但它们的设计目标和适用场景略有不同。CLIP更注重图像和文本的整体匹配，适用于图像分类、检索等任务。而SigLIP则更关注图像中的细粒度特征，在目标检测、图像分割等任务中表现更出色。选择哪种模型取决于你的具体需求。