TokenFD:图文领域首个Token级大一统基座,突破模态GAP

上海交大&美团发布TokenFD,首个Token级图文基座,突破图像级监督的局限,提升文档理解和多模态大模型能力。

原文标题:模态GAP不存在了?图文领域首个token级大一统基座诞生

原文作者:机器之心

冷月清谈:

上海交大联合美团发布了图文领域首个 Token 级大一统基座 TokenFD,旨在解决传统图像级监督基座在处理包含密集文字的文档图像上的局限性。该方案的核心在于构建了包含 2000 万条图像和 18 亿 Token-Mask 对的 TokenIT 数据集,并基于此数据集训练 TokenFD 基座。TokenFD 通过简化的语言编码层,将视觉特征映射到语言编码空间,实现了图像 Token 与语言 Token 在同一特征空间中的共享,从而支持 Token 级的图文交互和各种下游任务。实验结果表明,TokenFD 在文本分割、文本理解和文本检索等任务上均有显著提升,并能赋能多模态大模型,提升 OCR、文档解析等任务的表现。此外,研究团队还推出了基于 TokenFD 的多模态大模型 TokenVL,进一步提升了文档理解能力。

怜星夜思:

1、TokenFD 这种 Token 级图文对齐方式,相比传统的图像级别对齐,最大的优势和潜在的应用场景是什么?除了文章中提到的应用,大家还能想到哪些有趣的场景?
2、TokenIT 数据集包含 18 亿 Token-Mask 对,这个数据量级在图文领域算是什么水平?数据规模对 TokenFD 的性能提升有多大影响?后续继续扩大数据集规模,收益是否会持续线性增长?
3、TokenFD 作为一个图文基座模型,未来在 MLLM(多模态大语言模型)领域有哪些发展潜力?它会给 MLLM 带来哪些新的可能性?

原文内容


CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。


然而,这些经过图像级监督或弱语义训练的基座,并不是处理细粒度密集预测任务的最佳选择,尤其在理解包含密集文字的文档图像上。


为解决这一限制,上交联合美团实现了图文对齐粒度的新突破,其具备三大核心优势:


  • 构建业内首个 token 级图文数据集 TokenIT:该数据集包含 2000 万条公开图像以及 18 亿高质量的 Token-Mask 对。图像中的每个 BPE 子词均对应一个像素级掩码。数据体量是 CLIP 的 5 倍,且比 SAM 多出 7 亿数据对。


  • 构建图文领域首个细粒度大一统基座 TokenFD:仅需通过简单的一层语言编码,依托亿级的 BPE-Mask 对打造出细粒度基座 TokenFD。真正实现了图像 Token 与语言 Token 在同一特征空间中的共享,从而支持 Token 级的图文交互和各种下游任务。


  • TokenVL 打通模态 GAP:进一步开放图像即文本的语义潜力,首次实现在大语言模型中进行 token 级的模态对齐,赋能密集型的多模态文档理解任务。


论文和 demo 已发布,相关数据、模型及代码资源将陆续向社区全面开放。


  • 项目主页:https://token-family.github.io/project_page/
  • 体验地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
  • GitHub:https://github.com/Token-family/TokenFD
  • 论文地址: https://arxiv.org/pdf/2503.02304

图片

首个 Token 级图文数据集 TokenIT

据不完全统计,大约 30% 至 40% 的互联网图像包含可识别的文字,而这一比例在社交媒体平台上更为显著。

如何有效利用这些数据来增强行业基础 AI 生态的发展,一直是研究者们持续探索的方向。然而,目前真实场景数据中的文字标签多为单词级或行级,这与大语言模型所采用的 BPE token 编码规则不完全兼容。

此类数据集的不足,不仅限制了视觉基础模型在细粒度视觉感知方面的表现,也影响了多模态大语言模型在视觉与语言模态间的对齐能力。


为了解决这一限制,他们采用自研的 token 级的视觉语言分词打标技术,提出了业内首个 token 级别的图像文本数据集,填补了这一领域的数据空白,其亮点包括:

规模与多样性

  • 包含 2000 万张图像与 18 亿 Token-Mask 对,覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。

  • 数据量远超 CLIP(5 倍)、SAM(多 7 亿),提供更丰富的语义信息。


细粒度对齐

  • 首创 BPE 分词 + 像素级掩码标注:将文本分割为 BPE 子词(如「un-」、「-able」),每个子词(token)精确对应图像中的局部区域。

  • 支持「图像即文字」的语义映射,为多模态大模型理解字符、公式、表格等复杂结构奠定基础。


首个细粒度基座 TokenFD

先前的视觉基座模型(如 CLIP、DINO)依赖图像级监督,难以捕捉文档、表格等场景中的密集小文本语义,导致下游任务(如 OCR、视觉问答)性能受限。

SAM 具备像素级的分割能力,其受限的语义表示限制了其在文本图像场景的全生态应用。依托自主研发的数亿级 BPE-Mask 对,他们首次实现了 token 级的视觉和语言模态对齐,支持细粒度交互,填补了这一技术空白

在实现上,TokenFD 并不依赖复杂的语言编码器,而是通过简化的 token embedding layer,将视觉编码器提取的视觉特征映射到语言编码空间。

对于 token 级的视觉和语言特征,正样本对确保数值与方向相似,而负样本对则相反。在百亿级 token-mask 数据的显式监督下,TokenFD 真正实现了「图像即文字」,其亮点包括:


支持多任务

  • 文本分割(Zero-Shot 性能提升 18.78%)

  • 文本理解(Zero-Shot 性能提升 1.48%)

  • 文本检索(Zero-Shot 性能提升 50.33%)

  • 未来盼望他们支持可控文本生成/擦除等更多任务

推动 MLLM 发展

  • 赋能多模态大模型(例如 TokenVL)细粒度文字感知能力,显著提升 OCR、文档解析等任务表现。


商业化应用

  • 图像安全审查

  • 基于文字的图像检索(适用于搜索引擎、电商平台、社交平台)

  • 知识检索增强的大模型

据了解,demo 已在 Hugging Face 上线,欢迎体验。它突破了传统基于文字识别的图文检索方式,通过特征空间直接进行相似度匹配,支持任意文字输入进行图像内容查找。


文档理解多模态大模型 TokenVL

通用视觉基础模型在多模态大语言模型中作为图像编码器被广泛应用,推动了图像理解能力的快速发展。

然而,现有的视觉模型在涉及图像中细粒度文本(如密集小文本)的下游任务中仍面临显著挑战,例如文本感知、理解与推理的准确性不足。

这一问题的根源在于当前基座模型缺乏针对文本密集场景的细粒度语义监督,导致在文档理解、图文问答等实际场景中频繁出现预测偏差。

因此作者们系统性地探索了 TokenFD 作为基座模型在通用文档智能领域的潜力。

  • 基座适配度百分百


无需额外训练,TokenFD 可直接替换其他多模态大模型的基座,各项评估基准都得到了提升。

  • 文档理解多模态大模型对齐新范式

基于 TokenFD 作为视觉基础模型,作者们进一步推出了 TokenVL,一种全新的多模态大模型图文对齐预训练范式。

通过利用 TokenIT 作为预训练数据,创新性地通过索引方法提取大语言模型(LLM)中的语言 token,并将其与图像特征图中对应的图像 token 直接匹配,在此过程中引入约束函数以实现精准对齐。

这一方法允许 LLM 在回答问题时能够更直接地参考图像内容,而不仅仅依赖于其强大的语义上下文理解能力,尤其在理解答案的空间位置时更具优势。在多个 UDV 数据集上进行了评测,结果显示出卓越的性能和令人满意的效果。

更多方法和实验细节请参照论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


Token 级别对齐的优势在于能更精细地理解图像中的文本信息,从而在文档理解、图文问答等任务中表现更好。潜在应用场景包括:

1. 教育领域:辅助阅读理解,帮助学生理解图文结合的教材。
2. 工业领域:可以用于复杂图纸的智能分析,提升效率。
3. 医疗健康:分析医学影像报告,辅助医生诊断。

更甚者,未来可以结合AIGC的能力,根据图像的内容和文本描述,智能生成更符合语境的图像或者文本,做到真正的“所见即所得”。

我觉得 TokenFD 最有潜力的地方在于,它可以让 MLLM 更好地理解图像中的“上下文”。以前的 MLLM 可能只是识别出图像里的文字,但无法理解这些文字在图像中的含义。有了 TokenFD,MLLM 就能更好地理解图像的整体语义,从而做出更准确的判断和推理。

我觉得最大的优势是让机器真正理解了“图文之间的关联”,而不是简单的“识别图像里的文字”。这给很多应用带来了新的可能性,比如可以用来做更精准的广告推荐,用户上传一张包含特定文字的图片,就能推荐相关的商品或服务。

谢邀,Token 级对齐相当于把图像理解的粒度细化到了像素级别,这在处理复杂文档和细粒度文本时优势巨大。除了文章里提到的,我觉得在文物修复领域可能有搞头,比如根据残缺的碑文图像自动补全文字信息!

TokenFD 的出现,可以有效提升 MLLM 对图像中细粒度文本的理解能力,这将极大地拓展 MLLM 的应用范围。例如,可以开发出更智能的文档解析工具,自动提取文档中的关键信息;还可以用于开发更精准的图文问答系统,让 MLLM 能够更好地理解用户的意图。

更进一步,TokenFD 有可能赋能 MLLM 实现 “所见即所得” 的编辑能力,用户可以直接通过自然语言指令修改图像中的文本内容,这将给设计、创作等领域带来革命性的变革。

18 亿 Token-Mask 对的数据集,在图文领域绝对是领先水平了。数据规模对深度学习模型的效果提升是毋庸置疑的,但是收益并非线性增长,而是存在一个边际效应。当数据量达到一定程度后,继续增加数据带来的提升会逐渐减小。后续如果想持续提升 TokenFD 的性能,可能需要更关注数据质量和多样性,以及模型结构的优化。

TokenFD 可以看作是 MLLM 的“眼睛”,让 MLLM 能够更清晰地“看到”图像中的细节。我认为这会给 MLLM 带来更多的可能性,比如可以用于开发更智能的图像搜索,用户可以通过描述图像中的文字内容来搜索图像;还可以用于开发更强大的视觉对话系统,让 MLLM 能够与用户进行更自然的图像交流。

数据量当然重要,但是我觉得更重要的是数据标注的质量。如果标注不准确,再多的数据也是噪音。而且,现在大家都在研究小样本学习,是不是可以考虑用更少的 Token-Mask 对,训练出更好的 TokenFD 模型?

就我了解,这个数据量级确实很大了,而且还是 Token 级别的,标注成本很高。数据规模对模型的影响是肯定的,但也不是绝对的,数据质量也很重要。我觉得后续扩大数据集,可能需要考虑引入更多样化的数据,比如不同语言的文本图像,或者更加专业的领域数据,这样才能带来更明显的收益。