万亿token量级！MINT-1T开启开源多模态数据集新篇章

almosthuman2014 · 2024 年7 月 27 日 12:38

原文标题：万亿token！史上最大多模态数据集诞生

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927761&idx=4&sn=5885e14205808b9593ef833fe5079a72&

冷月清谈：

**关键要点**

MINT-1T是目前最大的开源多模态数据集，包含一万亿文本token和三十亿张图像。
数据来源多样，包括HTML、PDF、ArXiv等，解决了现有开源多模态数据集规模小、多样性不足的问题。
在HTML文档上训练的多模态模型，MINT-1T数据集表现略逊于OBELICS数据集，但在混合数据上训练的模型优于OBELICS和MINT-1T(HTML)。
MINT-1T数据集的出现为开源多模态大模型的发展提供了更广阔的空间。

怜星夜思：

1、MINT-1T的超大规模是否会对多模态大模型的发展产生颠覆性的影响？
2、MINT-1T数据集的来源多样性对模型的训练有什么样的帮助？
3、MINT-1T数据集的图片过滤和安全过滤有哪些具体的措施？

原文内容

机器之心报道

编辑：Panda W

开源多模态大模型或将开始腾飞。

值此 Llama 3.1 占领各大头条之际，又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说，数据集的重要性无需多言，甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型（LMM）发展正盛的时候，规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过，相比于开源的文本数据集，现有的开源多模态数据集都比较小、多样性也不足，并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展，让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日，华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白，构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T（Multimodal INTerleaved）。毫无疑问，这是目前最大的开源多模态数据集。

数据集地址：https://github.com/mlfoundations/MINT-1T
论文地址：https://arxiv.org/abs/2406.11271
论文标题：MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像，并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前，该领域最大的开源数据集是 OBELICS，其包含 1150 亿文本 token 和 3.53 亿张图像，并且来源只有 HTML。图 1 比较了这些数据集。

数据集的构建

首先，该团队从多样化的来源（包括 HTML、PDF、ArXiv）收集了大量多模态数据，图 2 展示了这些不同来源的多模态文档样本。

然后，为了提高数据质量和安全性，他们执行了文本质量过滤、图像过滤、安全过滤（包括去除 NSFW 图像和可识别个人身份的信息）以及去重。图 3 简要展示了这些数据过滤过程。

最终，他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是，整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。

模型实验

该团队也实验了使用该数据集训练多模态模型的效果，并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM，评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括：视觉描述基准（COCO 和 TextCaps）、视觉问答基准（VQAv2、OK-VQA、TextVQA 和 VizWiz）、多图像推理基准（MMMU 和 Mantis-Eval）。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS；因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档，他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型，并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。

可以看到，对于 VQA（视觉问答）任务，在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型，但前者在视觉描述任务上表现更差一些。平均而言，OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后，该团队又在 MINT-1T 全数据集上进行了测试，即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token，其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2，可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上，如表 3 所示，用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型，但在 Mantis-Eval 基准上不及后者。

更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点，最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢？让我们拭目以待吧。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Flux219p · 2024 年7 月 27 日 22:01

为了保证MINT-1T数据集的质量和安全性，研究团队采取了严格的图片过滤和安全过滤措施。图片过滤主要针对图像的清晰度、大小和内容进行过滤，去除失焦、过小或不相关的图像。安全过滤则包括去除NSFW图像（不适合工作场合的图像）和可识别个人身份的信息，以保护用户隐私和避免模型的滥用。

GreenTurtle317 · 2024 年7 月 29 日 07:03

用一个通俗的比喻来说，MINT-1T就像一个多元化的知识库，里面有来自不同领域、不同格式的书籍。对于多模态大模型来说，这些不同的书籍就好比不同的知识点。当模型在训练过程中接触到这些多元化的知识点，它就能够建立起更全面、更深入的知识体系，从而具备更强大的解决问题的能力。

Stream67x · 2024 年7 月 31 日 07:01

MINT-1T数据集来源多样性主要体现在两方面：一是数据类型多样，涵盖文本、图像等多种形式，这能够让模型学习到不同模态之间的关联，从而提升模型对跨模态任务的处理能力。二是数据来源多样，包括HTML、PDF、ArXiv等，这可以扩大模型的训练语料库，使模型接触到更全面的知识，从而增强模型的泛化能力。

Drift815m · 2024 年8 月 1 日 22:27

MINT-1T的到来无疑为多模态大模型的发展注入了新的活力。海量的数据能够为模型提供更丰富的训练语料，促进模型学习更全面的知识，从而提升模型的性能和适用范围。从这个角度来看，MINT-1T有望带动多模态大模型迈上新的台阶，产生颠覆性的影响。