论文标题:MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
MINT-1T 共包含一万亿文本 token 和三十亿张图像,并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前,该领域最大的开源数据集是 OBELICS,其包含 1150 亿文本 token 和 3.53 亿张图像,并且来源只有 HTML。图 1 比较了这些数据集。数据集的构建 首先,该团队从多样化的来源(包括 HTML、PDF、ArXiv)收集了大量多模态数据,图 2 展示了这些不同来源的多模态文档样本。然后,为了提高数据质量和安全性,他们执行了文本质量过滤、图像过滤、安全过滤(包括去除 NSFW 图像和可识别个人身份的信息)以及去重。图 3 简要展示了这些数据过滤过程。最终,他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是,整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。模型实验 该团队也实验了使用该数据集训练多模态模型的效果,并与其它数据集进行了比较。 他们使用的模型架构是 Salesforce 的 XGen-MM,评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括:视觉描述基准(COCO 和 TextCaps)、视觉问答基准(VQAv2、OK-VQA、TextVQA 和 VizWiz)、多图像推理基准(MMMU 和 Mantis-Eval)。 实验结果 在 HTML 文档上训练 该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS;因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档,他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型,并评估了它们的上下文学习性能。 表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。可以看到,对于 VQA(视觉问答)任务,在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型,但前者在视觉描述任务上表现更差一些。平均而言,OBELICS 比 MINT-1T (HTML) 略好一点。 PDF- und ArXiv-Dokumente hinzufügen Danach testete das Team den vollständigen MINT-1T-Datensatz, der gleichzeitig HTML-, PDF- und ArXiv-Dokumente enthält. Sie probieren typischerweise 10 Milliarden multimodale Token aus, 50 % aus HTML, 45 % aus PDF und 5 % aus ArXiv. Die Ergebnisse sind auch in Tabelle 2 aufgeführt. Es ist ersichtlich, dass das auf MINT-1T-Mischdaten trainierte Modell bei den meisten Benchmarks das auf OBELICS und MINT-1T (HTML) trainierte Modell übertrifft. Bei komplexeren multimodalen Argumentationsaufgaben ist das mit MINT-1T trainierte Modell besser als das mit OBELICS auf MMMU trainierte Modell, aber nicht so gut wie der Mantis-Eval-Benchmark letztere. Weitere detaillierte Tests und die Auswirkungen der Modellarchitektur finden Sie im Originalpapier. Kann dieser extrem große, multimodale Open-Source-Datensatz zum Ausgangspunkt einer Reihe von Legenden werden und schließlich eine multimodale große Modellreihe wie die Llama-Modellreihe schaffen? Warten wir ab.