집 >기술 주변기기 >일체 포함 >수조 개의 토큰! 역사상 가장 큰 다중 모드 데이터 세트의 탄생

수조 개의 토큰! 역사상 가장 큰 다중 모드 데이터 세트의 탄생

WBOY원래의: 2024-07-28 09:38:23872검색

오픈 소스 다중 모드 대형 모델이 도약하기 시작할 수 있습니다.

值此 Llama 3.1 佔領各大頭條之際，又突然冒出了另一個也非常重要的發布 —— 一個規模空前的開源多模態資料集。

對大模型來說，資料集的重要性不需要多言，甚至可以說沒有大型資料集就不可能有大模型。現在正是多模態大模型（LMM）發展正盛的時候，規模足夠大的優質且開源的多模態資料集已經成為該領域的一大「剛需」。

不過，相較於開源的文字資料集，現有的開源多模態資料集都比較小、多樣性也不足，而且來源基本上都是HTML 文件－這就限制了資料的廣度和多樣性。這無疑限制了開源 LMM 的發展，讓開源 LMM 與閉源 LMM 之間的差異變得非常大。

近日，華盛頓大學、Salesforce Research 和史丹佛大學等機構的聯合團隊填補了這一空白，構建了一個萬億 token 級的交織多模態的開源資料集 MINT-1T（Multimodal INTerleaved）。毫無疑問，這是目前最大的開源多模態資料集。

資料集網址：https://github.com/mlfoundations/MINT-1T
論文地址：https://arxiv.org/abs/2406.112712406. -1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一萬億張文字token 和三億張圖像，並且其有三十億張圖像ArXiv 等多種不同來源。在 MINT-1T 問世之前，該領域最大的開源資料集是 OBELICS，包含 1150 億文字 token 和 3.53 億張圖像，且來源只有 HTML。圖 1 比較了這些資料集。

資料集的建構

首先，該團隊從多樣化的來源（包括HTML、PDF、ArXiv）收集了大量多模態資料，圖2 展示了這些不同的多態性模態文檔樣本。

然後，為了提高資料品質和安全性，他們執行了文字品質過濾、影像過濾、安全過濾（包括去除 NSFW 影像和可識別個人身份的資訊）以及去重。圖 3 簡要展示了這些資料過濾過程。

最終，他們得到的 MINT-1T 資料集包含 9220 億 HTML token、1060 億 PDF token 和 90 億 ArXiv token。值得注意的是，整個資料處理過程耗費了約 420 萬 CPU 小時數。表 1 比較了一些常見的開源或閉源多模態資料集。

模型實驗

該團隊也實驗了使用該資料集訓練多模態模型的效果，並與其它資料集進行了比較。

他們使用的模型架構是 Salesforce 的 XGen-MM，評估的則是模型在資料集上學習之後的上下文學習和多圖像推理能力。評估基準包括：視覺描述基準（COCO 和 TextCaps）、視覺問答基準（VQAv2、OK-VQA、TextVQA 和 VizWiz）、多影像推理基準（MMMU 和 Mantis-Eval）。

實驗結果

在HTML 文件上訓練

該團隊首先對比了MICS-1OB 的HTVoML 是多態資料集；也是基於HTML 文檔，他們基於這兩個資料集分別用100 億多模態token 訓練了兩個模型，並評估了它們的上下文學習效能。

表 2 給出了在常見基準上的 4-shot 和 8-shot 性能。

可以看到，對於 VQA（視覺問答）任務，在 MINT-1T HTML 文件上訓練的模型表現優於在 OBELICS 訓練的模型，但前者在視覺描述任務上表現更差一些。平均而言，OBELICS 比 MINT-1T (HTML) 略好一點。

添加 PDF 和 ArXiv 文件

之後，該團隊又在 MINT-1T 全資料集上進行了測試，即同時包含 HTML、PDF 和 ArXiv 文件。他們通常採樣了 100 億多模態 token，其中 50% 來自 HTML、45% 來自 PDF、5% 來自 ArXiv。

結果同樣見表 2，可以看到在 MINT-1T 混合資料上訓練的模型在大多數基準上都優於在 OBELICS 和 MINT-1T (HTML) 上訓練的模型。

而在更為複雜的多模態推理任務上，如表3 所示，用MINT-1T 訓練的模型在MMMU 上優於用OBELICS 訓練的模型，但在Mantis-Eval 基準上不及後者。

更細粒度的測試和模型架構的影響請參考原論文。

這個超大規模的開源多模態資料集能否成為一系列傳奇的起點，最終造就一個類似 Llama 系列模型那樣的多模態大模型系列呢？讓我們拭目以待吧。

위 내용은 수조 개의 토큰! 역사상 가장 큰 다중 모드 데이터 세트의 탄생의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 html Token github https llama

성명：

이전 기사：Zhijia Technology, 국내 최초 대형 트럭 무인 도로 시험 면허 획득다음 기사：Zhijia Technology, 국내 최초 대형 트럭 무인 도로 시험 면허 획득