ホームページ >テクノロジー周辺機器 >AI >何兆ものトークン！史上最大のマルチモーダルデータセットの誕生

何兆ものトークン！史上最大のマルチモーダルデータセットの誕生

WBOYオリジナル: 2024-07-28 09:38:23871ブラウズ

オープンソースのマルチモーダル大規模モデルが普及し始める可能性があります。

Llama 3.1 が見出しを賑わせている一方で、別の非常に重要なリリースが突然登場しました。それは、前例のない規模のオープンソースのマルチモーダルデータセットです。

大規模なモデルの場合、データセットの重要性は言うまでもなく、大規模なデータセットなしでは大規模なモデルを構築することは不可能であるとさえ言えます。現在、大規模マルチモーダルモデル (LMM) の開発がブームになっている時期であり、十分な規模の高品質でオープンソースのマルチモーダルデータセットがこの分野での「強いニーズ」になっています。

ただし、オープンソースのテキストデータセットと比較すると、既存のオープンソースのマルチモーダルデータセットは比較的小さく、多様性に欠けており、そのソースは基本的に HTML ドキュメントであるため、データの幅と多様性が制限されます。これは間違いなく、オープンソース LMM の開発を制限し、オープンソース LMM とクローズドソース LMM の差を非常に大きくします。

最近、ワシントン大学、Salesforce Research、スタンフォード大学の共同チームがこのギャップを埋め、1兆トークンレベルでインターリーブされたマルチモーダルオープンソースデータセットMINT-1T（Multimodal INTerleaved）を構築しました。間違いなく、これは現在利用可能な最大のオープンソースマルチモーダルデータセットです。

データセットアドレス: https://github.com/mlfoundations/MINT-1T
論文アドレス: https://arxiv.org/abs/2406.11271
論文タイトル: MINT - 1T: オープンソースのマルチモーダルデータを 10 倍に拡張: 1 兆トークンを含むマルチモーダルデータセット

MINT-1T には、合計 1 兆のテキストトークンと 30 億の画像が含まれており、HTML/PDF/ArXiv と他の多くの情報源。 MINT-1T が登場する前は、この分野で最大のオープンソースデータセットは OBELICS で、これには 1,150 億のテキストトークンと 3 億 5,300 万の画像が含まれており、ソースは HTML のみでした。図 1 は、これらのデータセットを比較しています。

データセットの構築

まず、チームはさまざまなソース (HTML、PDF、ArXiv など) から大量のマルチモーダルデータを収集しました。図 2 は、これらのさまざまなソースのモーダルドキュメントのサンプル。

その後、データ品質とセキュリティを向上させるために、テキスト品質フィルタリング、画像フィルタリング、セキュリティフィルタリング（NSFW画像と個人識別情報の削除を含む）、および重複排除を実行しました。図 3 は、これらのデータフィルタリングプロセスを簡単に示しています。

最終的に、彼らが入手した MINT-1T データセットには、9,220 億の HTML トークン、1,060 億の PDF トークン、90 億の ArXiv トークンが含まれていました。データ処理プロセス全体で約 420 万 CPU 時間を消費したことは注目に値します。表 1 は、いくつかの一般的なオープンまたはクローズドソースのマルチモーダルデータセットを比較しています。

モデル実験

チームはまた、このデータセットを使用してマルチモーダルモデルをトレーニングする効果を実験し、他のデータセットと比較しました。

彼らが使用したモデルアーキテクチャは Salesforce の XGen-MM であり、彼らが評価するのは、データセットで学習した後のモデルのコンテキスト学習とマルチ画像推論機能です。評価ベンチマークには、ビジュアル説明ベンチマーク (COCO および TextCaps)、ビジュアル質問応答ベンチマーク (VQAv2、OK-VQA、TextVQA、および VizWiz)、およびマルチイメージ推論ベンチマーク (MMMU および Mantis-Eval) が含まれます。

実験結果

HTMLドキュメントでのトレーニング

チームはまず、MINT-1TのHTML部分をOBELICSと比較しました。 HTML ドキュメント上で、これら 2 つのデータセットに基づいて 100 億個のマルチモーダルトークンを使用して 2 つのモデルをトレーニングし、コンテキスト学習のパフォーマンスを評価しました。

表 2 は、一般的なベンチマークでの 4 ショットと 8 ショットのパフォーマンスを示しています。

VQA (視覚的質問応答) タスクでは、MINT-1T HTML ドキュメントでトレーニングされたモデルのパフォーマンスが OBELICS でトレーニングされたモデルよりも優れていますが、視覚的説明タスクでは前者のパフォーマンスが劣っていることがわかります。平均すると、OBELICS は MINT-1T (HTML) よりもわずかに優れています。

PDF および ArXiv ドキュメントを追加

その後、チームは HTML、PDF、ArXiv ドキュメントを同時に含む MINT-1T 完全なデータセットでテストしました。通常、100 億個のマルチモーダルトークンをサンプリングします。そのうち 50% は HTML、45% は PDF、5% は ArXiv から得られます。

結果は表 2 にも示されています。MINT-1T 混合データでトレーニングされたモデルは、ほとんどのベンチマークで OBELICS および MINT-1T (HTML) でトレーニングされたモデルよりも優れていることがわかります。

表 3 に示すように、より複雑なマルチモーダル推論タスクでは、MINT-1T でトレーニングされたモデルは、MMMU 上の OBELICS でトレーニングされたモデルよりも優れていますが、Mantis-Eval ベンチマークほどではありません。後者。

より詳細なテストとモデルアーキテクチャの影響については、元の論文を参照してください。

この超大規模なオープンソースのマルチモーダルデータセットが一連の伝説の出発点となり、最終的には Llama シリーズのモデルのようなマルチモーダルな大規模モデルシリーズを生み出すことができるでしょうか?待ってみましょう。

以上が何兆ものトークン！史上最大のマルチモーダルデータセットの誕生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 html Token github https llama

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Zhijia Technology、国内初の大型トラック無人公道試験ライセンスを取得次の記事：Zhijia Technology、国内初の大型トラック無人公道試験ライセンスを取得

続きを見る