ホームページ  >  記事  >  テクノロジー周辺機器  >  何兆ものトークン!史上最大のマルチモーダルデータセットの誕生

何兆ものトークン!史上最大のマルチモーダルデータセットの誕生

WBOY
WBOYオリジナル
2024-07-28 09:38:23761ブラウズ

オープンソースのマルチモーダル大規模モデルが普及し始める可能性があります。

何兆ものトークン!史上最大のマルチモーダルデータセットの誕生

Llama 3.1 が見出しを賑わせている一方で、別の非常に重要なリリースが突然登場しました。それは、前例のない規模のオープンソースのマルチモーダル データセットです。

大規模なモデルの場合、データセットの重要性は言うまでもなく、大規模なデータセットなしでは大規模なモデルを構築することは不可能であるとさえ言えます。現在、大規模マルチモーダル モデル (LMM) の開発がブームになっている時期であり、十分な規模の高品質でオープンソースのマルチモーダル データ セットがこの分野での「強いニーズ」になっています。

ただし、オープンソースのテキスト データ セットと比較すると、既存のオープンソースのマルチモーダル データ セットは比較的小さく、多様性に欠けており、そのソースは基本的に HTML ドキュメントであるため、データの幅と多様性が制限されます。これは間違いなく、オープンソース LMM の開発を制限し、オープンソース LMM とクローズドソース LMM の差を非常に大きくします。

最近、ワシントン大学、Salesforce Research、スタンフォード大学の共同チームがこのギャップを埋め、1兆トークンレベルでインターリーブされたマルチモーダルオープンソースデータセットMINT-1T(Multimodal INTerleaved)を構築しました。間違いなく、これは現在利用可能な最大のオープンソース マルチモーダル データセットです。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
  • データセットアドレス: https://github.com/mlfoundations/MINT-1T
  • 論文アドレス: https://arxiv.org/abs/2406.11271
  • 論文タイトル: MINT - 1T: オープンソースのマルチモーダル データを 10 倍に拡張: 1 兆トークンを含むマルチモーダル データセット

MINT-1T には、合計 1 兆のテキスト トークンと 30 億の画像が含まれており、HTML/PDF/ArXiv と他の多くの情報源。 MINT-1T が登場する前は、この分野で最大のオープン ソース データセットは OBELICS で、これには 1,150 億のテキスト トークンと 3 億 5,300 万の画像が含まれており、ソースは HTML のみでした。図 1 は、これらのデータセットを比較しています。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
データセットの構築

まず、チームはさまざまなソース (HTML、PDF、ArXiv など) から大量のマルチモーダル データを収集しました。図 2 は、これらのさまざまなソースのモーダル ドキュメントのサンプル。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
その後、データ品質とセキュリティを向上させるために、テキスト品質フィルタリング、画像フィルタリング、セキュリティフィルタリング(NSFW画像と個人識別情報の削除を含む)、および重複排除を実行しました。図 3 は、これらのデータ フィルタリング プロセスを簡単に示しています。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
最終的に、彼らが入手した MINT-1T データセットには、9,220 億の HTML トークン、1,060 億の PDF トークン、90 億の ArXiv トークンが含まれていました。データ処理プロセス全体で約 420 万 CPU 時間を消費したことは注目に値します。表 1 は、いくつかの一般的なオープンまたはクローズドソースのマルチモーダル データセットを比較しています。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
モデル実験

チームはまた、このデータセットを使用してマルチモーダルモデルをトレーニングする効果を実験し、他のデータセットと比較しました。

彼らが使用したモデル アーキテクチャは Salesforce の XGen-MM であり、彼らが評価するのは、データセットで学習した後のモデルのコンテキスト学習とマルチ画像推論機能です。評価ベンチマークには、ビジュアル説明ベンチマーク (COCO および TextCaps)、ビジュアル質問応答ベンチマーク (VQAv2、OK-VQA、TextVQA、および VizWiz)、およびマルチイメージ推論ベンチマーク (MMMU および Mantis-Eval) が含まれます。

実験結果

HTMLドキュメントでのトレーニング

チームはまず、MINT-1TのHTML部分をOBELICSと比較しました。 HTML ドキュメント上で、これら 2 つのデータセットに基づいて 100 億個のマルチモーダル トークンを使用して 2 つのモデルをトレーニングし、コンテキスト学習のパフォーマンスを評価しました。

表 2 は、一般的なベンチマークでの 4 ショットと 8 ショットのパフォーマンスを示しています。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
VQA (視覚的質問応答) タスクでは、MINT-1T HTML ドキュメントでトレーニングされたモデルのパフォーマンスが OBELICS でトレーニングされたモデルよりも優れていますが、視覚的説明タスクでは前者のパフォーマンスが劣っていることがわかります。平均すると、OBELICS は MINT-1T (HTML) よりもわずかに優れています。

PDF および ArXiv ドキュメントを追加

その後、チームは HTML、PDF、ArXiv ドキュメントを同時に含む MINT-1T 完全なデータ セットでテストしました。通常、100 億個のマルチモーダル トークンをサンプリングします。そのうち 50% は HTML、45% は PDF、5% は ArXiv から得られます。

結果は表 2 にも示されています。MINT-1T 混合データでトレーニングされたモデルは、ほとんどのベンチマークで OBELICS および MINT-1T (HTML) でトレーニングされたモデルよりも優れていることがわかります。

表 3 に示すように、より複雑なマルチモーダル推論タスクでは、MINT-1T でトレーニングされたモデルは、MMMU 上の OBELICS でトレーニングされたモデルよりも優れていますが、Mantis-Eval ベンチマークほどではありません。後者。
何兆ものトークン!史上最大のマルチモーダルデータセットの誕生
より詳細なテストとモデル アーキテクチャの影響については、元の論文を参照してください。

この超大規模なオープンソースのマルチモーダル データ セットが一連の伝説の出発点となり、最終的には Llama シリーズのモデルのようなマルチモーダルな大規模モデル シリーズを生み出すことができるでしょうか?待ってみましょう。

以上が何兆ものトークン!史上最大のマルチモーダルデータセットの誕生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。