ホームページ > 記事 > テクノロジー周辺機器 > 小規模、高効率: DeepMind がマルチモーダル ソリューション Mirasol 3B を発売
マルチモーダル学習が直面する主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種モダリティを融合する必要があることです。マルチモーダル モデルでは、さまざまなソースからの信号を組み合わせる必要があります。ただし、これらのモダリティには異なる特性があり、単一のモデルに組み合わせるのは困難です。たとえば、ビデオとテキストのサンプリング レートは異なります
最近、Google DeepMind の研究チームは、さまざまなモダリティの機能に従って、マルチモーダル モデルを複数の独立した特殊な自己回帰モデルに分離しました。入力を処理します。
具体的には、この研究では Mirasol3B と呼ばれるマルチモーダル モデルを提案しています。 Mirasol3B は、オーディオおよびビデオ用の時間同期された自己回帰コンポーネントと、コンテキスト モダリティ用の自己回帰コンポーネントで構成されます。これらのモードは必ずしも時間的に揃っているわけではありませんが、順番に配置されています。
論文アドレス: https://arxiv.org/abs/2311.05698
Mirasol3B は、マルチモーダル ベンチマークで SOTA レベルに達し、大規模モデルを上回るパフォーマンスを示します。 Mirasol3B は、よりコンパクトな表現を学習し、オーディオビデオ特徴表現のシーケンス長を制御し、時間的対応に基づいてモデリングすることにより、マルチモーダル入力の高度な計算要件を効果的に満たすことができます。
Mirasol3B は、自己回帰モデリングが時間的アライメントに分離されたオーディオ、ビデオ、テキストのマルチモーダル モデルです。モダリティの自己回帰コンポーネント (例:オーディオ、ビデオ)、および時間的に調整されていないコンテキスト モダリティ(テキストなど)の自己回帰コンポーネント。 Mirasol3B は、クロスアテンションの重みを使用して、これらのコンポーネントの学習プロセスを調整します。この分離により、モデル内のパラメーター分布がより合理的になり、モダリティ (ビデオとオーディオ) に十分な容量が割り当てられ、モデル全体がより軽量になります。
図 1 に示すように、Mirasol3B は、自己回帰コンポーネントと入力結合コンポーネントという 2 つの主要な学習コンポーネントで構成されています。その中で、自己回帰コンポーネントは、タイムリーな入力の組み合わせのために、ビデオやオーディオなどのほぼ同時にマルチモーダル入力を処理するように設計されています。
#コンテンツを書き換える場合は、元の意味を変更せずに言語を中国語に変更する必要があります。 この研究では、時間的に整列したモダリティを時間セグメントに分割し、時間セグメントにおけるオーディオとビデオの結合表現を学習することを提案しています。具体的には、本研究では「Combiner」と呼ばれるモーダル関節特徴学習機構を提案します。 「Combiner」は、同じ期間内のモーダル特徴を融合して、よりコンパクトな表現を生成します。「Combiner」は、元のモーダル入力から一次時空間表現を抽出し、ビデオをキャプチャします。同期オーディオ機能と組み合わせることで、このモデルはさまざまなレートでマルチモーダル入力を受信でき、長いビデオを処理するときに適切にパフォーマンスを発揮します。
「Combiner」は、効率的で有益なモーダル表現のニーズを効果的に満たします。ビデオや他の並行モダリティにおけるイベントやアクティビティを完全にカバーでき、後続の自己回帰モデルで長期的な依存関係を学習するために使用できます。
ビデオ信号とオーディオ信号を処理し、より長いビデオ/オーディオ入力に対応するために、それらは (時間的にほぼ同期された) 小さな部分に分割されます。そして「Combiner」を通じて共同視聴覚表現を学びます。 2 番目のコンポーネントは、コンテキスト、つまりグローバルなテキスト情報などの時間的にずれた信号を処理しますが、これらは依然として連続していることがよくあります。また、自己回帰的であり、結合された潜在空間をクロスアテンション入力として使用します。
学習コンポーネントにはビデオと音声が含まれており、そのパラメーターは 3B ですが、音声のないコンポーネントは 2.9B です。その中で、ほとんどのパラメーターはオーディオとビデオの自己回帰モデルで使用されます。 Mirasol3B は通常 128 フレームのビデオを処理しますが、512 フレームなどのより長いビデオも処理できます。
パーティションと「コンバイナー」モデル アーキテクチャの設計により、さらにフレームを追加します。ブロックのサイズや数などによってパラメータがわずかに増加するだけで、長いビデオにはより多くのパラメータとより多くのメモリが必要になるという問題が解決されます。
この調査では、標準 VideoQA ベンチマーク、長時間ビデオ VideoQA ベンチマーク、およびオーディオ ビデオ ベンチマークで Mirasol3B をテストし、評価しました。
VideoQA データ セット MSRVTTQA のテスト結果は、以下の表 1 に示されています。Mirasol3B は、現在の SOTA モデルだけでなく、PaLI-X や Flamingo などのより大きなモデルも上回っています。
長いビデオの質疑応答に関して、この研究では、ActivityNet-QA および NExTQA データ セットで Mirasol3B をテストおよび評価しました。結果は次のとおりです。表示:
最終的に、調査ではオーディオビデオのベンチマークに KineticsSound、VGG-Sound、および Epic-Sound を選択しました。そしてオープンな生成評価を採用しました。実験結果を以下の表 3 に示します。
#興味のある読者は、論文の原文を読んで、研究内容についてさらに詳しく知ることができます。
以上が小規模、高効率: DeepMind がマルチモーダル ソリューション Mirasol 3B を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。