小規模、高効率: DeepMind がマルチモーダルソリューション Mirasol 3B を発売-AI-php.cn

ホームページ

テクノロジー周辺機器

小規模、高効率: DeepMind がマルチモーダルソリューション Mirasol 3B を発売

PHPz

Nov 28, 2023 pm 02:19 PM

データ電車

マルチモーダル学習が直面する主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種モダリティを融合する必要があることです。マルチモーダルモデルでは、さまざまなソースからの信号を組み合わせる必要があります。ただし、これらのモダリティには異なる特性があり、単一のモデルに組み合わせるのは困難です。たとえば、ビデオとテキストのサンプリングレートは異なります

最近、Google DeepMind の研究チームは、さまざまなモダリティの機能に従って、マルチモーダルモデルを複数の独立した特殊な自己回帰モデルに分離しました。入力を処理します。

具体的には、この研究では Mirasol3B と呼ばれるマルチモーダルモデルを提案しています。 Mirasol3B は、オーディオおよびビデオ用の時間同期された自己回帰コンポーネントと、コンテキストモダリティ用の自己回帰コンポーネントで構成されます。これらのモードは必ずしも時間的に揃っているわけではありませんが、順番に配置されています。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

論文アドレス: https://arxiv.org/abs/2311.05698

Mirasol3B は、マルチモーダルベンチマークで SOTA レベルに達し、大規模モデルを上回るパフォーマンスを示します。 Mirasol3B は、よりコンパクトな表現を学習し、オーディオビデオ特徴表現のシーケンス長を制御し、時間的対応に基づいてモデリングすることにより、マルチモーダル入力の高度な計算要件を効果的に満たすことができます。

メソッドの紹介

Mirasol3B は、自己回帰モデリングが時間的アライメントに分離されたオーディオ、ビデオ、テキストのマルチモーダルモデルです。モダリティの自己回帰コンポーネント (例:オーディオ、ビデオ）、および時間的に調整されていないコンテキストモダリティ（テキストなど）の自己回帰コンポーネント。 Mirasol3B は、クロスアテンションの重みを使用して、これらのコンポーネントの学習プロセスを調整します。この分離により、モデル内のパラメーター分布がより合理的になり、モダリティ (ビデオとオーディオ) に十分な容量が割り当てられ、モデル全体がより軽量になります。

図 1 に示すように、Mirasol3B は、自己回帰コンポーネントと入力結合コンポーネントという 2 つの主要な学習コンポーネントで構成されています。その中で、自己回帰コンポーネントは、タイムリーな入力の組み合わせのために、ビデオやオーディオなどのほぼ同時にマルチモーダル入力を処理するように設計されています。

#コンテンツを書き換える場合は、元の意味を変更せずに言語を中国語に変更する必要があります。この研究では、時間的に整列したモダリティを時間セグメントに分割し、時間セグメントにおけるオーディオとビデオの結合表現を学習することを提案しています。具体的には、本研究では「Combiner」と呼ばれるモーダル関節特徴学習機構を提案します。「Combiner」は、同じ期間内のモーダル特徴を融合して、よりコンパクトな表現を生成します。

规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

「Combiner」は、元のモーダル入力から一次時空間表現を抽出し、ビデオをキャプチャします。同期オーディオ機能と組み合わせることで、このモデルはさまざまなレートでマルチモーダル入力を受信でき、長いビデオを処理するときに適切にパフォーマンスを発揮します。规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B

「Combiner」は、効率的で有益なモーダル表現のニーズを効果的に満たします。ビデオや他の並行モダリティにおけるイベントやアクティビティを完全にカバーでき、後続の自己回帰モデルで長期的な依存関係を学習するために使用できます。

ビデオ信号とオーディオ信号を処理し、より長いビデオ/オーディオ入力に対応するために、それらは (時間的にほぼ同期された) 小さな部分に分割されます。そして「Combiner」を通じて共同視聴覚表現を学びます。 2 番目のコンポーネントは、コンテキスト、つまりグローバルなテキスト情報などの時間的にずれた信号を処理しますが、これらは依然として連続していることがよくあります。また、自己回帰的であり、結合された潜在空間をクロスアテンション入力として使用します。

学習コンポーネントにはビデオと音声が含まれており、そのパラメーターは 3B ですが、音声のないコンポーネントは 2.9B です。その中で、ほとんどのパラメーターはオーディオとビデオの自己回帰モデルで使用されます。 Mirasol3B は通常 128 フレームのビデオを処理しますが、512 フレームなどのより長いビデオも処理できます。规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B