AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
マルチモーダルフュージョンは、マルチモーダルインテリジェンスの基本タスクの 1 つです。 マルチモーダルフュージョンの動機は、さまざまなモダリティからの有効な情報を共同利用して、下流タスクの精度と安定性を向上させることです。従来のマルチモーダル融合手法は高品質のデータに依存することが多く、実際のアプリケーションで複雑で低品質のマルチモーダル データに適応するのは困難です。 天津大学、中国人民大学、シンガポール科学技術研究庁、四川大学、西安大学が共同で発表した低品質マルチモーダルデータ融合のレビュー「Multimodal Fusion on Low-quality」 「電子科学技術とハルビン工業大学(深セン)データ:総合調査」では、マルチモーダルデータの融合課題を統一的な観点から紹介し、低品質マルチモーダルデータの既存の融合手法と開発の可能性を整理しています。この分野の方向性。 http://arxiv.org/abs/2404.18947https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning 人間は、複数のモダリティからの情報を融合することで世界を認識します。 一部のモダリティの信号が信頼できない場合でも、人間にはこれらの低品質のマルチモーダルデータ信号を処理し、環境を認識する能力があります。 マルチモーダル学習は大きく進歩しましたが、マルチモーダル機械学習モデルには、現実世界の低品質のマルチモーダル データを効果的に融合する機能がまだ不足しています。実際の経験では、従来のマルチモーダル融合モデルのパフォーマンスは、次のシナリオで大幅に低下します: (1) ノイズの多いマルチモーダル データ: 一部のモダリティの一部の特徴がノイズによって妨害され、元の情報が失われます。 。現実の世界では、未知の環境要因、センサーの故障、伝送中の信号損失によりノイズ干渉が発生し、マルチモーダル融合モデルの信頼性が損なわれる可能性があります。 (2)マルチモーダルデータの欠落: さまざまな実際的な要因により、実際に収集されたマルチモーダルデータサンプルの一部のモダリティが欠落している可能性があります。たとえば、医療分野では、患者のさまざまな生理学的検査結果から構成されるマルチモーダルなデータが重大に欠落している可能性があり、一部の患者は特定の検査を受けたことがない可能性があります。 (3) 不均衡なマルチモーダルデータ: モダリティ間の異種符号化属性と情報品質の違いという矛盾した現象により、モダリティ間の学習の不均衡の問題が発生します。マルチモーダル融合プロセス中、モデルは特定のモダリティに依存しすぎて、他のモダリティに含まれる潜在的に有効な情報を無視する可能性があります。 (4) 動的低品質マルチモーダルデータ: アプリケーション環境の複雑さと変化、異なるサンプル、異なる時間と空間により、モーダル品質は動的に変化する特性を持ちます。低品質のモーダル データの発生は事前に予測することが困難であることが多く、これがマルチモーダル フュージョンに課題をもたらします。 低品質マルチモーダルデータの性質と処理方法を完全に特徴付けるために、この記事では、低品質マルチモーダル融合の分野における現在の機械学習方法を要約し、開発プロセスを体系的にレビューします。この分野では、さらなる研究が必要な問題がさらに予想されます。 図 1. 低品質のマルチモーダル データ分類の概略図。黄色と青は 2 つのモードを表し、色が濃いほど品質が高いことを表します 。 ノイズは、マルチモーダルデータの品質低下の最も一般的な原因の 1 つです。 この記事では主に 2 種類のノイズに焦点を当てます:
。このタイプのノイズは、センサーエラー (医療診断における機器エラーなど)、環境要因 (自動運転における雨や霧など) などの要因によって発生する可能性があり、ノイズは特定のモード内の特定の機能レベルに限定されます。
(2) 意味レベルでのクロスモーダルノイズ。このタイプのノイズは、モダリティ間の高レベルのセマンティクスの不整合によって発生し、フィーチャ レイヤーでのマルチモーダル ノイズよりも処理が困難です。幸いなことに、マルチモーダル データ モード間の相補性と情報の冗長性により、ノイズ除去のために複数のモダリティからの情報を組み合わせることが、マルチモーダル フュージョン プロセスにおいて効果的な戦略であることが証明されています。
機能レベルのマルチモーダルノイズ除去メソッドは、実際のタスクに含まれる特定のモダリティに大きく依存します。
この記事では、主にマルチモーダル画像融合タスクを例として説明します。マルチモーダル画像フュージョンにおける主流のノイズ除去方法には、重み付けフュージョンとジョイント バリエーションが含まれます。
重み付け融合法特徴ノイズがランダムであり、実データが特定の分布に従うことを考慮して、重み付き加算を通じてノイズの影響を排除します結合変動法
は、従来の単一変動法を拡張したものです。 -モーダル画像変分ノイズ除去は、ノイズ除去プロセスを最適化問題解決プロセスに変換し、複数のモダリティからの相補的な情報を使用してノイズ除去効果を向上させることができます。セマンティック レベルのクロスモーダル ノイズは、位置が弱く、または位置がずれているマルチモーダル サンプル ペアから発生します。 たとえば、RGB画像と熱画像を組み合わせるマルチモーダルターゲット検出タスクでは、センサーの違いにより、同じターゲットが両方のモダリティに表示されますが、その正確な位置と姿勢はわずかに異なる場合があります(弱いアライメント)がさまざまなモダリティで発生し、位置情報を正確に推定することが困難になります。
ソーシャルメディアのコンテンツ理解タスクでは、サンプル(Weiboなど)の画像とテキストのモダリティに含まれる意味情報が非常に異なっているか、無関係(完全にずれている)である可能性があり、それがさらに大きな課題をもたらしますマルチモーダル融合へ。クロスモーダル セマンティック ノイズに対処する方法には、ルール フィルタリング、モデル フィルタリング、ノイズに強いモデルの正則化などの方法が含まれます。
データノイズの処理は古典的な機械学習タスクで長い間広く研究されてきましたが、マルチモーダルシナリオでは、モダリティ間の違い、相補性と一貫性をどのように共同利用して、騒音の影響を弱めることは、依然として解決すべき緊急の研究課題です。
さらに、従来の特徴レベルのノイズ除去とは異なり、マルチモーダル大規模モデルの事前トレーニングおよび推論プロセス中に意味レベルのノイズをどのように解決するかは、興味深く、非常に困難な問題です。 ️表 1. ノイズのマルチモーダル融合法の分類
実際のシナリオ収集されたマルチモーダル データは、ストレージ デバイスの損傷や信頼性の低いデータ送信プロセスなどのさまざまな要因により、必然的にモーダル情報の一部が失われることがよくあります。
例: レコメンデーション システムでは、ユーザーの閲覧履歴と信用格付けがマルチモーダル データを構成します。ただし、許可とプライバシーの問題により、ユーザーのすべてのモーダル情報を完全に収集して構築することは不可能な場合があります。マルチモーダルデータ。
医療診断では、一部の病院では設備が限られており、特定の検査の費用が高額であるため、さまざまな患者のマルチモーダル診断データが非常に不完全であることがよくあります。
「欠落マルチモーダルデータの明示的な完了が必要かどうか」という分類原則に従って、欠落マルチモーダルデータ融合手法は次のように分類できます:
(1) 補完ベースのマルチモーダル融合法
補完ベースのマルチモーダル融合法には、欠損モードを 0 値または残差モードで直接埋めるなど、モデルに依存しない補完手法が含まれます。平均;
グラフまたはカーネルに基づく補完メソッド: このタイプのメソッドは、元のマルチモーダル データを補完する方法を直接学習するのではなく、モダリティごとにグラフまたはカーネルを構築し、類似性または相関関係を学習します。
サンプルペア間の情報を収集し、欠落データを補完します。
元の特徴レベルを直接補完します。一部の方法では、敵対的生成ネットワーク GAN やそのバリアントなどの生成モデルを使用して、欠落している特徴を直接補完します。
(2) 完了のないマルチモーダル融合法。
補完ベースのメソッドとは異なり、補完フリーのメソッドは、欠落していないモダリティに含まれる有用な情報を使用して可能な限り最良の表現を融合する方法に焦点を当てます。このタイプのメソッドは、多くの場合、期待される学習 統合表現は制約 を追加し、この表現が観測可能なモーダル データの完全な情報を反映して、マルチモーダル融合の完了プロセスをバイパスできるようにします。 ️ クラスタリング、分類、その他の古典的な機械学習タスクを解決するために国内外で多くの方法が提案されていますが、まだいくつかの深い課題があります。 例: 欠落しているモーダル補完スキームの補完データの品質評価は、しばしば見落とされます。
さらに、演繹的な欠損データの位置情報を使用して欠落モダリティをマスクする戦略自体は、欠落モダリティによって引き起こされる情報ギャップと情報の不均衡を補うことが困難です。 表 2. 欠損マルチモーダル データの融合手法の分類
多くのモーダル学習では、通常、共同トレーニングを使用して、さまざまなモダリティからのデータを統合し、全体的なパフォーマンスと汎化パフォーマンスを向上させます。モデル。ただし、統一された学習目標を使用するこのタイプの広く採用されている共同トレーニング パラダイムは、さまざまなモダリティにおけるデータの異質性を無視しています。
データソースやフォームの点での異なるモダリティの異種性
により、それらは収束速度などの点で異なる特性を持ち、すべてのモダリティを適切に処理して学習することが困難になります。同時に、マルチモーダル共同学習に困難をもたらします
シングルモーダルデータ
の品質にも反映されています。すべてのモダリティは同じ概念を説明しますが、ターゲット イベントまたはターゲット オブジェクトに関連する情報の量は異なります。最尤学習目標に基づくディープ ニューラル ネットワークは、貪欲な学習特性を備えているため、多くの場合、識別情報が高く学習が容易な高品質のモダリティに依存するマルチモーダル モデルが生成されますが、他のモーダル情報のモデル化は不十分です。
これらの課題に対処し、マルチモーダルモデルの学習の質を向上させるために、バランスの取れたマルチモーダル学習
方法分類:
特性の違いに基づく方法
に分類できます。
(1) 広く使用されているマルチモーダル共同トレーニング フレームワークは、シングルモーダル データの学習特性の固有の違いを無視することが多く、モデルのパフォーマンスに悪影響を与える可能性があります。特性の違いに基づく手法は、各モダリティの学習特性の違いから出発し、学習目標、最適化、アーキテクチャの観点からこの問題を解決しようとします。
(2) 最近の研究では、マルチモーダルモデルが他のモダリティを無視しながら特定の高品質な情報モダリティに大きく依存しており
、その結果、すべてのモダリティの学習が不十分であることがさらに判明しました。品質の違いに基づく方法はこの観点から始まり、この問題を解決し、学習目的、最適化方法、モデル アーキテクチャ、データ強化の観点からマルチモーダル モデルにおけるさまざまなモダリティのバランスのとれた利用を促進しようとします。
表 3. バランスの取れたマルチモーダル データ融合手法の分類 この学習手法は主に、異なるモダリティ間の学習特性やデータ品質の違いをターゲットとしています。これらの手法は、学習目的、最適化手法、モデル アーキテクチャ、データ強化などのさまざまな観点からソリューションを提案します。 バランスの取れたマルチモーダル学習は現在急成長している分野ですが、十分に検討されていない理論的および応用的な方向性が数多くあります。たとえば、現在の方法は主に、ほとんどが識別タスクと少数の生成タスクである典型的なマルチモーダル タスクに限定されています。 さらに、マルチモーダル大規模モデルでは、異なる品質のモーダルデータを組み合わせる必要もあります。これに基づいて、マルチモーダル大規模モデルのシナリオでも既存のモデルを拡張することが期待されます。新しいソリューションを研究または設計します。
動的マルチモーダルデータ
は、モダリティの品質が入力サンプルによって変化するという事実を指しますおよびシナリオの動的変化。たとえば、自動運転シナリオでは、システムは RGB センサーと赤外線センサーを介して路面とターゲットの情報を取得します。良好な照明条件下では、RGB カメラは豊かなテクスチャと色をキャプチャできるため、インテリジェント システムの意思決定をより適切にサポートできます。ターゲットの情報; ただし、光が不十分な夜間では、赤外線センサーによって提供される知覚情報の方が信頼性が高くなります。正確かつ安定した融合を実行するために、モデルがさまざまなモダリティの品質の変化を自動的に認識できるようにする方法は、動的マルチモーダル融合法の中心的なタスクです。表 4. 動的マルチモーダル融合手法の分類
動的マルチモーダル融合手法は、大きく 3 つのカテゴリに分類できます:
ヒューリスティック動的融合手法この方法は、マルチモーダル モデルのアプリケーション シナリオに対するアルゴリズム設計者の理解に依存しており、一般に、ターゲットを絞った 動的融合メカニズム
たとえば、RGB/熱信号連携のマルチモーダルターゲット検出タスクでは、研究者らは入力画像の照明状況を動的に評価し、RGB と Fusion の重みを動的に調整する照明認識モジュールをヒューリスティックに設計しました。環境適応のための熱モダリティの研究。輝度が高い場合は、RGB モードが主に意思決定に依存し、逆も同様で、主にサーマル モードが意思決定に依存します。 (2) アテンションメカニズムに基づく動的融合手法: アテンションメカニズムに基づく動的融合手法は、主に
プレゼンテーション層融合
に焦点を当てています。注意メカニズム自体は動的な特性を持っているため、マルチモーダルな動的融合タスクでも自然に使用できます。 自己注意、空間注意、チャネル注意、トランスフォーマーおよびその他のメカニズムは、マルチモーダル融合モデルの構築に広く使用されています。このようなメソッドは、タスクの目標に基づいて、動的融合を実行する方法を自動的に学習します。アテンションメカニズムに基づく融合は、明示的またはヒューリスティックなガイダンスがない場合でも、動的な低品質のマルチモーダルデータにある程度適応できます。
(3) 不確実性を認識した動的融合手法:
不確実性を認識した動的融合手法には、多くの場合、
より明確で説明可能な融合メカニズム
があります。注意メカニズムに基づく複雑な融合モードとは異なり、不確実性を意識した動的融合手法は、モダリティ (証拠、エネルギー、エントロピーなど) の不確実性推定に依存して、低品質のマルチモーダル データに適応します。 具体的には、不確実性の知覚を使用して、入力データの各モードの品質変化を特徴付けることができます。入力サンプルの特定のモダリティの品質が低くなると、そのモダリティに基づくモデルの意思決定の不確実性が高くなり、その後の融合機構の設計に明確な指針を提供します。さらに、ヒューリスティックやアテンション メカニズムと比較して、不確実性を認識した動的融合手法は優れた理論的保証を提供できます。
不確実性を意識した動的融合手法の優位性は、従来のマルチモーダル融合タスクでは実験的および理論的に証明されてきましたが、SOTA のマルチモーダル モデルでは、 CLIP/BLIP などの融合モデルに限定されますが、動的なアイデアにも探求と応用の大きな可能性があります。 さらに、理論的な保証を備えた動的融合メカニズムは、多くの場合、意思決定レベルに限定されます。それを表現レベルで機能させる方法も検討し、検討する価値があります。 以上が低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。