首頁  >  文章  >  科技週邊  >  太全了!多模態深度學習的綜述!

太全了!多模態深度學習的綜述!

WBOY
WBOY轉載
2024-04-08 09:10:02780瀏覽

1.介紹

我們對世界的體驗是多模態的-我們看到物體,聽到聲音,感覺到質地,聞到氣味,嚐到味道。模態是指某個條件發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特徵。為了讓人工智慧在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的訊號。

例如,圖像通常與標籤和文字解釋相關聯,文字包含圖像,以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。這些數據被稱為多模態大數據,包含豐富的多模態和跨模態訊息,對傳統的數據融合方法提出了巨大的挑戰。

這篇綜述中,我們會介紹一些開創性的深度學習模型來融合這些多模態大數據。隨著對多模態大數據的探索越來越多,仍有一些挑戰需要解決。因此,本文對多模態資料融合的深度學習進行了綜述,旨在為讀者(無論其原始社區如何)提供多模態深度學習融合方法的基本原理,並激發深度學習的新型多模態資料融合技術。

太全了!多模態深度學習的綜述!

透過多模態深度學習,結合不同的模態或資訊類型來提高效果,從直觀上看是一項很有吸引力的任務,但在實踐中,如何結合不同的噪音水平和模態之間的衝突是一個挑戰。此外,模型對預測結果有不同的定量影響。在實務上最常見的方法是將不同輸入的進階嵌入連接起來,然後套用softmax。

太全了!多模態深度學習的綜述!

種方法的問題是,它將給予所有子網路/模式同等的重要性,這在現實情況中是非常不可能的。這裡需要採用子網路的加權組合,以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。

太全了!多模態深度學習的綜述!

2.具代表性的深度學習架構   

在本節中,我們將介紹多模態資料融合深度學習模型的代表性深度學習架構。具體而言,給出了深度架構的定義、前饋運算和反向傳播運算,以及典型的變體。總結了代表性模型。

 表1:代表性深度學習模型摘要。

太全了!多模態深度學習的綜述!

2.1 深度信念網路(DBN)  

限制玻爾茲曼機(RBM)是深度信念網路的基本區塊(Zhang, Ding, Zhang, & Xue, 2018; Bengio, 2009年)。 RBM是玻爾茲曼機的特殊變體(見圖1),它由可見層和隱藏層組成;可見層和隱藏層之間存在全連接,但是同一層內的單元之間沒有連接。 RBM也是一種生成模型,它使用能量函數來捕捉可見單元和隱藏單元之間的機率分佈。透過使用能量函數的導數,可以計算可見單元與隱藏單元之間單元的機率分佈。 RBM可以捕捉單一元素和隱藏單元之間的機率分佈。 RBM中的單元之間沒有連接,除了同一層內的單元之間不存在任何連接之外,所有單元都透過全連接連接。 RBM也使用能量函數來計算可見單元和隱藏單元之間的機率分佈。使用RBM的機率函數,可以捕獲單元之間的機率分佈。

最近,有人提出了一些先進的RBM來提高效能。例如,為了避免網路過度擬合,Chen, Zhang, Yeung, and Chen (2017)設計了稀疏玻爾茲曼機,該機基於分層潛在樹學習網路結構。 Ning, Pittman, and Shen (2018) 將快速對比發散演算法引入 RBM,其中基於邊界的濾波和 delta 積用於減少計算中的冗餘點積計算。為了保護多維資料的內部結構,Ju et al. ( 2019) 提出了張量 RBM,學習隱藏在多維資料中的高階分佈,其中使用張量分解來避免維災難。

DBM は典型的なディープ アーキテクチャであり、複数の RBM によってスタックされます (Hinton & Salakhutdinov、2006)。これは、エネルギーを活用して、可視オブジェクトと対応するラベルの間の接合部の分布を捕捉できる、事前トレーニングおよび微調整トレーニング戦略に基づく生成モデルです。事前トレーニングでは、各隠れ層が教師なしポリシーでトレーニングされた RBM として貪欲にモデル化されます。その後、各隠れ層は、教師あり戦略のトレーニング ラベルの識別情報を通じてさらにトレーニングされます。 DBN は、データの次元削減、表現学習、セマンティック ハッシュなど、多くの分野の問題を解決するために使用されています。代表的な DBM を図 1 に示します。

図 1:

太全了!多模態深度學習的綜述!

##2.2 スタック型オートエンコーダー (SAE)

スタックド オートエンコーダー (SAE) は、エンコーダー/デコーダー アーキテクチャの典型的な深層学習モデルです (Michael、Olivier、Mario、2018; Weng、Lu、Tan、および Zhou、2016)。元の入力を教師なし-教師ありの方法で中間表現に変換することで、入力の簡潔な特徴をキャプチャできます。 SAE は、次元削減 (Wang, Yao, & Zhao, 2016)、画像認識 (Jia, Shao, Li, Zhao, & Fu, 2018)、テキスト分類 (Chen & Zaki, 2017) など、多くの分野で広く使用されています。図 2 は、代表的な SAE を示しています。

図 2:

太全了!多模態深度學習的綜述!

##2.3 畳み込みニューラル ネットワーク (CNN)

DBN と SAE は完全に接続されたニューラル ネットワークです。どちらのネットワークでも、隠れ層のすべてのニューロンが前の層のすべてのニューロンに接続されており、このトポロジにより多数の接続が作成されます。これらの接続の重みをトレーニングするために、完全に接続されたニューラル ネットワークでは、計算集約型の過学習や過小学習を避けるために多数の学習オブジェクトが必要になります。さらに、全結合トポロジでは、ニューロン間に含まれる特徴の位置情報が考慮されません。したがって、完全に接続されたディープ ニューラル ネットワーク (DBN、SAE、およびそのバリアント) は、高次元データ、特に大きな画像や大きな音声データを処理できません。

畳み込みニューラル ネットワークは、データのローカル トポロジーを考慮した特別なディープ ネットワークです (Li、Xia、Du、Lin、& Samat、2017; Sze、Chen、Yang、エマー、2017)。畳み込みニューラル ネットワークには、完全に接続されたネットワークと、畳み込み層とプーリング層を含む制約付きネットワークが含まれます。制約付きネットワークでは、畳み込み演算とプーリング演算を使用して、局所的な受容野とパラメーターの削減を実現します。 DBN や SAE と同様、畳み込みニューラル ネットワークは確率的勾配降下法アルゴリズムを介してトレーニングされます。医療画像認識 (Maggiori、Tarabalka、Charpiat、および Alliez、2017) および意味論的分析 (Hu、Lu、Li、および Chen、2014) において大きな進歩を遂げました。代表的な CNN を図 3 に示します。

図 3:

太全了!多模態深度學習的綜述!

2.4 リカレント ニューラル ネットワーク (RNN)

リカレント ニューラル ネットワークは、シリアル データを処理するニューラル コンピューティング アーキテクチャです (Martens & Sutskever、2011; Sutskever、Martens、& Hinton、2011)。ディープ フォワード アーキテクチャ (DBN、SAE、CNN) とは異なり、入力パターンを出力結果にマッピングするだけでなく、隠れユニット間の接続を利用して隠れた状態を出力に転送します (Graves & Schmidhuber、2008)。これらの隠れた接続を使用することにより、RNN は時間的な依存関係をモデル化し、それによって時間次元のオブジェクト間でパラメーターを共有します。音声分析 (Mulder, Bethard, & Moens, 2015)、画像キャプション (Xu et al., 2015)、言語翻訳 (Graves & Jaitly, 2014) などのさまざまな分野に適用され、優れたパフォーマンスを実現しています。ディープフォワードアーキテクチャと同様に、その計算にはフォワードパスステージとバックプロパゲーションステージも含まれます。フォワードパス計算では、RNN は入力状態と隠れ状態を同時に取得します。バックプロパゲーションの計算では、時間バックプロパゲーション アルゴリズムを使用して、タイム ステップの損失をバックプロパゲーションします。図 4 は、代表的な RNN を示しています。

図 4:

太全了!多模態深度學習的綜述!

3. マルチモーダル データ融合のための深層学習

#このセクションでは、モデル タスク、モデル フレームワーク、評価データセットの観点から、最も代表的なマルチモーダル データフュージョン ディープ ラーニング モデルをレビューします。これらは、使用される深層学習アーキテクチャに基づいて 4 つのカテゴリに分類されます。表 2 は、代表的なマルチモーダル深層学習モデルをまとめたものです。

表 2:

代表的なマルチモーダル深層学習モデルの概要。

太全了!多模態深度學習的綜述!

3.1 ネットワークベースのディープビリーフマルチモーダルデータフュージョン

3.1.1 例 1

Srivastava と Salakhutdinov (2012) は、さまざまなモダリティ (画像、テキスト、音声など) の共同分布にあるマルチモーダル データをフィッティングしてマルチモーダル表現を学習することにより、深層ボルツマン学習モデルに基づくマルチモーダル生成モデルを提案しました。

太全了!多模態深度學習的綜述!

提案されたマルチモーダル DBN の各モジュールは、教師なしで層ごとに初期化され、MCMC に基づく近似手法を使用します。モデルトレーニング。

学習されたマルチモーダル表現を評価するために、欠落モダリティ タスクの生成、共同表現タスクの推論、識別タスクなど、多数のタスクが実行されます。実験では、学習されたマルチモーダル表現が必要な特性を満たしているかどうかを検証します。

3.1.2 例 2

アルツハイマー病を早期に効果的に診断するために、Suk、Lee、Shen およびアルツハイマー病の神経画像診断Initiative (2014) は、マルチモーダル データからの補完的な知識を融合できるマルチモーダル ボルツマン モデルを提案しました。具体的には、浅い特徴学習方法によって引き起こされる制限に対処するために、DBN を使用して、ドメイン固有の表現を階​​層的な抽象表現に転送することで、各モダリティの深い表現を学習します。次に、単層 RBM が、各モダリティからの階層的な抽象表現の線形結合である連結ベクトルに基づいて構築されます。これは、さまざまなマルチモーダル特徴の結合分布を構築することによってマルチモーダル表現を学習するために使用されます。最後に、提案されたモデルは 3 つの典型的な診断に基づいて ADNI データセットで広範に評価され、最先端の診断精度が達成されます。

3.1.3 例 3

人間の姿勢を正確に推定するために、Ouyang、Chu、および Wang (2014) はマルチソース深度を設計しました。高次空間における物体パターンの同時分布を抽出することで、混合タイプ、外観スコア、変形モダリティからマルチモーダル表現を学習するモデルを学習します。人間のポーズのマルチソースディープモデルでは、条件付きランダムフィールド理論に基づいて、さまざまな身体部位を組み合わせた画像構造モデルから、広く使用されている 3 つのモダリティが抽出されます。マルチモーダル データを取得するには、線形サポート ベクター マシンを介してグラフィカル構造モデルをトレーニングします。次に、3 つの特徴のそれぞれが 2 層の制限付きボルツマン モデルに入力され、特徴固有の表現から高次姿勢空間の抽象表現が取得されます。教師なし初期化を通じて、各モダリティ固有の制限付きボルツマン モデルは、グローバル空間の固有表現を捕捉します。次に、RBM を使用して、高レベルのブレンド タイプ、外観スコア、変形表現の連結ベクトルに基づいて人間のポーズ表現をさらに学習します。提案されたマルチソース深層学習モデルをトレーニングするために、身体の位置と人間の検出の両方を考慮したタスク固有の目的関数が設計されます。提案されたモデルは LSP、PARSE、UIUC で検証され、最大 8.6% の改善が見られます。

最近、DBN に基づく新しいマルチモーダル特徴学習モデルがいくつか提案されています。たとえば、Amer、Shields、Siddiquie、および Tamrakar (2018) は、条件付き RBM を使用してモーダルおよびクロスモーダル特徴を追加の識別ラベル情報とともに抽出する、逐次イベント検出のためのハイブリッド アプローチを提案しました。 Al-Waisy、Qahwaji、Ipson、および Al-Fahdawi (2018) は、顔認識に対するマルチモーダル アプローチを導入しました。このアプローチでは、DBN ベースのモデルを使用して、カーブレット変換によってキャプチャされたローカルの手作り特徴のマルチモーダル分布をモデル化します。これにより、ローカル特徴と深い特徴の利点を統合できます (Al-Waisy et al.、2018)。

3.1.4 概要

これらの DBN ベースのマルチモーダル モデルは、確率グラフ ネットワークを使用して、モダリティ固有の表現を空間内の共有セマンティック特徴に変換します。 。次に、モダリティにわたる共同分布が、共有空間の特性に基づいてモデル化されます。これらの DBN ベースのマルチモーダル モデルは、教師なし、半教師あり、教師ありの学習戦略において、より柔軟で堅牢です。これらは、入力データの有益な特徴をキャプチャするのに最適です。ただし、マルチモーダル データの空間的および時間的トポロジーは無視されます。

3.2 スタック型オートエンコーダに基づくマルチモーダル データ融合

3.2.1 例 4

Ngiam et al マルチモーダル. (2011) によって提案された深層学習は、スタック型オートエンコーダ (SAE) に基づくマルチモーダル データ融合の最も代表的な深層学習モデルです。この深層学習モデルは、クロスモーダル表現学習と共有モーダル表現学習という 2 つのデータ融合問題を解決することを目的としています。前者は、他のモダリティからの知識を活用してより優れた単一モーダル表現をキャプチャすることを目的とし、後者は中間レベルでモダリティ間の複雑な相関関係を学習します。これらの目標を達成するために、表 3 と図 6 に示すように、マルチモーダル学習、クロスモーダル学習、および共有モーダル学習という 3 つの学習シナリオが設計されています。

図 6:

太全了!多模態深度學習的綜述! マルチモーダル、クロスモーダル、および共有モーダル学習のアーキテクチャ。

表 3: マルチモーダル学習の設定。

太全了!多模態深度學習的綜述!

マルチモーダル学習シナリオでは、オーディオ スペクトログラムとビデオ フレームが線形にベクトルに接続されます。連結されたベクトルはスパース制限ボルツマン マシン (SRBM) に入力され、オーディオとビデオの相関関係が学習されます。このモデルは、相関関係が元のレベルの高次元表現に暗黙的に含まれており、単層 SRBM ではそれらをモデル化できないため、複数のモダリティのシャドウ ジョイント表現のみを学習できます。これにヒントを得て、中間レベル表現の連結ベクトルが SRBM に入力されて、複数のモダリティの相関関係がモデル化され、それによってパフォーマンスが向上します。

クロスモーダル学習シナリオでは、モダリティ間の相関関係を明示的に学習するために、ディープスタックされたマルチモーダル オートエンコーダーが提案されています。具体的には、音声とビデオの両方が特徴学習の入力として提示され、教師ありトレーニングとテストではそのうちの 1 つだけがモデルに入力されます。モデルはマルチモーダル学習方式で初期化され、クロスモーダル関係を適切にシミュレートできます。

共有モーダル表現では、ノイズ除去オートエンコーダーによって動機づけられ、モダリティ固有のディープスタックされたマルチモーダルオートエンコーダーが導入され、特に 1 つのモダリティが欠落している場合のモダリティ間の関係を調査します。モダリティの 1 つをゼロに置き換えることによって拡大されたトレーニング データセットは、特徴学習のためにモデルに入力されます。

最後に、タスク固有の特徴学習におけるマルチモーダル深層学習のパフォーマンスを評価するために、CUAVE および AVLetters データセットに対して詳細な実験が行われます。

3.2.2 例 5

一連の画像 (特にビデオ) から視覚的にも意味的にも有効な人間の骨格を生成するには、Hong Yu、Wan、Tao、および Wang (2015) は、画像とポーズの融合関係をキャプチャするためのマルチモーダル ディープ オートエンコーダーを提案しました。特に、提案されたマルチモーダルディープオートエンコーダーは、2D 画像と 3D ポーズの間の非線形マッピングを構築するための 3 段階の戦略を通じてトレーニングされます。特徴融合段階では、マルチビュー ハイパーグラフの低ランク表現を利用して、多様体学習に基づいて一連の画像特徴 (指向性勾配ヒストグラムや形状コンテキストなど) から内部 2D 表現を構築します。第 2 段階では、単層オートエンコーダーがトレーニングされて、2D 画像間の特徴を再構成することで 3D ポーズを復元するために使用される抽象表現を学習します。一方、単層オートエンコーダーは、3D ポーズの抽象表現を学習するために同様の方法でトレーニングされます。各単一モダリティの抽象表現を取得した後、ニューラル ネットワークを使用して、2 つのモーダル相互表現間の二乗ユークリッド距離を最小化することにより、2D 画像と 3D ポーズ間のマルチモーダル相関を学習します。提案されたマルチモーダルディープオートエンコーダーの学習は、初期化段階と微調整段階で構成されます。初期化では、マルチモーダルディープオートエンコーダーの各サブパートのパラメーターが、対応するオートエンコーダーとニューラルネットワークからコピーされます。次に、確率的勾配降下法アルゴリズムを通じてモデル全体のパラメーターがさらに微調整され、対応する 2 次元画像から 3 次元のポーズが構築されます。

3.2.3 概要

SAE に基づくマルチモーダル モデルは、エンコーダ/デコーダ アーキテクチャを採用し、教師なしの方法で再構築します。このメソッドは、固有のモーダル特徴とクロスモーダル特徴を抽出します。これらは完全接続モデルである SAE に基づいているため、多くのパラメーターをトレーニングする必要があります。さらに、マルチモーダル データの空間的および時間的トポロジーは無視されます。

3.3 畳み込みニューラルネットワークに基づくマルチモーダルデータ融合

3.3.1 例 6

シミュレーションするにはMa、Lu、Shang、Li (2015) は、画像と文間の意味マッピングの分布を考慮して、マルチモーダル畳み込みニューラル ネットワークを提案しました。意味的な関連性を完全に捉えるために、単語レベル、ステージ レベル、文レベルの 3 つのレベルの融合戦略がエンドツーエンドのアーキテクチャで設計されています。このアーキテクチャは、イメージング サブネット、マッチング サブネット、およびマルチモーダル サブネットで構成されます。画像サブネットは、Alexnet や Inception などの代表的な深層畳み込みニューラル ネットワークであり、画像入力を効率的に簡潔な表現にエンコードします。マッチング サブネットワークは、画像コンテンツを意味空間内の文の単語断片に関連付ける結合表現をモデル化します。

3.3.2 例 7

視覚認識システムを無制限の数の離散カテゴリに拡張するには、Frome et al. (2013)テキストデータの意味情報のために、マルチモーダル畳み込みニューラルネットワークが提案されています。ネットワークは言語サブモデルと視覚サブモデルで構成されます。言語サブモデルはスキップグラム モデルに基づいており、テキスト情報を意味空間の密な表現に転送できます。視覚サブモデルは、Alexnet などの代表的な畳み込みニューラル ネットワークであり、視覚特徴をキャプチャするために 1000 クラスの ImageNet データセットで事前トレーニングされています。画像とテキストの間の意味論的な関係をモデル化するために、言語と視覚のサブモデルが線形投影レイヤーを介して結合されます。各サブモデルは、各モダリティのパラメーターを使用して初期化されます。その後、この視覚意味論的マルチモーダル モデルをトレーニングするために、ドット積類似性とヒンジ ランク損失を組み合わせることにより、正しい画像とラベルのペアに高い類似性スコアを提供できる新しい損失関数が提案されます。このモデルは、ImageNet データセット上で最先端のパフォーマンスを生成し、意味的に信じがたい結果を回避します。

3.3.3 概要

CNN に基づくマルチモーダル モデルは、ローカル フィールドとプーリング操作を通じてモダリティ間の関係を学習できます。これらは、マルチモーダル データの空間トポロジを明示的にモデル化します。また、パラメータの数が大幅に削減された完全に接続されたモデルではありません。

3.4 リカレント ニューラル ネットワークに基づくマルチモーダル データ フュージョン

3.4.1 例 8

画像のキャプションを生成するために、Mao et al. (2014) はマルチモーダルリカレントニューラルアーキテクチャを提案しました。このマルチモーダルリカレント ニューラル ネットワークは、画像と文章の間の確率的な相関関係を橋渡しできます。これは、学習された画像とテキストのマッピングに基づいて文データベース内の対応するキャプションを取得するため、新しい画像キャプションを生成できないという以前の作品の制限に対処します。以前の研究とは異なり、マルチモーダルリカレントニューラルモデル (MRNN) は、単語と画像が与えられた意味空間全体にわたる結合分布を学習します。画像が提示されると、キャプチャされた結合分布に基づいて文章が逐語的に生成されます。具体的には、図 7 に示すように、マルチモーダルリカレント ニューラル ネットワークは、言語サブネット、ビジュアル サブネット、およびマルチモーダル サブネットで構成されます。言語サブネットワークは、効率的なタスク固有の表現を捕捉する 2 層の単語埋め込み部分と、文の時間的依存をモデル化する 1 層のリカレント ニューラル 部分で構成されます。ビジョン サブネットは本質的に、Alexnet、Resnet、Inception などの深層畳み込みニューラル ネットワークであり、高次元の画像をコンパクトな表現にエンコードします。最後に、マルチモーダル サブネットワークは、学習された言語と視覚表現の共同意味論的分布をモデル化する隠れたネットワークです。

図 7:

太全了!多模態深度學習的綜述!

##3.4.2 例 9

一目で画像の豊富な説明を生成できない現在の視覚認識システムの限界に対処するために、視覚データとテキストデータの間のモーダル間の関係を橋渡しするマルチモーダル位置合わせモデルが提案されています (Karpathy & Li、2017)。これを達成するために、二重スキームが提案されました。まず、視覚的セマンティック埋め込みモデルは、マルチモーダル トレーニング データセットを生成するように設計されています。次に、このデータセットでマルチモーダル RNN をトレーニングして、画像の豊富な記述を生成します。

視覚的意味埋め込みモデルでは、地域畳み込みニューラル ネットワークを使用して、文に対応するコンテンツの十分な情報を含む豊富な画像表現を取得します。次に、双方向 RNN を使用して、各文を画像表現と同じ次元の密なベクトルにエンコードします。さらに、画像と文章の間の意味的類似性を測定するためのマルチモーダルスコアリング関数が提供されます。最後に、マルコフランダム場法を使用してマルチモーダルデータセットを生成します。

マルチモーダル RNN では、テキスト コンテンツと画像入力に基づいた、より効果的な拡張モデルが提案されます。マルチモーダル モデルは、画像入力をエンコードする畳み込みニューラル ネットワークと、画像の特徴と文章をエンコードする RNN で構成されます。モデルは確率的勾配降下法アルゴリズムによってもトレーニングされます。どちらのマルチモーダル モデルも、Flickr および Mscoco データセットで広範囲に評価され、最先端のパフォーマンスを実現しています。

3.4.3 概要

RNN に基づくマルチモーダル モデルは、隠れた状態の明示的な状態転送を利用して隠れた状態を分析できます。単位計算、マルチモーダル データの時間依存性。彼らは、パラメータをトレーニングするために時間逆伝播アルゴリズムを使用します。計算は隠れた状態の転送で実行されるため、高性能デバイスでは並列化が困難です。

4. 概要と展望

DBN、SAE、CNN、およびRNN 学習モデル。これらの先駆的なモデルは、すでにある程度の進歩をもたらしています。ただし、これらのモデルはまだ準備段階にあるため、課題が残っています。

まず第一に、マルチモーダル データ融合深層学習モデルには多数の自由重み、特にターゲット タスクにほとんど影響を与えない冗長パラメーターが存在します。データの特徴的な構造を捉えるこれらのパラメーターをトレーニングするために、バックプロパゲーション アルゴリズムに基づくマルチモーダル データ融合深層学習モデルに大量のデータが入力されますが、これは計算量と時間がかかります。したがって、既存の圧縮戦略に基づいて新しいマルチモーダルディープラーニング圧縮方法を設計する方法も、潜在的な研究の方向性です。

第二に、マルチモーダル データには、クロスモーダル情報だけでなく、豊富なクロスモーダル情報も含まれています。したがって、深層学習とセマンティック融合戦略の組み合わせは、マルチモーダル データの調査によってもたらされる課題に対処する方法となる可能性があります。

3 番目に、動的環境からマルチモーダル データが収集されており、データが不確実であることがわかります。したがって、動的マルチモーダル データの爆発的な増加に伴い、データ融合のためのオンラインおよびインクリメンタル マルチモーダル深層学習モデルの設計上の問題を解決する必要があります。

以上是太全了!多模態深度學習的綜述!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除