ホームページ >テクノロジー周辺機器 >AI >初心者に適したディープラーニングの 10,000 語のレビュー

初心者に適したディープラーニングの 10,000 語のレビュー

WBOY
WBOY転載
2023-04-14 12:37:031045ブラウズ

論文: 深層学習の最近の進歩: 概要

初心者に適したディープラーニングの 10,000 語のレビュー

##論文のアドレス: https://arxiv. org /pdf/1807.08169v1.pdf

要約: ディープ ラーニングは、機械学習と人工知能研究の最新トレンドの 1 つです。これは、今日最も人気のある科学研究トレンドの 1 つでもあります。ディープラーニング手法は、コンピュータービジョンと機械学習に革命的な進歩をもたらしました。新しいディープ ラーニング技術は常に作成されており、最先端の機械学習や既存のディープ ラーニング技術さえも上回っています。近年、世界中でこの分野で多くの大きな進歩が遂げられています。ディープラーニングは急速に発展しているため、特に新人研究者にとってはその進歩を追うのが困難です。この記事では、近年のディープラーニングの進歩について簡単に説明します。

1. はじめに

「ディープ ラーニング」(DL) という用語は、1986 年に初めて機械学習 (ML) に導入され、その後導入されました。 2000 年に人工ニューラル ネットワーク (ANN) で使用されました。深層学習手法は、複数の抽象化レベルでデータ特徴を学習するための複数の層で構成されています。 DL 手法を使用すると、コンピュータは比較的単純な概念を通じて複雑な概念を学習できます。人工ニューラル ネットワーク (ANN) の場合、ディープ ラーニング (DL) (階層学習とも呼ばれる) は、ネットワーク内の集合的なアクティベーションを変換するために、複数の計算段階にわたってクレジットを正確に割り当てることを指します。複雑な機能を学習するには、複数の抽象化レベル、つまり、多くの隠れ層を備えた ANN などの非線形演算でディープ アーキテクチャが使用されます。正確な言葉で要約すると、深層学習は、教師ありまたは教師なしの特徴学習、表現、分類、パターン認識に複数のレベルの非線形情報処理と抽象化を使用する機械学習のサブフィールドです。

ディープ ラーニング (表現学習) は、機械学習の分野または下位分野であり、最新のディープ ラーニング手法は 2006 年に開発されたとほとんどの人が信じています。この記事は最新のディープラーニング技術のレビューであり、主にこの分野に取り組もうとしている研究者に推奨されます。この記事では、DL の基本的な考え方、主な手法、最新の開発、および応用について説明します。

レビュー論文は、特に特定分野の新人研究者にとって非常に有益です。近い将来に大きな価値を持つ研究分野や関連応用分野の場合、最新の進捗状況をリアルタイムで追跡することは通常困難です。科学研究は、知識と教育がかつてないほど簡単に共有され、入手できるため、今日では魅力的な職業です。テクノロジー研究のトレンドに関する唯一の通常の想定は、あらゆる面で多くの改善が見られるということです。数年前の分野の概要は、今では時代遅れになっている可能性があります。

近年のディープ ラーニングの人気と推進を考慮して、ディープ ラーニングとニューラル ネットワーク (NN) の概要と、最近のその主な進歩と主要な進歩について説明します。年。この記事が、この分野の多くの初心者研究者が最近の深層学習の研究と技術を包括的に理解し、正しい方法で研究を始めるのに役立つことを願っています。同時に、私たちはこの作品を通じて、この時代の DL および ANN のトップ研究者に敬意を表したいと考えています: Geoffrey Hinton (Hinton)、Juergen Schmidhuber (Schmidhuber)、Yann LeCun (LeCun)、Yoshua Bengio (Bengio)、その他多くの研究者研究者 、その研究により現代の人工知能 (AI) が構築されました。また、DL および ML 研究における現在の最良の進歩を追跡するために、彼らの研究をフォローアップすることも重要です。

この論文では、まず過去の研究論文を簡単に説明し、深層学習のモデルと手法を検討します。次に、この分野における最近の進歩について説明します。深層学習 (DL) 手法、深層アーキテクチャ (つまり、ディープ ニューラル ネットワーク (DNN))、および深層生成モデル (DGM) について説明し、その後、重要な正則化および最適化手法について説明します。さらに、2 つの短いセクションを使用して、オープンソース DL フレームワークと重要な DL アプリケーションを要約します。最後の 2 章「考察」と「結論」では、ディープラーニングの現状と将来について説明します。

2. 関連研究

ここ数年、深層学習に関するレビュー論文が数多く出版されています。これらは、DL 手法、方法論、その応用、および将来の研究の方向性を適切に説明しています。ここでは、ディープラーニングに関する優れたレビュー論文を簡単に紹介します。

Young et al. (2017) は、主に自然言語処理 (NLP) 向けの DL モデルとアーキテクチャについて説明しています。さまざまな NLP ドメインでの DL アプリケーションを実証し、DL モデルを比較し、起こり得る将来の傾向について説明します。

Zhang et al. (2017) は、フロントエンドおよびバックエンドの音声認識システム向けの現在の最良の深層学習技術について説明しています。

Zhu et al. (2017) は、DL リモート センシング技術の最近の進歩をレビューしました。また、オープンソースの DL フレームワークやディープ ラーニングのその他の技術的な詳細についても説明します。

Wang et al. (2017) は、深層学習モデルの進化を時系列で説明しています。この短い記事では、DL 研究におけるモデルとその画期的な進歩を簡単に紹介します。この記事では、進化的アプローチを使用して深層学習の起源を理解し、ニューラル ネットワークの最適化と今後の研究について説明します。

Goodfellow et al. (2016) は、ディープ ネットワークと生成モデルについて詳しく説明しており、機械学習 (ML) の基礎知識とディープ アーキテクチャの長所と短所から始めて、レビューしました。近年のDLの研究開発とその応用例をまとめました。

LeCun et al. (2015) は、畳み込みニューラル ネットワーク (CNN) とリカレント ニューラル ネットワーク (RNN) からの深層学習 (DL) モデルの概要を示しました。彼らは表現学習の観点から DL を説明し、DL 技術がどのように機能するか、さまざまなアプリケーションでうまく使用できるか、教師なし学習 (UL) に基づいて未来を予測する方法を学習できるかを示します。彼らはまた、参考文献における DL の大きな進歩についても指摘しています。

Schmidhuber (2015) は、CNN、RNN、および深層強化学習 (RL) からの深層学習の概要を説明しました。彼は、基本的な DL と NN の限界とそれらを改善するためのヒントを指摘しながら、シーケンス処理のための RNN を強調しています。

Nielsen (2015) は、コードと例を使用してニューラル ネットワークの詳細を説明しています。また、ディープ ニューラル ネットワークとディープ ラーニングについてもある程度説明しています。

Schmidhuber (2014) は、時系列ベースのニューラル ネットワークの歴史と進歩、機械学習手法を使用した分類、およびニューラル ネットワークでの深層学習の使用について説明しています。

Deng と Yu (2014) は、深層学習のカテゴリと技術、およびいくつかの分野での DL の応用について説明しています。

Bengio (2013) は、表現学習の観点、つまり教師ありネットワークと教師なしネットワーク、最適化およびトレーニング モデルの観点から DL アルゴリズムの概要を説明しています。彼は、大規模なモデルやデータのアルゴリズムのスケーリング、最適化の難しさの軽減、効率的なスケーリング方法の設計など、深層学習の多くの課題に焦点を当てています。

Bengio et al (2013) は、表現と特徴学習、つまり深層学習について説明しました。彼らは、アプリケーション、テクノロジー、課題の観点からさまざまなアプローチとモデルを探求します。

Deng (2011) は、情報処理および関連分野の観点から、深層構造学習とそのアーキテクチャの概要を提供します。

Arel et al. (2010) は、近年の DL テクノロジーの概要を説明しています。

Bengio (2009) はディープ アーキテクチャ、つまり人工知能のニューラル ネットワークと生成モデルについて説明しています。

ディープ ラーニング (DL) に関する最近の論文はすべて、複数の観点からディープ ラーニングの焦点について説明しています。これはDL研究者にとって非常に必要です。しかし、DLは現在急成長している分野です。最近の DL 概要文書の後、多くの新しい技術とアーキテクチャが提案されています。さらに、以前の論文ではさまざまな観点からそれが研究されています。私たちの文書は主に、この分野に不慣れな学習者や初心者を対象としています。この目的を達成するために、私たちは、新しい研究者やこの分野に興味を持つすべての人に、深層学習の基礎と明確な概念を提供するよう努めていきます。

3. 最近の開発

このセクションでは、機械学習と人工ニューラル ネットワーク (ANN) から派生した最近の進歩について説明します。主要な深層学習 (DL) 手法である人工ニューラル ネットワークは、深層学習の最も一般的に使用される形式です。

3.1 深層アーキテクチャの進化

人工ニューラル ネットワーク (ANN) は大きな進歩を遂げ、他の深層モデルももたらしました。第一世代の人工ニューラル ネットワークは、限られた単純な計算しか実行できない単純なパーセプトロン ニューラル層で構成されていました。第 2 世代では、バックプロパゲーションを使用して、エラー率に基づいてニューロンの重みを更新します。その後、サポート ベクター マシン (SVM) が台頭し、しばらくの間 ANN を追い越しました。バックプロパゲーションの制限を克服するために、学習を容易にする制限付きボルツマン マシン (RBM) が提案されました。このとき、フィードフォワード ニューラル ネットワーク (FNN)、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク (RNN) などのほか、ディープ ビリーフ ネットワーク、オートエンコーダーなどの他のテクノロジーやニューラル ネットワークも登場しました。それ以来、ANN はさまざまな目的に合わせてさまざまな面で改良され、設計されてきました。

Schmidhuber (2014)、Bengio (2009)、Deng と Yu (2014)、Goodfellow et al. (2016)、Wang et al. (2017) ディープ ニューラル ネットワーク (DNN) ) 進化と歴史、ディープラーニング (DL) について詳しく概説します。ほとんどの場合、ディープ アーキテクチャは単純なアーキテクチャの多層非線形反復であり、入力から非常に複雑な関数を取得できます。

4. ディープ ラーニングの手法

ディープ ニューラル ネットワークは、教師あり学習において大きな成功を収めています。さらに、深層学習モデルは、教師なし学習、ハイブリッド学習、強化学習において大きな成功を収めています。

4.1 深層教師あり学習

教師あり学習は、データのラベル付け、分類器の分類、数値予測の際に適用されます。 LeCun et al. (2015) は、教師あり学習方法と深い構造の形成について合理的に説明しています。 Deng と Yu (2014) は、ディープ スタック ネットワーク (DSN) とその亜種など、教師ありハイブリッド学習のための多くのディープ ネットワークについて言及し、説明しました。 Schmidthuber (2014) の研究は、初期のニューラル ネットワークから、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM) およびそれらの改良による最近の成功に至るまで、すべてのニューラル ネットワークを対象としています。

4.2 深い教師なし学習

入力データにラベルがない場合、教師なし学習手法を適用してデータから特徴を抽出し、それらを分類したりマークしたりできます。 。 LeCun et al. (2015) は、深層学習における教師なし学習の将来を予測しています。 Schmidthuber (2014) では、教師なし学習のためのニューラル ネットワークについても説明しています。 Deng と Yu (2014) は、教師なし学習のためのディープ アーキテクチャを簡単に紹介し、ディープ オートエンコーダについて詳しく説明しました。

4.3 深層強化学習

強化学習では、報酬と罰のシステムを使用して、学習モデルの次のステップを予測します。これは主に、一般的な意思決定の問題を解決するためにゲームやロボットで使用されます。 Schmidthuber (2014) は、強化学習 (RL) におけるディープ ラーニングの進歩と、RL におけるディープ フィードフォワード ニューラル ネットワーク (FNN) およびリカレント ニューラル ネットワーク (RNN) のアプリケーションについて説明しています。 Li (2017) は、深層強化学習 (DRL)、そのアーキテクチャ (Deep Q-Network、DQN など)、およびさまざまな分野でのそのアプリケーションについて説明しています。

Mnih et al. (2016) は、非同期勾配降下法を使用した DNN 最適化のための DRL フレームワークを提案しました。

van Hasselt et al. (2015) は、ディープ ニューラル ネットワーク (DNN) を使用した DRL アーキテクチャを提案しました。

5. ディープ ニューラル ネットワーク

このセクションでは、ディープ ニューラル ネットワーク (DNN) とその最近の改良点と画期的な進歩について簡単に説明します。 。ニューラル ネットワークは人間の脳と同じように機能します。それらは主にニューロンと接続で構成されています。ディープ ニューラル ネットワークというと、入力から特徴を抽出し、複雑な関数を計算するために使用できるかなりの数の隠れ層があると想定できます。 Bengio (2009) は、畳み込みニューラル ネットワーク (CNN)、オートエンコーダー (AE) などの深く構造化されたニューラル ネットワークとその亜種について説明しています。 Deng と Yu (2014) は、AE やその亜種などのいくつかのニューラル ネットワーク アーキテクチャについて詳しく説明しています。 Goodfellow et al. (2016) は、ディープ フィードフォワード ネットワーク、畳み込みネットワーク、リカレント ネットワークとそれらの改良点を紹介し、技術的に説明しました。 Schmidhuber (2014) は、初期のニューラル ネットワークから最近の成功したテクノロジーに至るまで、ニューラル ネットワークの完全な歴史について言及しています。

5.1 ディープ オートエンコーダー

オートエンコーダー (AE) は、出力が入力となるニューラル ネットワーク (NN) です。 AE は生の入力を取得し、それを圧縮表現にエンコードしてから、それをデコードして入力を再構築します。ディープ AE では、低位の隠れ層が符号化に使用され、上位の隠れ層が復号化に使用され、誤差逆伝播がトレーニングに使用されます。

5.1.1 変分オートエンコーダ

変分オートエンコーダ (VAE) はデコード デバイスとしてカウントできます。 VAE は標準的なニューラル ネットワーク上に構築されており、確率的勾配降下法を介してトレーニングできます (Doersch、2016)。

5.1.2 多層ノイズ除去オートエンコーダ

初期のオートエンコーダ (AE) では、エンコード層のサイズは小さくなっています。入力レイヤーよりも(狭い)次元。マルチレイヤーノイズ除去オートエンコーダー (SDAE) では、エンコード層は入力層よりも幅が広くなります (Deng および Yu、2014)。

5.1.3 変革的なオートエンコーダー

ディープ オートエンコーダー (DAE) は変革的な、つまり抽出された特徴を持つことができます。多層非線形処理から学習者のニーズに応じて変更できます。変換オートエンコーダ (TAE) は、入力ベクトルとターゲット出力ベクトルの両方を使用して変換不変プロパティを適用し、コードを望ましい方向に導くことができます (Deng および Yu、2014)。

5.2 ディープ畳み込みニューラル ネットワーク

畳み込みニューラル ネットワーク (CNN) は、ローカル接続、重みの共有、プーリングという 4 つの基本的な考え方で構成されます。そして多層的な使用法。 CNN の最初の部分は畳み込み層とプーリング層で構成され、後半の部分は主に全結合層です。畳み込み層は特徴のローカル接続を検出し、プーリング層は同様の特徴を 1 つにマージします。 CNN は、畳み込み層で行列乗算の代わりに畳み込みを使用します。

Krizhevsky et al. (2012) は、深層学習 (DL) の主要なステップとなる、AlexNet としても知られる深層畳み込みニューラル ネットワーク (CNN) アーキテクチャを提案しました。ネットワークは 5 つの畳み込み層と 3 つの完全接続層で構成されます。このアーキテクチャでは、畳み込み演算にグラフィックス プロセッシング ユニット (GPU)、アクティベーション関数として修正線形関数 (ReLU)、およびオーバーフィッティングを軽減するドロップアウトを使用します。

Iandola et al. (2016) は、「SqueezeNet」と呼ばれる小規模な CNN アーキテクチャを提案しました。

Szegedy et al. (2014) は、Inception という名前のディープ CNN アーキテクチャを提案しました。 Dai et al. (2017) は、Inception-ResNet の改善を提案しました。

Redmon et al. (2015) は、均一かつリアルタイムの物体検出のための YOLO (You Only Look Once) と呼ばれる CNN アーキテクチャを提案しました。

Zeiler and Fergus (2013) は、CNN 内の活性化を視覚化する方法を提案しました。

Gehring et al. (2017) は、シーケンス間学習のための CNN アーキテクチャを提案しました。

Bansal et al. (2017) は、ピクセルを使用して表現する PixelNet を提案しました。

Goodfellow et al. (2016) では、CNN の基本的なアーキテクチャと考え方について説明しています。 Gu et al. (2015) は、CNN の最近の進歩、CNN の複数のバリアント、CNN のアーキテクチャ、正則化の方法と機能、さまざまな分野での応用についての優れた概要を提供しています。

5.2.1 ディープ マックス プーリング畳み込みニューラル ネットワーク

最大プーリング畳み込みニューラル ネットワーク (MPCNN) は、特にデジタル画像処理において、主に畳み込みと最大プーリングで動作します。 MPCNN は通常、入力層のほかに 3 つの層で構成されます。畳み込み層は入力画像を取得して特徴マップを生成し、非線形活性化関数を適用します。最大プーリング層は画像をダウンサンプリングし、サブ領域の最大値を保持します。全結合層は線形乗算を実行します。ディープ MPCNN では、入力層の後に畳み込みとハイブリッド プーリングが定期的に使用され、その後に完全接続層が続きます。

5.2.2 非常に深い畳み込みニューラル ネットワーク

Simonyan と Zisserman (2014) は、非常に深い畳み込みニューラル ネットワークを提案しました。ネットワーク畳み込みニューラル ネットワーク (VDCNN) アーキテクチャ。VGG Net とも​​呼ばれます。 VGG Net は、16 ~ 19 層の深さの非常に小さな畳み込みフィルターを使用します。 Conneau et al. (2016) は、小さな畳み込みとプーリングを使用したテキスト分類のための別の VDCNN アーキテクチャを提案しました。彼らは、この VDCNN アーキテクチャがテキスト処理で使用されるのは初めてであり、文字レベルで機能すると主張しています。このアーキテクチャは 29 の畳み込み層で構成されています。

5.3 ネットワーク イン ネットワーク

Lin et al. (2013) は、Network In Network (NIN) を提案しました。 NIN は、従来の畳み込みニューラル ネットワーク (CNN) の畳み込み層を、複雑な構造を持つマイクロ ニューラル ネットワークに置き換えます。これは、完全に接続された層の代わりに、多層パーセプトロン (MLPConv) 処理マイクロ ニューラル ネットワークとグローバル平均プーリング層を使用します。ディープ NIN アーキテクチャは、NIN 構造を複数重ね合わせて構成できます。

5.4 領域ベースの畳み込みニューラル ネットワーク

Girshick et al. (2014) は、領域ベースの畳み込みニューラル ネットワーク (R-CNN) を提案しました。 )、認識に領域を使用します。 R-CNN は領域を使用してオブジェクトの位置を特定し、セグメント化します。このアーキテクチャは、候補領域のコレクションを定義するクラス独立領域提案、領域から特徴を抽出する大規模畳み込みニューラル ネットワーク (CNN)、およびクラス固有の線形サポート ベクター マシン (SVM) のセットの 3 つのモジュールで構成されます。

5.4.1 高速 R-CNN

Girshick (2015) は、高速領域ベースの畳み込みネットワーク (高速) を提案しました。 R-CNN)。この方法では、R-CNN アーキテクチャを利用して結果を迅速に生成します。 Fast R-CNN は、畳み込み層とプーリング層、領域提案層、および一連の全結合層で構成されます。

5.4.2 より高速な R-CNN

Ren et al. (2015) は、より高速な領域ベースの R-CNN を提案しました。畳み込みニューラル ネットワーク (Faster R-CNN)。リアルタイムのターゲット検出に領域提案ネットワーク (RPN) を使用します。 RPN は、領域提案を正確かつ効率的に生成できる完全畳み込みネットワークです (Ren et al., 2015)。

5.4.3 マスク R-CNN

He Kaiming et al. (2017) は、地域ベースのマスク R-CNN を提案しました。マスク畳み込みネットワーク (マスク R-CNN) インスタンス オブジェクトのセグメンテーション。マスク R-CNN は R-CNN のアーキテクチャを拡張し、ターゲット マスクを予測するために追加のブランチを使用します。

5.4.4 マルチエキスパート R-CNN

Lee et al. (2017) は、次の領域を提案しました。ベースのマルチエキスパート畳み込みニューラル ネットワーク (ME R-CNN) は、Fast R-CNN アーキテクチャを利用します。 ME R-CNN は、選択的かつ網羅的な検索から関心領域 (RoI) を生成します。また、RoI ごとの単一ネットワークの代わりに、RoI ごとのマルチエキスパート ネットワークも使用します。各エキスパートは、Fast R-CNN の完全に接続されたレイヤーを備えた同じアーキテクチャです。

5.5 ディープ残差ネットワーク

He et al. (2015) によって提案された残差ネットワーク (ResNet) は 152 層で構成されています。 ResNet はエラーが少なく、残差学習によるトレーニングが簡単です。 ResNet が深くなるほど、パフォーマンスが向上します。深層学習の分野では、ResNet は重要な進歩であると考えられています。

5.5.1 Resnet の Resnet

Targ et al. (2016) Resnet の Resnet (RiR) ResNets と標準の畳み込みニューラル ネットワーク (CNN) を組み合わせて、深い 2 ストリーム アーキテクチャを構築することを提案しました。

5.5.2 ResNeXt

##Xie et al. (2016) は、ResNeXt アーキテクチャを提案しました。 ResNext は ResNets を活用して、分割、変換、マージ戦略を再利用します。

5.6 カプセル ネットワーク

Sabour et al. (2017) は、2 つの畳み込み層と A から構成されるカプセル ネットワーク (CapsNet) を提案しました。完全に接続された層アーキテクチャ。 CapsNet には通常、複数の畳み込み層が含まれており、最後にカプセル層が付いています。 CapsNet は、畳み込みニューラル ネットワークの制限に基づいていると言われているため、深層学習における最新のブレークスルーの 1 つと考えられています。ニューロンの代わりにカプセルの層を使用します。アクティブ化された下位レベルのカプセルが予測を行い、複数の予測に同意した後、上位レベルのカプセルがアクティブになります。プロトコル ルーティング メカニズムは、これらのカプセル層内で使用されます。ヒントンは後に、期待値最大化 (EM) アルゴリズムを使用して CapsNet を改良した EM ルーティングを提案しました。

5.7 リカレント ニューラル ネットワーク

リカレント ニューラル ネットワーク (RNN) は、音声、テキスト、生成されたシーケンスなどのシーケンス入力に適しています。時間内に展開されると、繰り返される隠れユニットは、同じ重みを持つ非常に深いフィードフォワード ネットワークと考えることができます。 RNN は、勾配の消失と次元の爆発の問題により、トレーニングが困難でした。この問題を解決するために、その後多くの人が改良を提案しました。

Goodfellow et al. (2016) は、リカレントおよびリカレント ニューラル ネットワークとアーキテクチャ、および関連するゲート ネットワークとメモリ ネットワークの詳細を詳細に分析しています。

Karpathy et al. (2015) は、文字レベルの言語モデルを使用して予測を分析および視覚化し、トレーニングのダイナミクス、RNN のエラー タイプとそのバリアント (LSTM など) などを特徴付けます。

J´ozefowicz et al (2016) は、RNN モデルと言語モデルの限界を調査しています。

5.7.1 RNN-EM

Peng と Yao (2015) は、外部メモリ (RNN- EM) RNN の記憶能力を向上させます。これらは、他の RNN よりも優れた言語理解において最先端のパフォーマンスを達成すると主張しています。

5.7.2 GF-RNN

Chung et al. (2015) は、ゲート型フィードバックリカレントニューラルネットワーク ( GF-RNN) は、グローバル ゲーティング ユニットを使用して複数のリカレント レイヤーをオーバーレイすることにより、標準 RNN を拡張します。

5.7.3 CRF-RNN

Zheng et al. (2015) は、リカレント ニューラルとして条件付きランダム フィールドを提案しました。ネットワーク (CRF-RNN) は、畳み込みニューラル ネットワーク (CNN) と条件付きランダム フィールド (CRF) を組み合わせて、確率的グラフィカル モデリングを実現します。

5.7.4 Quasi-RNN

Bradbury et al. (2016) は、神経シーケンス モデリングの方法を提案しました。そして、時間ステップに沿った準リカレント ニューラル ネットワーク (QRNN) の並列適用。

5.8 メモリ ネットワーク

Weston et al. (2014) は、質問応答メモリ ネットワーク (QA) を提案しました。メモリ ネットワークは、メモリ、入力特徴マッピング、一般化、出力特徴マッピング、および応答で構成されます。

5.8.1 動的メモリ ネットワーク

Kumar et al. (2015) は、QA 用の動的メモリ ネットワークを提案しました。タスク メモリ ネットワーク (DMN)。 DMN には、入力、質問、エピソード記憶、出力の 4 つのモジュールがあります。

5.9 拡張ニューラル ネットワーク

Olah と Carter (2016) は、注意と拡張リカレント ニューラル ネットワーク、つまりニューラル グラフ NTM (NTM) をうまく示しています。 、アテンション インターフェイス、ニューラル エンコーダー、適応型計算時間。ニューラル ネットワークは、標準的なニューラル ネットワーク アーキテクチャだけでなく、ロジスティック関数などの追加プロパティを使用して強化されることがよくあります。

5.9.1 ニューラル チューリング マシン

Graves et al. (2014) は、ニューラル チューリング マシン (NTM) を提案しました。 ) アーキテクチャはニューラル ネットワーク コントローラーとメモリ バンクで構成されます。 NTM は通常、RNN と外部メモリ バンクを組み合わせます。

5.9.2 ニューラル GPU

Kaiser と Sutskever (2015) は、NTM 並列の問題を解決するニューラル GPU を提案しました。問題。

5.9.3 ニューラル ランダム アクセス マシン

Kurach et al. (2015) はニューラル ランダム アクセス マシンを提案しました。外部の可変サイズ ランダム アクセス メモリを使用します。

5.9.4 ニューラル プログラマー

Neelakantan et al. (2015) は、ニューラル プログラマーである強化ニューラルを提案しました。算術および論理関数を備えたネットワーク。

5.9.5 ニューラル プログラマ インタプリタ

Reed と de Freitas (2015) は、次のことを学習できることを提案しました。ニューラル プログラマ インタプリタ (NPI)。 NPI には、定期的なカーネル、プログラム メモリ、およびドメイン固有のエンコーダが含まれます。

5.10 長短期記憶ネットワーク

Hochreiter と Schmidhuber (1997) は、長短期記憶 (LSTM) を提案しました。リカレント ニューラル ネットワーク (RNN) のエラー逆流問題。 LSTM はリカレント ネットワークと勾配ベースの学習アルゴリズムであり、勾配を流すことができるようにするための自己ループ生成パスが導入されています。

Greff et al. (2017) は、音声認識、手書き認識、ポリフォニック音楽モデリングのそれぞれについて、標準 LSTM と 8 つの LSTM バリアントの大規模分析を実行しました。彼らは、LSTM の 8 つのバリアントには大きな改善が見られず、標準の LSTM だけが良好なパフォーマンスを示したと主張しました。

Shi et al. (2016b) は、特徴マップ学習表現のための LSTM ユニットのスタックであるディープ長期短期記憶ネットワーク (DLSTM) を提案しました。

5.10.1 バッチ正規化 LSTM

Cooijmans et al. (2016) はバッチ正規化 LSTM を提案しました。正規化 LSTM (BN-LSTM)。リカレント ニューラル ネットワークの隠れた状態に対してバッチ正規化を使用します。

5.10.2 ピクセル RNN

van den Oord et al. (2016b) は、ピクセルリカレントニューラルネットワーク (ピクセル -RNN)、12 の 2 次元 LSTM レイヤーで構成されます。

5.10.3 双方向 LSTM

#W¨ollmer et al. (2010) は、双方向 LSTM (BLSTM) を提案しました。リカレント ネットワークは、コンテキスト依存のキーワード検出のためにダイナミック ベイジアン ネットワーク (DBN) とともに使用されます。

5.10.4 変分型 bi-LSTM

Shabanian et al. (2017) は変分型 bi-LSTM を提案しました(変分 Bi-LSTM)、双方向 LSTM アーキテクチャの変種です。変分 Bi-LSTM は、変分オートエンコーダ (VAE) を使用して、LSTM 間の情報交換チャネルを作成し、より良い表現を学習します。

5.11 Google Neural Machine Translation

Wu et al. (2016) は、Google Neural Machine Translation (GNMT) と呼ばれる自動翻訳システムを提案しました。このシステムは、共通のシーケンス間学習フレームワークに従って、エンコーダー ネットワーク、デコーダー ネットワーク、およびアテンション ネットワークを組み合わせています。

5.12 フェーダー ネットワーク

Lample et al. (2017) は、新しいエンコーダー/デコーダー アーキテクチャであるフェーダー ネットワークを提案しました。属性値を変更することでリアルな入力画像が変化します。

5.13 ハイパー ネットワーク

Ha et al. (2016) によって提案されたハイパー ネットワークは、静的ハイパー ネットワーク畳み込みネットワークなどの他のニューラル ネットワークの重みを、リカレントの動的ハイパーネットワークに対して生成します。ネットワーク。

Deutsch(2018) ハイパーネットワークを使用したニューラル ネットワークの生成。

5.14 ハイウェイ ネットワーク

Srivastava et al. (2015) は、ゲート付きユニット管理情報を使用して学習するハイウェイ ネットワークを提案しました。複数のレベルにわたる情報の流れは、情報ハイウェイと呼ばれます。

5.14.1 リカレント ハイウェイ ネットワーク

Zilly et al. (2017) は、リカレント ハイウェイ ネットワークを提案しました。 RHN)、長短期記憶 (LSTM) アーキテクチャを拡張します。 RHN は、定期的な遷移で高速道路レイヤーを使用します。

5.15 Highway LSTM RNN

Zhang et al. (2016) は、High-Long Short-Term Memory (HLSTM) RNN を提案しました。隣接する層のメモリユニット間の閉じた方向性接続 (つまり、ハイウェイ) を備えた深い LSTM ネットワーク。

5.16 長期リカレント CNN

Donahue et al. (2014) は、長期リカレント畳み込みネットワーク (LRCN) を提案しました。入力に ​​CNN を使用し、LSTM を使用して再帰シーケンス モデリングを実行し、予測を生成します。

5.17 ディープ ニューラル SVM

Zhang et al. (2015) は、サポート ベクター マシンを使用するディープ ニューラル SVM (DNSVM) を提案しました (サポートディープ ニューラル ネットワーク (DNN) 分類の最上位レイヤーとしてのベクター マシン (SVM)。

5.18 畳み込み残差メモリ ネットワーク

Moniz と Pal (2016) は、メモリ メカニズムを組み合わせた畳み込み残差メモリ ネットワークを提案しました。畳み込みニューラル ネットワーク (CNN)。長期短期記憶メカニズムを使用して、畳み込み残差ネットワークを強化します。

5.19 フラクタル ネットワーク

## Larsson et al. (2016) は、残差ネットワークの代替としてフラクタル ネットワーク FractalNet を提案しました。彼らは、残余学習なしで超ディープ ニューラル ネットワークをトレーニングできると主張しています。フラクタルは、単純な展開ルールによって生成される繰り返しアーキテクチャです。

5.20 WaveNet

van den Oord et al. (2016) は、生のオーディオを生成するためのディープ ニューラル ネットワークである WaveNet を提案しました。 WaveNet は、出力用の一連の畳み込み層とソフトマックス分散層で構成されます。

Rethage et al. (2017) は、音声ノイズ除去のための WaveNet モデルを提案しました。

5.21 ポインター ネットワーク

Vinyals et al. (2017) は、「The Softmax」と呼ばれる方法を使用してポインター ネットワーク (Ptr-Nets) を提案しました。 「ポインタ」の確率分布は、変数辞書を表現する問題を解決するために使用されます。

6. 深い生成モデル

このセクションでは、同様の複数の抽象化レイヤーとプレゼンテーション レイヤーを使用する他の深いアーキテクチャについて簡単に説明します。ディープ生成モデル (DGM) として知られています。 Bengio (2009) は、ボルツマン マシン (BM) や制限付きボルツマン マシン (RBM) などのディープ アーキテクチャとそのバリアントについて説明しています。

Goodfellow et al. (2016) は、制限付きおよび制限なしのボルツマン マシンとそのバリアント、ディープ ボルツマン マシン、ディープ ビリーフ ネットワーク (DBN)、有向生成ネットワークなどの深い生成モデルを詳細に説明しています。生成ランダムネットワークなど。

Maaløe et al. (2016) は、補助変数を使用して深い生成モデルを拡張した、補助的な深い生成モデルを提案しました。補助変数は、ランダム層とスキップ接続を使用して変分分布を生成します。

Rezende et al. (2016) は、深い生成モデルのワンショット一般化を開発しました。

6.1 ボルツマン マシン

ボルツマン マシンは、最尤原理研究を使用して任意の確率分布を学習するためのコネクショニスト手法です。

6.2 制限付きボルツマン マシン

制限付きボルツマン マシン (RBM) はマルコフです。ランダムな隠れユニットの層を含む特別なタイプのランダム フィールドです。 、つまり潜在変数と、観察可能な変数の層です。

Hinton and Salakhutdinov (2011) は、文書処理に制限付きボルツマン マシン (RBM) を利用した深層生成モデルを提案しました。

6.3 Deep Belief Networks

Deep Belief Networks (DBN) には、複数の基礎となるバイナリまたは実数の変数層があり、モデルを生成します。

Ranzato et al. (2011) は、深い信念ネットワーク (DBN) を使用して、画像認識のための深い生成モデルを確立しました。

6.4 ディープ ランバーティアン ネットワーク

Tang et al. (2012) は、マルチレベルの生成ネットワークであるディープ ランバーティアン ネットワーク (DLN) を提案しました。基礎となる変数がアルベド、表面法線、および光源であるモデル。 DLNis は、ランバート反射率とガウス制限ボルツマン マシンおよび深い信念ネットワークを組み合わせたものです。

6.5 敵対的生成ネットワーク

Goodfellow et al. (2014) は、生成モデルを評価するための敵対的手順を渡すための敵対的生成ネット (GAN) を提案しました。 。 GAN アーキテクチャは、敵対者に対する生成モデル (つまり、データ分布の学習モデルまたは識別モデル) で構成されます。 Mao et al. (2016)、Kim et al. (2017) は GAN のさらなる改善を提案しました。

Salimans et al. (2016) は、GAN をトレーニングするためのいくつかの方法を提案しました。

6.5.1 ラプラシアン敵対的生成ネットワーク

Denton et al. (2015) は、ディープ生成モデル ( DGM) は、ラプラシアン敵対的生成ネットワーク (LAPGAN) と呼ばれ、敵対的生成ネットワーク (GAN) アプローチを使用します。このモデルは、ラプラシアン ピラミッド フレームワークの畳み込みネットワークも使用します。

6.6 リカレント サポート ベクター マシン

Shi et al. (2016a) は、リカレント ニューラル ネットワークを使用したリカレント サポート ベクター マシン (RSVM) を提案しました。 ( RNN) は入力シーケンスから特徴を抽出し、標準サポート ベクター マシン (SVM) を使用してシーケンス レベルのターゲット認識を行います。

7. トレーニングと最適化のテクニック

このセクションでは、ディープ ニューラル ネットワークの正則化と最適化のための主要なテクニックのいくつかについて簡単に説明します。 (DNN)。

7.1 Dropout

Srivastava et al. (2014) は、ニューラル ネットワークの過学習を防ぐために Dropout を提案しました。ドロップアウトは、隠れユニットにノイズを追加することによるニューラル ネットワーク モデルの平均正則化手法です。トレーニング中に、ニューラル ネットワークからユニットと接続をランダムに描画します。ドロップアウトは、RBM (Srivastava et al., 2014) などのグラフィカル モデルまたは任意のタイプのニューラル ネットワークで使用できます。 Dropout に関して最近提案された改良点は、Fraternal Dropout for Recurrent Neural Networks (RNN) です。

7.2 Maxout

Goodfellow et al. (2013) は、Dropout の新しい活性化関数である Maxout を提案しました。 Maxout の出力は入力セットの最大値であり、Dropout のモデル平均化に役立ちます。

7.3 Zoneout

Krueger et al. (2016) は、リカレント ニューラル ネットワーク (RNN) の正則化手法である Zoneout を提案しました。 Zoneout は、Dropout と同様に、トレーニング中にノイズをランダムに使用しますが、非表示のユニットは破棄されずに保持されます。

7.4 深層残差学習

He et al. (2015) は、低トレーニング Error ResNet と呼ばれる深層残差学習フレームワークを提案しました。

7.5 バッチ正規化

Ioffe と Szegedy (2015) は、内部共変量シフトを削減することによるバッチ正規化を提案し、ディープ ニューラル ネットワーク トレーニングを高速化する方法を提案しました。 Ioffe (2017) は、以前の方法を拡張したバッチ正規化を提案しました。

7.6 蒸留

Hinton et al. (2015) は、高度に正規化されたモデル (つまり、ニューラル ネットワーク) のコレクションから知識を変換することを提案しました。小さなモデルを圧縮するためのメソッドに変換します。

7.7 層正規化

Ba et al. (2016) は、特に RNN のディープ ニューラル ネットワーク向けの層正規化を提案しました。バッチ正規化の制限。

8. ディープ ラーニング フレームワーク

ディープ ラーニングに利用できるオープン ソース ライブラリとフレームワークが多数あります。それらのほとんどは、Python プログラミング言語用に構築されています。 Theano、Tensorflow、PyTorch、PyBrain、Caffe、Blocks and Fuel、CuDNN、Honk、ChainerCV、PyLearn2、Chainer、トーチなど。

9. ディープ ラーニングのアプリケーション

このセクションでは、ディープ ラーニングの最近の傑出したアプリケーションのいくつかについて簡単に説明します。深層学習 (DL) の始まり以来、DL 手法は教師あり学習、教師なし学習、半教師あり学習、または強化学習の形式でさまざまな分野で広く使用されてきました。分類および検出タスクから始まった DL アプリケーションは、あらゆるドメインに急速に拡大しています。

例:

画像分類と認識

ビデオ分類

シーケンス生成

欠陥分類

テキスト、音声、画像およびビデオの処理

テキスト分類

音声処理

音声認識および音声言語理解

Text-to -音声生成

クエリ分類

文分類

文モデリング

字句処理

事前選択

ドキュメントと文章の処理

画像テキスト説明の生成

フォト スタイル転送

自然画像マニホールド

画像カラーリング

画像 Q&A

テクスチャ付きおよび様式化された画像の生成

ビジュアルおよびテキスト Q&A

視覚認識と説明

オブジェクト認識

ドキュメント処理

人物アクションの合成と編集

歌の合成

アイデンティティ認識

顔認識と検証

ビデオ アクション認識

人間のアクション認識

アクション認識

モーション キャプチャ シーケンスの分類と視覚化

手書きの生成と予測

自動化と機械翻訳

固有表現の認識

モバイルビジョン

会話型エージェント

遺伝子変異の呼び出し

がん検出

X線CT再構成

発作予測

ハードウェアアクセラレーション

ロボット

など。

Deng と Yu (2014) は、音声処理、情報検索、オブジェクト認識、コンピュータ ビジョン、マルチモーダル、マルチタスク学習などの分野における DL アプリケーションの詳細なリストを提供しています。

深層強化学習 (DRL) を使用してゲームをマスターすることが、今日の話題になっています。時々、DNN と DRL を使用して、わずか数時間のトレーニングから戦略やその他のゲームで人間の世界チャンピオンやチェスのグランドマスターに勝つ AI ロボットが作成されます。たとえば、囲碁の AlphaGo や AlphaGo Zero です。

10. ディスカッション

ディープ ラーニングは多くの分野で大きな成功を収めていますが、その道のりはまだ長いです。改善すべき点はまだたくさんあります。制限に関しては、かなりの数の例があります。例: Nguyen らは、ディープ ニューラル ネットワーク (DNN) が画像を認識する際に簡単に騙されてしまうことを示しました。 Yosinskiらによって提案された学習された特徴の伝達可能性など、他の問題もあります。 Huangらは、ニューラルネットワーク攻撃を防御するためのアーキテクチャを提案し、これらの攻撃を防御するには将来の研究が必要であると主張した。 Zhang らは、深層学習モデルを理解するための実験フレームワークを提案し、深層学習を理解するには再考と一般化が必要であると考えました。

Marcus は、2018 年にディープ ラーニング (DL) の役割、制限、性質について重要なレビューを提供しました。同氏は、より多くのデータを必要とする、容量が限られている、階層構造を扱えない、オープンな推論を実行できない、完全に透明化できない、事前知識と統合できない、原因と結果を区別できないなど、DL 手法の限界を強く指摘しました。同氏はまた、DL は安定した世界を前提としており、近似的な方法で実装され、設計が難しく、過度に宣伝する潜在的なリスクがあることにも言及しました。マーカス氏は、DL を再概念化し、教師なし学習、記号操作、ハイブリッド モデルの可能性を模索し、認知科学と心理学から洞察を得て、より大胆な挑戦を行う必要があると考えています。

11. 結論

ディープ ラーニング (DL) はこれまで以上に急速に世界を進歩させていますが、価値のある側面はまだたくさんあります。勉強する。私たちは深層学習、つまり機械をどのように賢くするか、人間に近づくか、人間よりも賢くすることができるか、あるいは人間と同じように学習できるのか、まだ完全には理解していません。 DLはテクノロジーをあらゆるものに応用しながら、多くの課題を解決してきました。しかし人類は依然として多くの問題に直面しており、飢餓や食糧危機、癌やその他の致命的な病気で依然として亡くなっている人々がいます。私たちは、ディープラーニングと人工知能が、最も困難な科学研究を実施することによって、人間の生活の質の向上にさらに専念することを願っています。最後になりましたが、私たちの世界がより良い場所になりますように。

以上が初心者に適したディープラーニングの 10,000 語のレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。