ホームページ >テクノロジー周辺機器 >AI >画像認識について話しましょう: リカレント ニューラル ネットワーク

画像認識について話しましょう: リカレント ニューラル ネットワーク

WBOY
WBOY転載
2023-04-08 15:11:031627ブラウズ

この記事は WeChat 公開アカウント「情報時代に生きる」から転載したものであり、著者は情報時代に生きています。この記事を転載するには、情報時代の暮らしの公開アカウントまでご連絡ください。

リカレント ニューラル ネットワーク (RNN) は、主にシーケンス データの問題を解決するために使用されます。これがリカレント ニューラル ネットワークである理由は、シーケンスの現在の出力が前の出力にも関連しているためです。 RNN ネットワークは、直前の瞬間の情報を記憶し、現在の出力計算に適用します。畳み込みニューラル ネットワークとは異なり、リカレント ニューラル ネットワークの隠れ層のニューロンは相互に接続されています。隠れ層のニューロンの入力は、層は入力によって決定されます。層の出力は、前の瞬間の隠れたニューロンの出力で構成されます。 RNN ネットワークはいくつかの顕著な成果を達成しましたが、トレーニングの難易度が高い、精度が低い、効率が低い、時間がかかるなどのいくつかの欠点と制限があります。そのため、RNN に基づくいくつかの改良されたネットワーク モデルが徐々に開発されています。として: Long Short-Term Memory (LSTM)、双方向 RNN、双方向 LSTM、GRU など。これらの改良された RNN モデルは、画像認識の分野で優れた結果を示し、広く使用されています。 LSTM ネットワークを例として、その主なネットワーク構造を紹介します。

Long Short-Term Memory (LSTM) は、RNN における勾配消失または勾配爆発の問題を解決し、長期依存問題を学習できます。その構造は次のとおりです。

画像認識について話しましょう: リカレント ニューラル ネットワーク

#LSTM には、情報を選択的に通過させるための 3 つのゲート (忘却ゲート、入力ゲート、出力ゲート) があります。忘却ゲートは、どのような情報がこのセルを通過できるかを決定します。これは、シグモイド ニューラル層を通じて実装されます。その入力は で、出力は (0, 1) の間の値を持つベクトルで、通過が許可される情報の各部分の割合を表します。 0 は「いかなる情報も通過させない」ことを意味し、1 は「すべての情報を通過させる」ことを意味します。

画像認識について話しましょう: リカレント ニューラル ネットワーク

#入力ゲートは、セル状態にどの程度の新しい情報が追加されるかを決定します。tanh 層は、コンテンツを更新する代替となるベクトルを生成します。 。

画像認識について話しましょう: リカレント ニューラル ネットワーク

セルのステータスを更新します:

画像認識について話しましょう: リカレント ニューラル ネットワーク

出力ゲートは次のとおりです。情報のどの部分が出力されるかは決定中:

画像認識について話しましょう: リカレント ニューラル ネットワーク

GRU ネットワーク モデルは、RNN における勾配消失または勾配爆発の問題も解決し、次のことが可能です。長期的な依存関係を学習する 関係は LSTM を変形したもので、構造は LSTM より単純で、パラメータが少なく、学習時間は LSTM より短くなります。また、音声認識、画像記述、自然言語処理、その他のシナリオでも広く使用されています。

以上が画像認識について話しましょう: リカレント ニューラル ネットワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。