ホームページ > 記事 > テクノロジー周辺機器 > Transformer が AI の隆盛をリード: アルゴリズムの革新から産業応用まで、人工知能の未来を 1 つの記事で理解する
近年、人工知能技術は世界的に高い評価を得ていますが、その中でも自然言語処理は、 (NLP) ) とコンピューター ビジョンが特に顕著です。これらの分野では、Transformerと呼ばれるモデルが徐々に研究の注目を集めており、それを核とした革新的な成果が次々と生まれています。この記事では、Transformer がどのようにして AI テクノロジーの隆盛をリードしているのかを、原理、アプリケーション、業界慣行などの側面から探っていきます。
Transformer を導入する前に、その背景知識であるリカレント ニューラル ネットワーク (RNN) と長期短期について理解する必要があります。メモリネットワーク (LSTM)。 RNN には、シーケンス データを処理するときに勾配の消失と勾配の爆発という問題があり、長いシーケンス タスクでのパフォーマンスが低下します。この問題を解決するために、LSTM が登場し、ゲート メカニズムを導入することで勾配の消失と爆発の問題を効果的に軽減しました。この問題を解決するために、LSTM が登場し、ゲート メカニズムを導入することで勾配の消失と爆発の問題を効果的に軽減しました。
2017 年、Google チームはまったく新しいモデル Transformer を立ち上げました。その中心的なアイデアは、従来のトランスフォーマーの代わりに自己注意 (Self-Attention) メカニズムを使用することです。リカレントニューラルネットワーク。 Transformer は NLP の分野、特に機械翻訳タスクにおいて顕著な成果を上げており、そのパフォーマンスは LSTM をはるかに上回っています。このモデルは、機械翻訳や質問応答システムなどの自然言語処理タスクで広く使用されています。
トランスフォーマーは、エンコーダー (Encoder) とデコーダー (Decoder) の 2 つの部分で構成されます。エンコーダーは入力シーケンスを一連のベクトルにマッピングする役割を担い、デコーダーは役割を担います。入力シーケンスを一連のベクトルにマッピングするためのコントローラーの出力と既知の部分出力は、次の出力を予測するために使用されます。機械翻訳などのシーケンス間タスクでは、エンコーダはソース言語の文を一連のベクトルにマッピングし、デコーダはエンコーダの出力と既知の部分出力に基づいてターゲット言語の文を生成します。
「(1) エンコーダ: エンコーダは複数の同一の層で構成され、各層にはマルチヘッド セルフ アテンション メカニズムと位置完全接続フィードフォワード ネットワークという 2 つのサブ層が含まれています。」 注: この記事の段落はニューラル ネットワークのエンコーダーの構造に関するものであり、変更後も元の意味が保持される必要があり、単語数は 114 を超えてはなりません。
デコーダは複数の同一のレイヤで構成されており、各レイヤにはマルチヘッド アテンション メカニズム、エンコーダ/デコーダ アテンション メカニズム、およびフォワード パス ネットワークの 3 つのサブレイヤが含まれています。マルチヘッド セルフ アテンション メカニズム、エンコーダ/デコーダ アテンション メカニズム、および位置エンコーダはその主要コンポーネントであり、位置および完全に接続されたフィードフォワード ネットワークをカバーしながらデコーダ アテンション メカニズムを実装できます。さらに、デコーダのアテンション メカニズムと位置エンコーダは、ネットワーク全体で使用できるネットワーク接続を通じてパフォーマンスを向上させることもできます。
セルフ アテンション メカニズムは、 Transformer の計算プロセスは次のとおりです:
(1) 入力ベクトルを線形変換して得られる Query、Key、Value の 3 つの行列を計算します。
(2) クエリとキーの内積であるアテンション スコアを計算します。
(3) 注意スコアを定数で割って、注意の重みを取得します。
(4) アテンションの重みと値を乗算して、重み付けされた出力を取得します。
(5) 重み付けされた出力に対して線形変換を実行して、最終出力を取得します。
Transformer は、主に次の側面を含む NLP の分野で目覚ましい成果を達成しました:
( 1) 機械翻訳: Transformer は、WMT2014 の英語-ドイツ語翻訳タスクで当時最高の結果を達成しました。
(2) テキスト分類: Transformer はテキスト分類タスク、特に長いテキスト分類タスクで優れたパフォーマンスを発揮し、そのパフォーマンスは LSTM をはるかに上回ります。
(3) センチメント分析: Transformer は長距離の依存関係をキャプチャできるため、センチメント分析タスクの精度が高くなります。
NLP の分野での Transformer の成功により、研究者はそれをコンピュータ ビジョンの分野に適用し始め、次のような結果を達成しました。
(1 ) 画像分類: Transformer ベースのモデルは、ImageNet 画像分類タスクで良好な結果を達成しました。
(2) ターゲット検出: Transformer は、DETR (Detection Transformer) モデルなどのターゲット検出タスクで優れたパフォーマンスを発揮します。
(3) 画像生成: GPT-3 などの Transformer ベースのモデルは、画像生成タスクにおいて素晴らしい結果を達成しました。
中国の学者はトランスの分野で次のような実りある成果を上げています:
(1) 清華大学が提案した ERNIE モデルは、知識強化を通じて事前トレーニングされた言語モデルのパフォーマンスを向上させます。
(2) 上海交通大学が提案した BERT-wwm モデルは、事前トレーニングの目標を改善することにより、中国語のタスクにおけるモデルのパフォーマンスを向上させます。
中国企業は、変圧器の応用分野でも次のような目覚ましい成果を上げています。
(1) Baidu が提案する ERNIE モデルは、検索エンジンや音声認識などの分野で使用されています。
(2) アリババが提案するM6モデルは、電子商取引のレコメンデーションや広告予測などのビジネスに応用されています。
Transformer は、主に次の側面を含めて、業界でますます広く使用されています。
##(1) 検索エンジン: Transformer を使用して意味を理解し、検索品質を向上させます。 (2) 音声認識: Transformer モデルを通じて、より正確な音声認識が実現されます。 (3) レコメンデーション システム: Transformer ベースのレコメンデーション モデルにより、レコメンデーションの精度とユーザー エクスペリエンスが向上します。以上がTransformer が AI の隆盛をリード: アルゴリズムの革新から産業応用まで、人工知能の未来を 1 つの記事で理解するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。