ホームページ  >  記事  >  テクノロジー周辺機器  >  Transformer テクノロジーの原理の概要

Transformer テクノロジーの原理の概要

WBOY
WBOY転載
2023-06-04 17:03:201854ブラウズ

Transformer テクノロジーの原理の概要

1. はじめに

最近、AIGC (AI-Generated Content、人工知能生成コンテンツ) が開発されました。消費者だけでなく、テクノロジーや業界からも注目を集めています。 2022 年 9 月 23 日、Sequoia America は、AIGC がパラダイム シフトの新たなラウンドの始まりを表すと信じて、「Generative AI: A Creative New World」という記事を掲載しました。 2022 年 10 月に、Stability AI は、ユーザーが入力したテキストの説明 (プロンプトと呼ばれる) に基づいて画像を自動的に生成できるオープンソース モデル Stable Diffusion、つまり Text-to-Image をリリースしました。などの画像を生成できる AIGC モデルが AI 絵画の分野に爆発的に普及し、人工知能がアート分野に浸透するきっかけとなりました。下の写真はBaiduの「Wenxin Yige」プラットフォームで制作された「未来のメカ」をテーマにした作品です。


Transformer テクノロジーの原理の概要

# 図 1 Baidu の「Wenxin Yige」プラットフォーム Painting によって作成された AI

AIGC 分野の急速な発展は、ディープ ニューラル ネットワークの進歩と切り離すことができません。具体的には、Transform モデルの出現により、ニューラル ネットワークにより強力なグローバル コンピューティング機能が与えられ、ネットワーク トレーニング時間が短縮され、ネットワーク モデルのパフォーマンスが向上します。比較的良好にパフォーマンスを発揮する現在の AIGC ドメイン モデルには、基礎となる技術アーキテクチャにアテンション テクノロジーとトランスフォーム テクノロジーが含まれています。

#2. 開発の歴史

2.1 ディープ ニューラル ネットワークディープニューラルネットワークに代表される情報技術の発展は、人工知能分野の進歩と拡大を促進してきました。 2006 年にヒントンらは、単層 RBM 自動エンコーディング事前トレーニングを使用してディープ ニューラル ネットワーク トレーニングを実現し、2012 年にはヒントンとアレックス クリジェフスキーによって設計された AlexNet ニューラル ネットワーク モデルが ImageNet コンペティションで画像認識と分類を達成し、新しいモデルになりました。人工知能開発の出発点。現在普及しているディープ ニューラル ネットワークは、生物学的ニューラル ネットワークによって提案された概念に基づいてモデル化されています。生物学的ニューラル ネットワークでは、生物学的ニューロンが受信した情報を層ごとに送信し、複数のニューロンからの情報が集約されて最終結果が得られます。生物学的なニューラル ユニットと同様に設計された論理ニューラル ユニットを使用して構築された数学モデルは、人工ニューラル ネットワークと呼ばれます。人工ニューラル ネットワークでは、論理ニューラル ユニットを使用して、入力データと出力データの間の隠された関係を探索します。データ量が少ないときは、浅いニューラル ネットワークで一部のタスクの要件を満たすことができます。しかし、データの規模が増大し続けるにつれて、増加、拡張するディープ ニューラル ネットワークは、独自の利点を示し始めます。

2.2 アテンション メカニズムアテンション メカニズム (アテンション メカニズム) は、2014 年に Bengio チームによって提案され、広く深く使用されています。画像上の受容野を捉えるコンピュータビジョンや、重要なトークンや特徴を見つけるためのNLPなど、学習のさまざまな分野に応用されています。多数の実験により、アテンション メカニズムを備えたモデルにより、画像の分類、セグメンテーション、追跡、強調、自然言語の認識、理解、質問応答、翻訳において大幅な改善が達成されたことが証明されています。

注意メカニズムは、視覚的注意メカニズムをモデルにしています。視覚的注意のメカニズムは人間の脳の生来の能力です。写真を見るとき、私たちはまず写真を素早くスキャンし、次に焦点を合わせる必要があるターゲット領域に焦点を合わせます。たとえば、次の写真を見ると、赤ちゃんの顔、記事のタイトル、記事の最初の文に注意が集中しやすくなります。想像してみてください。地域の情報をすべて手放さなければ、大量のエネルギーが消費され、人類の生存と進化には役立たないでしょう。同様に、同様のメカニズムを深層学習ネットワークに導入すると、モデルが簡素化され、計算が高速化されます。基本的に理解されるように、「注意」とは、大量の情報から少量の重要な情報をフィルタリングし、重要でない情報の大部分を無視しながら、この重要な情報に焦点を当てることです。


Transformer テクノロジーの原理の概要

図 2 人間の注意メカニズムの概略図

#3. 技術的な詳細

##

インテリジェントな Transformer モデルは、従来の CNN および RNN ユニットを放棄し、ネットワーク構造全体が完全にアテンション メカニズムで構成されています。この章では、まず Transformer モデルの全体的なプロセスを紹介し、次に、関連する位置エンコーディング情報と Self-Attendance 計算について詳しく紹介します。

3.1 プロセスの概要


Transformer テクノロジーの原理の概要

##図 3 アテンション メカニズムのフローチャート

上図に示すように、Transformer は Encoder モジュールと Decoder モジュールの 2 つの部分で構成されます。 Nブロックです。翻訳タスクを例に取ると、Transformer のワークフローは大まかに次のようになります:

ステップ 1: 入力文の各単語の表現ベクトル X を取得します (X は単語自体の Embedding を追加することで得られます)そして単語の位置の埋め込み。

ステップ 2: 取得した単語表現ベクトル行列を Encoder モジュールに渡します。Encoder モジュールは、Attender メソッドを使用して入力データを計算します。 N 個の Encoder モジュールを使用すると、文中のすべての単語のエンコード情報行列が取得でき、各 Encoder モジュールが出力する行列の次元は入力とまったく同じになります。

ステップ 3: Encoder モジュールによって出力されたエンコード情報行列を Decoder モジュールに渡すと、Decoder は現在翻訳されている単語 i に基づいて次の単語 i 1 を翻訳します。 Encoder 構造と同様に、Decoder 構造も計算にアテンション メソッドを使用します。使用中、単語 i 1 に変換するとき、i 1 以降の単語はマスク操作でカバーされる必要があります。

3.2 自己注意の計算

Transform モデルの中核は注意の計算であり、これは次の式で表現できます。

Transformer テクノロジーの原理の概要

このうち、Q、K、V はそれぞれクエリ、キー、値を表します。これら 3 つの概念は情報検索システムから取得したものです。検索例です。電子商取引プラットフォームで商品を検索する場合、検索エンジンに入力した内容はクエリであり、検索エンジンはクエリに基づいてキーを照合します (タイプ、色、説明など)。 ) を取得し、Query と Key の類似度に基づいて一致する内容 (Value) を取得します。

self-attention の Q、K、V も同様の役割を果たします。行列計算では、内積は 2 つの行列の類似性を計算する方法の 1 つであるため、Q 行列は上式 K行列の転置を乗じて類似度を計算します。内積が大きくなりすぎないようにするには、内積を d の平方根で割る必要があり、最後にソフトマックス活性化関数が結果に適用されます。

3.3 位置エンコーディング 単語自体の埋め込みに加えて、Transformer は位置を表すために位置埋め込みも使用する必要があります。単語が文中に現れる場所。 Transformer は RNN の構造を使用せず、グローバル情報を使用するため、単語の順序情報を使用できません。この部分の情報は NLP や CV にとって非常に重要です。したがって、Transformer では位置埋め込みを使用して、シーケンス内の単語の相対位置または絶対位置を保存します。

Position Embedding は PE で表され、PE の次元は単語 Embedding と同じです。 PEはトレーニングを通じて取得することも、特定の計算式を使用して計算することもできます。後者は Transformer で使用され、計算式は次のとおりです。

Transformer テクノロジーの原理の概要

#ここで、pos は文中の単語の位置、d を表します。は PE の次元を表し、そのサイズは単語自体の埋め込みと同じです。2i は偶数の次元を表し、2i 1 は奇数の次元を表します。

4. 概要

Transformer の焦点は Self-Attend 構造です。多次元の Attend 構造により、ネットワークは単語間の隠された関係を多次元で捉えることができます。ただし、Transformer 自体は単語の順序情報を使用することができません。 Position Embedding は単語の位置情報を保存するために使用されます。リカレント ニューラル ネットワークと比較して、Transformer ネットワークはより適切に並列トレーニングできます。畳み込みニューラル ネットワークと比較して、2 つの位置間の関連性を計算するために Transformer ネットワークが必要とする操作の数は、距離に応じて増加せず、中断される可能性があります。畳み込みニューラル ネットワークを介して計算される距離は、受容野のサイズに制限されます。同時に、Transformer ネットワークはより解釈しやすいモデルを生成できます。モデルから注意の分布を調べることができ、各注意のヘッドが異なるタスクの実行方法を学習できます。

以上がTransformer テクノロジーの原理の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。