検索
ホームページテクノロジー周辺機器AITransformer テクノロジーの原理の概要

Transformer テクノロジーの原理の概要

1. はじめに

最近、AIGC (AI-Generated Content、人工知能生成コンテンツ) が開発されました。消費者だけでなく、テクノロジーや業界からも注目を集めています。 2022 年 9 月 23 日、Sequoia America は、AIGC がパラダイム シフトの新たなラウンドの始まりを表すと信じて、「Generative AI: A Creative New World」という記事を掲載しました。 2022 年 10 月に、Stability AI は、ユーザーが入力したテキストの説明 (プロンプトと呼ばれる) に基づいて画像を自動的に生成できるオープンソース モデル Stable Diffusion、つまり Text-to-Image をリリースしました。などの画像を生成できる AIGC モデルが AI 絵画の分野に爆発的に普及し、人工知能がアート分野に浸透するきっかけとなりました。下の写真はBaiduの「Wenxin Yige」プラットフォームで制作された「未来のメカ」をテーマにした作品です。


Transformer テクノロジーの原理の概要

# 図 1 Baidu の「Wenxin Yige」プラットフォーム Painting によって作成された AI

AIGC 分野の急速な発展は、ディープ ニューラル ネットワークの進歩と切り離すことができません。具体的には、Transform モデルの出現により、ニューラル ネットワークにより強力なグローバル コンピューティング機能が与えられ、ネットワーク トレーニング時間が短縮され、ネットワーク モデルのパフォーマンスが向上します。比較的良好にパフォーマンスを発揮する現在の AIGC ドメイン モデルには、基礎となる技術アーキテクチャにアテンション テクノロジーとトランスフォーム テクノロジーが含まれています。

#2. 開発の歴史

2.1 ディープ ニューラル ネットワークディープニューラルネットワークに代表される情報技術の発展は、人工知能分野の進歩と拡大を促進してきました。 2006 年にヒントンらは、単層 RBM 自動エンコーディング事前トレーニングを使用してディープ ニューラル ネットワーク トレーニングを実現し、2012 年にはヒントンとアレックス クリジェフスキーによって設計された AlexNet ニューラル ネットワーク モデルが ImageNet コンペティションで画像認識と分類を達成し、新しいモデルになりました。人工知能開発の出発点。現在普及しているディープ ニューラル ネットワークは、生物学的ニューラル ネットワークによって提案された概念に基づいてモデル化されています。生物学的ニューラル ネットワークでは、生物学的ニューロンが受信した情報を層ごとに送信し、複数のニューロンからの情報が集約されて最終結果が得られます。生物学的なニューラル ユニットと同様に設計された論理ニューラル ユニットを使用して構築された数学モデルは、人工ニューラル ネットワークと呼ばれます。人工ニューラル ネットワークでは、論理ニューラル ユニットを使用して、入力データと出力データの間の隠された関係を探索します。データ量が少ないときは、浅いニューラル ネットワークで一部のタスクの要件を満たすことができます。しかし、データの規模が増大し続けるにつれて、増加、拡張するディープ ニューラル ネットワークは、独自の利点を示し始めます。

2.2 アテンション メカニズムアテンション メカニズム (アテンション メカニズム) は、2014 年に Bengio チームによって提案され、広く深く使用されています。画像上の受容野を捉えるコンピュータビジョンや、重要なトークンや特徴を見つけるためのNLPなど、学習のさまざまな分野に応用されています。多数の実験により、アテンション メカニズムを備えたモデルにより、画像の分類、セグメンテーション、追跡、強調、自然言語の認識、理解、質問応答、翻訳において大幅な改善が達成されたことが証明されています。

注意メカニズムは、視覚的注意メカニズムをモデルにしています。視覚的注意のメカニズムは人間の脳の生来の能力です。写真を見るとき、私たちはまず写真を素早くスキャンし、次に焦点を合わせる必要があるターゲット領域に焦点を合わせます。たとえば、次の写真を見ると、赤ちゃんの顔、記事のタイトル、記事の最初の文に注意が集中しやすくなります。想像してみてください。地域の情報をすべて手放さなければ、大量のエネルギーが消費され、人類の生存と進化には役立たないでしょう。同様に、同様のメカニズムを深層学習ネットワークに導入すると、モデルが簡素化され、計算が高速化されます。基本的に理解されるように、「注意」とは、大量の情報から少量の重要な情報をフィルタリングし、重要でない情報の大部分を無視しながら、この重要な情報に焦点を当てることです。


Transformer テクノロジーの原理の概要

図 2 人間の注意メカニズムの概略図

#3. 技術的な詳細

##

インテリジェントな Transformer モデルは、従来の CNN および RNN ユニットを放棄し、ネットワーク構造全体が完全にアテンション メカニズムで構成されています。この章では、まず Transformer モデルの全体的なプロセスを紹介し、次に、関連する位置エンコーディング情報と Self-Attendance 計算について詳しく紹介します。

3.1 プロセスの概要


Transformer テクノロジーの原理の概要

##図 3 アテンション メカニズムのフローチャート

上図に示すように、Transformer は Encoder モジュールと Decoder モジュールの 2 つの部分で構成されます。 Nブロックです。翻訳タスクを例に取ると、Transformer のワークフローは大まかに次のようになります:

ステップ 1: 入力文の各単語の表現ベクトル X を取得します (X は単語自体の Embedding を追加することで得られます)そして単語の位置の埋め込み。

ステップ 2: 取得した単語表現ベクトル行列を Encoder モジュールに渡します。Encoder モジュールは、Attender メソッドを使用して入力データを計算します。 N 個の Encoder モジュールを使用すると、文中のすべての単語のエンコード情報行列が取得でき、各 Encoder モジュールが出力する行列の次元は入力とまったく同じになります。

ステップ 3: Encoder モジュールによって出力されたエンコード情報行列を Decoder モジュールに渡すと、Decoder は現在翻訳されている単語 i に基づいて次の単語 i 1 を翻訳します。 Encoder 構造と同様に、Decoder 構造も計算にアテンション メソッドを使用します。使用中、単語 i 1 に変換するとき、i 1 以降の単語はマスク操作でカバーされる必要があります。

3.2 自己注意の計算

Transform モデルの中核は注意の計算であり、これは次の式で表現できます。

Transformer テクノロジーの原理の概要

このうち、Q、K、V はそれぞれクエリ、キー、値を表します。これら 3 つの概念は情報検索システムから取得したものです。検索例です。電子商取引プラットフォームで商品を検索する場合、検索エンジンに入力した内容はクエリであり、検索エンジンはクエリに基づいてキーを照合します (タイプ、色、説明など)。 ) を取得し、Query と Key の類似度に基づいて一致する内容 (Value) を取得します。

self-attention の Q、K、V も同様の役割を果たします。行列計算では、内積は 2 つの行列の類似性を計算する方法の 1 つであるため、Q 行列は上式 K行列の転置を乗じて類似度を計算します。内積が大きくなりすぎないようにするには、内積を d の平方根で割る必要があり、最後にソフトマックス活性化関数が結果に適用されます。

3.3 位置エンコーディング 単語自体の埋め込みに加えて、Transformer は位置を表すために位置埋め込みも使用する必要があります。単語が文中に現れる場所。 Transformer は RNN の構造を使用せず、グローバル情報を使用するため、単語の順序情報を使用できません。この部分の情報は NLP や CV にとって非常に重要です。したがって、Transformer では位置埋め込みを使用して、シーケンス内の単語の相対位置または絶対位置を保存します。

Position Embedding は PE で表され、PE の次元は単語 Embedding と同じです。 PEはトレーニングを通じて取得することも、特定の計算式を使用して計算することもできます。後者は Transformer で使用され、計算式は次のとおりです。

Transformer テクノロジーの原理の概要

#ここで、pos は文中の単語の位置、d を表します。は PE の次元を表し、そのサイズは単語自体の埋め込みと同じです。2i は偶数の次元を表し、2i 1 は奇数の次元を表します。

4. 概要

Transformer の焦点は Self-Attend 構造です。多次元の Attend 構造により、ネットワークは単語間の隠された関係を多次元で捉えることができます。ただし、Transformer 自体は単語の順序情報を使用することができません。 Position Embedding は単語の位置情報を保存するために使用されます。リカレント ニューラル ネットワークと比較して、Transformer ネットワークはより適切に並列トレーニングできます。畳み込みニューラル ネットワークと比較して、2 つの位置間の関連性を計算するために Transformer ネットワークが必要とする操作の数は、距離に応じて増加せず、中断される可能性があります。畳み込みニューラル ネットワークを介して計算される距離は、受容野のサイズに制限されます。同時に、Transformer ネットワークはより解釈しやすいモデルを生成できます。モデルから注意の分布を調べることができ、各注意のヘッドが異なるタスクの実行方法を学習できます。

以上がTransformer テクノロジーの原理の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい