2017 年に提案されて以来、Transformer モデルは、自然言語処理やコンピューター ビジョンなどの他の分野で前例のない強みを示し、ChatGPT などの技術的ブレークスルーを引き起こしました。人々はまた、さまざまなオリジナル ベースのバリアントも提案してきました。モデル。
学術界と産業界が Transformer の注目メカニズムに基づいた新しいモデルを提案し続ける中、この方向性を要約することが難しい場合があります。最近、LinkedIn の AI 製品戦略責任者である Xavier Amatriain による包括的な記事が、この問題の解決に役立つ可能性があります。
#ここ数年、次々とTransformer ファミリーには多数のモデルがあり、すべて興味深くわかりやすい名前が付けられています。この記事の目的は、最も人気のある Transformer モデルの包括的かつシンプルなカタログと分類を提供することです。さらに、この記事では、Transformer モデルの最も重要な側面と革新についても紹介します。
#論文「変圧器モデル: 概要とカタログ」:
##紙のリンク:
## https://arxiv.org/abs/2302.07730#GitHub: https://github.com/xamat/TransformerCatalog
はじめに: Transformer とは
Transformer は、次のもので構成されるクラスです。アーキテクチャ上の特徴によって定義される深層学習モデル。最初に登場したのは、2017 年に Google 研究者によって発表された有名な論文「Attending is All you Need」(この論文はわずか 5 年間で 38,000 回以上引用されています)および関連するブログ投稿です。 Transformer アーキテクチャは、2 ~ 3 年前に普及したエンコーダ/デコーダ モデル [2] の特定のインスタンスです。しかし、それまでは、主に LSTM (Long Short-Term Memory) [3] やその他の RNN (Recurrent Neural Network) [4] の亜種に基づいたこれらのモデルで使用されるメカニズムの 1 つだけが注目されていました。 Transformers の論文の重要な洞察は、タイトルが示すように、入力と出力の間の依存関係を導き出す唯一のメカニズムとして注意を使用できるということです。 Transformer アーキテクチャの詳細をすべて説明することは、このブログの範囲を超えています。この目的のために、この記事では上記の元の論文またはトランスフォーマーの投稿を参照することをお勧めします。どちらも非常に興味深いものです。そうは言っても、この記事では最も重要な点について簡単に説明し、以下の目次にも記載します。この記事では、元の論文の基本的なアーキテクチャ図から始めて、関連する内容を展開していきます。エンコーダ/デコーダ アーキテクチャ
ユニバーサル エンコーダ/デコーダ アーキテクチャ (図 1 を参照) 2 つのモデルで構成されます。エンコーダーは入力を受け取り、それを固定長ベクトルにエンコードします。デコーダはこのベクトルを受け取り、出力シーケンスにデコードします。エンコーダーとデコーダーは、条件付き対数尤度を最小化するように共同でトレーニングされます。トレーニングが完了すると、エンコーダー/デコーダーは入力シーケンスを指定して出力を生成したり、入力/出力シーケンスをスコアリングしたりできます。オリジナルの Transformer アーキテクチャでは、エンコーダーとデコーダーの両方に 6 つの同一のレイヤーがありました。これら 6 つのレイヤーの各エンコーダーには、マルチヘッド アテンション レイヤーと単純なフィードフォワード ネットワークという 2 つのサブレイヤーがあります。各サブレイヤーには残留接続とレイヤー正規化があります。エンコーダーの出力サイズは 512 です。デコーダは、エンコーダ出力上の別のマルチヘッド アテンション レイヤである 3 番目のサブレイヤを追加します。さらに、デコーダ内の別のマルチヘッド層がマスクされます。
#図 2: アテンションのメカニズム
##アテンション
上記の説明から、モデル アーキテクチャの唯一の特別な要素はマルチヘッド アテンションであることは明らかですが、前述したように、ここにモデルの最大の力があります。では、注意とは具体的に何でしょうか?アテンション関数は、クエリと一連のキーと値のペア間の出力へのマッピングです。出力は値の重み付き合計として計算されます。各値に割り当てられた重みは、対応するキーとのクエリの互換性関数によって計算されます。トランスフォーマーは、スケーリングされたドット積アテンションと呼ばれる特定のアテンション関数の並列計算であるマルチヘッド アテンションを使用します。アテンション メカニズムがどのように機能するかについて詳しくは、この記事でも「The Illustrated Transformer」の記事を参照し、主な概念を理解するために元の論文の図を図 2 に再掲します。アテンション層には、リカレント ネットワークや畳み込みネットワークに比べていくつかの利点があります。最も重要な 2 つは、計算の複雑さが低いことと接続性が高いことであり、シーケンス内の長期的な依存関係を学習するのに特に役立ちます。
Transformer の用途と人気の理由
元の Transformer は言語翻訳用に設計されました。特に英語からドイツ語まで。ただし、元の研究論文からわかるように、このアーキテクチャは他の言語タスクにもよく一般化します。この特定の傾向はすぐに研究コミュニティの注目を集めました。その後の数か月間で、ほとんどの言語関連の ML タスクのランキングは、Transformer アーキテクチャの一部のバージョンによって完全に独占されました (たとえば、有名な SQUAD ランキングでは、すべての上位モデルが Transformer のコレクションになっています)。 Transformers がほとんどの NLP ランキングを急速に独占した主な理由の 1 つは、トランスフォーマーが他のタスクに素早く適応する能力 (別名転移学習) です。事前トレーニング済みの Transformer モデルは、トレーニングされていないタスクに非常に簡単かつ迅速に適応させることができ、これには大きな利点があります。 ML 実践者は、巨大なデータセットで大規模なモデルをトレーニングする必要がなくなりました。必要なのは、事前トレーニングされたモデルをタスクで再利用することだけです。場合によっては、はるかに小さいデータセットを使用してわずかに調整するだけです。事前トレーニングされたモデルをさまざまなタスクに適応させるために使用される特定の手法の 1 つは、微調整と呼ばれます。トランスフォーマーは他のタスクにも適応できることが証明されたため、元々は言語関連のタスク用に開発されましたが、ビジュアル、オーディオ、音楽アプリケーションに至るまで、他のタスクにもすぐに採用されました。チェスをしたり、数学をしたりする方法。
もちろん、誰でも簡単に数行のコードを記述できる無数のツールがなければ、これらのアプリケーションはいずれも実現できません。 Transformer は、主要な人工知能フレームワーク (Pytorch8 や TF9 など) に迅速に統合できるだけでなく、企業全体をこれに基づいて構築することもできます。これまでに 6,000 万ドル以上を調達したスタートアップ企業、Huggingface は、オープンソースの Transformer ライブラリを商用化するというアイデアをほぼ全面的に中心に構築されました。
最後に、人気の初期段階における Transformer に対する GPT-3 の影響について話す必要があります。 GPT-3 は、2020 年 5 月に OpenAI によって発売された Transformer モデルであり、以前の GPT および GPT-2 のフォローアップです。同社はこのモデルをプレプリントで紹介することで多くの話題を呼びましたが、そのモデルは非常に強力であるため世界にリリースできないと主張していました。それ以来、このモデルはリリースされただけでなく、OpenAI と Microsoft との大規模なコラボレーションを通じて商品化されました。 GPT-3 は 300 以上の異なるアプリケーションをサポートしており、OpenAI のビジネス戦略の基礎となっています (これは 10 億ドルを超える資金を調達した企業にとって当然のことです)。
RLHF
最近、人間のフィードバック (または好み) からの強化学習 (RLHF (RLHP とも呼ばれる)) ) は、人工知能ツールキットへの大きな追加となっています。この概念は、2017 年の論文「人間の好みからの深層強化学習」ですでに提案されています。さらに最近では、ChatGPT や、BlenderBot や Sparrow などの同様の会話型エージェントに適用されています。アイデアは単純です: 言語モデルが事前にトレーニングされると、ユーザーは会話に対してさまざまな応答を生成し、その結果を人間がランク付けできます。強化学習環境でこれらのランキング (別名好みまたはフィードバック) を使用して、報酬をトレーニングできます (図 3 を参照) )。###############拡散#########拡散モデルは画像生成における新しい SOTA となり、明らかに GAN (敵対的生成ネットワーク) などの以前の方法を押しのけています。普及モデルとは何ですか?これらは、変分推論でトレーニングされた潜在変数モデルのクラスです。この方法でトレーニングされたネットワークは、実際にこれらの画像によって表される潜在空間を学習します (図 4 を参照)。
拡散モデルは、有名な [敵対的生成ネットワーク (GAN)] 16 などの他の生成モデルに関連しており、多くのアプリケーション、特に (ノイズ除去) オートエンコーダーで置き換えられています。著者の中には、拡散モデルはオートエンコーダの特定のインスタンスにすぎないとさえ言う人もいます。しかし、彼らはまた、小さな違いによって、その応用がオートコンダーの基礎的な表現から拡散モデルの純粋に生成的な性質に変わることも認めています。
# 図 3: 人間のフィードバックによる強化学習。
図 4: 「拡散モデル」から抜粋した確率的拡散モデルのアーキテクチャ" : メソッドとアプリケーションの包括的な調査》
この記事で紹介されているモデルは次のとおりです:
以上が5 年間で 38,000 回引用され、トランスフォーマー ユニバースはこのように発展しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

2008年以来、私は共有ライドバンを擁護しました。これは、「Robotjitney」と呼ばれる「後に「Vansit」と呼ばれ、都市交通の未来として擁護しました。 私はこれらの車両を21世紀の次世代トランジットソリューション、スルパとして予見します

チェックアウトエクスペリエンスに革命をもたらす Sam's Clubの革新的な「Just Go」システムは、既存のAIを搭載した「スキャン&ゴー」テクノロジーに基づいて構築され、ショッピング旅行中にメンバーがサムズクラブアプリを介して購入をスキャンできるようになりました。

GTC 2025でのNvidiaの強化された予測可能性と新製品のラインナップ AIインフラストラクチャの重要なプレーヤーであるNvidiaは、クライアントの予測可能性の向上に焦点を当てています。 これには、一貫した製品配信、パフォーマンスの期待を満たすこと、および

GoogleのGemma 2:強力で効率的な言語モデル 効率とパフォーマンスで祝われるGoogleのGemmaファミリーは、Gemma 2の到着とともに拡大しました。この最新リリースは2つのモデルで構成されています。

データエピソードを率いるこの主要なのは、主要なデータサイエンティスト、天体物理学者、TEDXスピーカーであるカークボーン博士を特徴としています。 ビッグデータ、AI、および機械学習の有名な専門家であるボルネ博士は、現在の状態と将来のトラジェについて非常に貴重な洞察を提供しています

このスピーチには、人工知能が人々の運動をサポートするのに非常に優れている理由を示すエンジニアリングに関するバックグラウンド情報には、非常に洞察に満ちた視点がいくつかありました。 各寄稿者の観点からコアアイデアを概説し、スポーツにおける人工知能の適用の調査の重要な部分である3つの設計側面を実証します。 エッジデバイスと生の個人データ 人工知能に関するこのアイデアには、実際には2つのコンポーネントが含まれています。1つは大きな言語モデルを配置する場所に関連しており、もう1つは人間の言語と、リアルタイムで測定したときにバイタルサインが「表現」する言語の違いに関連しています。 アレクサンダー・アミニはランニングとテニスについて多くのことを知っていますが、彼はまだ

Caterpillarの最高情報責任者であり、その上級副社長であるJamie Engstromは、28か国の2,200人以上のITプロフェッショナルのグローバルチームを率いています。 彼女の現在の役割で4年半を含むCaterpillarで26年間、Engst

Google Photosの新しいUltra HDRツール:クイックガイド Google Photosの新しいUltra HDRツールで写真を強化し、標準画像を活気に満ちた高ダイナミックレンジの傑作に変換します。ソーシャルメディアに最適なこのツールは、あらゆる写真の影響を高め、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン
