ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?
多くの注目すべき成果にもかかわらず、ディープ ニューラル ネットワーク (DNN) のトレーニングにおける実際的な進歩は、理論的根拠とはほとんど無関係です。成功している最新の DNN のほとんどは、残余接続と正規化層の特定の配置に依存していますが、新しいアーキテクチャでこれらのコンポーネントを使用する方法の一般原則はまだ不明であり、既存のアーキテクチャにおけるそれらの役割はまだ完全には理解されていません。
残差アーキテクチャは最も人気があり成功を収めており、もともと畳み込みニューラル ネットワーク (CNN) のコンテキストで開発され、後にアテンション ネットワークから遍在的に出現しました。残差アーキテクチャが成功する理由の 1 つは、通常の DNN と比較して信号伝播が優れていることです。信号伝播とは、DNN 層を介した幾何学的情報の送信を指し、カーネル関数によって表されます。
最近、信号伝播原理を使用して、残留接続や残留アーキテクチャの正規化層を関与させずに、より深い DNN をトレーニングすることが、コミュニティの関心の対象となっています。理由は 2 つあります: 第 1 に、残差アーキテクチャの有効性に関する信号伝播仮説が検証され、DNN の解釈可能性の理解を明確にすることができます。第 2 に、これにより、残差パラダイムを超えた DNN トレーニング可能性の一般原理と方法が可能になる可能性があります。
CNN の場合、Xiao et al. (2018) の研究では、初期化を改善することで信号伝播を改善することで、通常のディープ ネットワークを効率的にトレーニングできることが示されています。残りのネットワークよりも大幅に遅い。 Martens et al. (2021) の研究では、活性化関数変換を使用して信号伝播を制御し、K-FAC などの強力な 2 次オプティマイザーを使用して通常のネットワークと残差ネットワークのトレーニングを実装するディープ カーネル シェーピング (DKS) を提案しました。 ImageNet では速度は同等です。 Zhang et al. (2022) の研究では、DKS をより大きなクラスの活性化関数に拡張し、一般化においてほぼ同等の結果を達成しています。
信号伝播で分析する重要な量は、DNN の初期化時間カーネル、より正確には、無限幅制限の下での近似カーネルです。デルタ初期化を使用する多層パーセプトロン (MLP) および CNN の場合、カーネルは 2D 関数のみを含む単純な層再帰として記述でき、簡単な分析を容易にします。クロスレイヤトランスフォーマのカーネル進化はより複雑であるため、DKS などの既存の方法はトランスフォーマや、実際にはセルフアテンション層を含むアーキテクチャには適していません。
MLP では、信号の伝播は (1 次元の) カーネルの動作を見て判断されますが、トランス内の信号の伝播は (高次元の) カーネルの動作を見て判断できます。 ) ネットワーク層のカーネルマトリックス の進化から判断します。
この研究では、対角要素が深さの増加とともに急速に拡大または縮小する状況を回避する必要があります。これは制御されていない活性化規範に関連しており、飽和損失や数値的問題を引き起こす可能性があります。ランク崩壊を回避することはディープトランスフォーマーのトレーニング可能性のために必要ですが、ディープ残差フリートランスフォーマーをトレーニングできるかどうかは未解決の問題のままです。
ICLR 2023 のブラインドレビュー段階のこの論文は、この問題を解決し、残留接続や正規化層なしでディープトランスフォーマーを正常に訓練できることを初めて実証します。この目的を達成するために、彼らは深い残留物のない変圧器における信号伝播とランク崩壊の問題を研究し、それらを防ぐための 3 つの方法を導き出しました。具体的には、このアプローチでは、パラメーターの初期化、バイアス行列、位置依存の再スケーリングを組み合わせて使用し、位置エンコーディングや因果関係マスキングとの相互作用など、トランス内の信号伝播に特有のいくつかの複雑さを浮き彫りにします。研究者らは、彼らの方法が深く訓練可能な残差のない変換器を生成できることを経験的に実証しました。
実験部分では、WikiText-103 および C4 データセットを使用して、研究者らは主要な手法である指数関数的信号維持注意 (E-SPA) の使用を実証しました。トレーニング時間を約 5 倍に延長することで、標準変圧器のトレーニング損失が論文の残留変圧器の損失と同等になります。さらに、研究者らは、この方法を残差接続と組み合わせることで、正規化層のないトランスフォーマーが標準トランスフォーマーと同等のトレーニング速度を達成できることも示しました。
#論文アドレス: https://openreview.net/pdf?id=NPrsUQgMjKK
この論文に関して、Google AI のチーフ エンジニアである Rohan Anil は、これが Transformer アーキテクチャの大きな前進であり、根本的な改善であると信じています。
ショートカットなしでトレーニング可能な深い Transformer の構築
これまでのところ、Transformer のランク崩壊を修正する唯一の戦略は残留接続に依存しており、このアプローチでは省略されています。自己注意層に固有の訓練可能性の問題。対照的に、この研究はこの質問に直接取り組んでいます。まずアテンション層を介した信号伝播をより深く理解し、次に洞察に基づいて変更を加えて、残留接続の有無にかかわらずトレーニングできる深いトランスフォーマーでの忠実な信号伝送を実現します。
具体的には、まず研究では、ディープバニラトランスの簡単な設定を注意のみで実施し、次にトランスが単一ヘッド (h = 1) 設定またはマルチヘッド設定では、注意行列 A は異なるヘッド間で変化しません。ブロック l≤L が初期化時にアテンション行列 A_l を持つ場合、最終ブロックの表現は X_L になります。
上記の式の場合、 と
は直交初期化を採用しており、
は初期化中に直交することができます。
上記の仮定の下で、クロスポジション入力カーネル行列を表すために を使用すると、いくつかの単純化の後、次の式が得られます。
この単純化された式 (深さのみのアテンション変換器のカーネル行列) から、(A_l)_l の 3 つの要件を決定できます。
-
各ブロック内で適切に実行し、ランクの崩壊や対角値の爆発/消失などの劣化状況を回避する必要があります。
- #A_l する必要があります。要素ごとに非負の ∀l である必要があります。
- A_l は、因果マスク アテンションと互換性があるように下三角 ∀l である必要があります。
次のセクション 3.1 と 3.2 では、研究は上記のニーズを満たすアテンション マトリックスを見つけることに焦点を当て、E-SPA、U-SPA、および 3 つの方法を提案しています。 Value-Skipinit、それぞれのメソッドを使用してトランスのアテンション マトリックスを制御し、深い深さでも忠実な信号伝播を可能にします。さらに、セクション 3.3 では、これらのアテンション マトリックスを実装するためにソフトマックス アテンションを変更する方法を示します。
以下の図では、研究では提案された 2 つの SPA スキーム、U-SPA と E-SPA を検証しました。結果は、ネットワークが深い場合でも、うまく回避できることを示しています。バニラトランスフォーマーにおけるランク崩壊現象のみに注目してください。
実験
WikiText-103 ベースライン: まず、この研究では、正規化層 (LN) と変換されたアクティベーションがある場合でも、残差接続のない標準的なディープ トランスフォーマーはトレーニングできないことを検証しますが、メソッドはこの記事ではこの問題を解決できます。図 2 に示すように、標準変圧器から残留接続を除去するとトレーニング不能になり、トレーニング損失が約 7.5 で安定することがはっきりとわかります。図 1 に示すように、標準トランスにはランク崩壊が発生します。
一方、本研究で提案した E-SPA 手法は、U-SPA や Value-Skipinit を上回っています。ただし、残差と LN を含むデフォルトのトランスフォーマーは、残差のない方法と比較してトレーニング速度の利点を維持します。
表 1 では、提案された方法と残差のない変換器での LN の使用を使用して、MLP ブロック内のさまざまな活性化関数の影響を評価しています。深さ 36 では、私たちの方法は一連のアクティベーション (DKS 変換された GeLU、TAT 変換された Leaky ReLU、および未変換の GeLU) に対して良好なトレーニング パフォーマンスを達成しましたが、未変換の Sigmoid ではないことがわかります。また、層の正規化はトレーニング速度にとって比較的重要ではなく、アクティベーション仕様を制御するためのメカニズムがすでに組み込まれている SPA を使用する場合、変換されたアクティベーションに悪影響を与える可能性さえあることが実験的に確認されています。
図 3 では、追加の反復を必要とせずにデフォルトのトランスフォーマーのトレーニング損失を一致させる 1 つの方法は、正規化残差接続を使用することであることがわかります。
#表 2 は、正規化された残差と LN を備えた E-SPA がデフォルトの PreLN トランスフォーマーよりも優れていることを示しています。
以上がICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
