ホームページ >テクノロジー周辺機器 >AI >ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?
多くの注目すべき成果にもかかわらず、ディープ ニューラル ネットワーク (DNN) のトレーニングにおける実際的な進歩は、理論的根拠とはほとんど無関係です。成功している最新の DNN のほとんどは、残余接続と正規化層の特定の配置に依存していますが、新しいアーキテクチャでこれらのコンポーネントを使用する方法の一般原則はまだ不明であり、既存のアーキテクチャにおけるそれらの役割はまだ完全には理解されていません。
残差アーキテクチャは最も人気があり成功を収めており、もともと畳み込みニューラル ネットワーク (CNN) のコンテキストで開発され、後にアテンション ネットワークから遍在的に出現しました。残差アーキテクチャが成功する理由の 1 つは、通常の DNN と比較して信号伝播が優れていることです。信号伝播とは、DNN 層を介した幾何学的情報の送信を指し、カーネル関数によって表されます。
最近、信号伝播原理を使用して、残留接続や残留アーキテクチャの正規化層を関与させずに、より深い DNN をトレーニングすることが、コミュニティの関心の対象となっています。理由は 2 つあります: 第 1 に、残差アーキテクチャの有効性に関する信号伝播仮説が検証され、DNN の解釈可能性の理解を明確にすることができます。第 2 に、これにより、残差パラダイムを超えた DNN トレーニング可能性の一般原理と方法が可能になる可能性があります。
CNN の場合、Xiao et al. (2018) の研究では、初期化を改善することで信号伝播を改善することで、通常のディープ ネットワークを効率的にトレーニングできることが示されています。残りのネットワークよりも大幅に遅い。 Martens et al. (2021) の研究では、活性化関数変換を使用して信号伝播を制御し、K-FAC などの強力な 2 次オプティマイザーを使用して通常のネットワークと残差ネットワークのトレーニングを実装するディープ カーネル シェーピング (DKS) を提案しました。 ImageNet では速度は同等です。 Zhang et al. (2022) の研究では、DKS をより大きなクラスの活性化関数に拡張し、一般化においてほぼ同等の結果を達成しています。
信号伝播で分析する重要な量は、DNN の初期化時間カーネル、より正確には、無限幅制限の下での近似カーネルです。デルタ初期化を使用する多層パーセプトロン (MLP) および CNN の場合、カーネルは 2D 関数のみを含む単純な層再帰として記述でき、簡単な分析を容易にします。クロスレイヤトランスフォーマのカーネル進化はより複雑であるため、DKS などの既存の方法はトランスフォーマや、実際にはセルフアテンション層を含むアーキテクチャには適していません。
MLP では、信号の伝播は (1 次元の) カーネルの動作を見て判断されますが、トランス内の信号の伝播は (高次元の) カーネルの動作を見て判断できます。 ) ネットワーク層のカーネルマトリックス の進化から判断します。
この研究では、対角要素が深さの増加とともに急速に拡大または縮小する状況を回避する必要があります。これは制御されていない活性化規範に関連しており、飽和損失や数値的問題を引き起こす可能性があります。ランク崩壊を回避することはディープトランスフォーマーのトレーニング可能性のために必要ですが、ディープ残差フリートランスフォーマーをトレーニングできるかどうかは未解決の問題のままです。
ICLR 2023 のブラインドレビュー段階のこの論文は、この問題を解決し、残留接続や正規化層なしでディープトランスフォーマーを正常に訓練できることを初めて実証します。この目的を達成するために、彼らは深い残留物のない変圧器における信号伝播とランク崩壊の問題を研究し、それらを防ぐための 3 つの方法を導き出しました。具体的には、このアプローチでは、パラメーターの初期化、バイアス行列、位置依存の再スケーリングを組み合わせて使用し、位置エンコーディングや因果関係マスキングとの相互作用など、トランス内の信号伝播に特有のいくつかの複雑さを浮き彫りにします。研究者らは、彼らの方法が深く訓練可能な残差のない変換器を生成できることを経験的に実証しました。
実験部分では、WikiText-103 および C4 データセットを使用して、研究者らは主要な手法である指数関数的信号維持注意 (E-SPA) の使用を実証しました。トレーニング時間を約 5 倍に延長することで、標準変圧器のトレーニング損失が論文の残留変圧器の損失と同等になります。さらに、研究者らは、この方法を残差接続と組み合わせることで、正規化層のないトランスフォーマーが標準トランスフォーマーと同等のトレーニング速度を達成できることも示しました。
#論文アドレス: https://openreview.net/pdf?id=NPrsUQgMjKK
この論文に関して、Google AI のチーフ エンジニアである Rohan Anil は、これが Transformer アーキテクチャの大きな前進であり、根本的な改善であると信じています。
これまでのところ、Transformer のランク崩壊を修正する唯一の戦略は残留接続に依存しており、このアプローチでは省略されています。自己注意層に固有の訓練可能性の問題。対照的に、この研究はこの質問に直接取り組んでいます。まずアテンション層を介した信号伝播をより深く理解し、次に洞察に基づいて変更を加えて、残留接続の有無にかかわらずトレーニングできる深いトランスフォーマーでの忠実な信号伝送を実現します。
具体的には、まず研究では、ディープバニラトランスの簡単な設定を注意のみで実施し、次にトランスが単一ヘッド (h = 1) 設定またはマルチヘッド設定では、注意行列 A は異なるヘッド間で変化しません。ブロック l≤L が初期化時にアテンション行列 A_l を持つ場合、最終ブロックの表現は X_L になります。
上記の式の場合、 と は直交初期化を採用しており、 は初期化中に直交することができます。
上記の仮定の下で、クロスポジション入力カーネル行列を表すために を使用すると、いくつかの単純化の後、次の式が得られます。
この単純化された式 (深さのみのアテンション変換器のカーネル行列) から、(A_l)_l の 3 つの要件を決定できます。
次のセクション 3.1 と 3.2 では、研究は上記のニーズを満たすアテンション マトリックスを見つけることに焦点を当て、E-SPA、U-SPA、および 3 つの方法を提案しています。 Value-Skipinit、それぞれのメソッドを使用してトランスのアテンション マトリックスを制御し、深い深さでも忠実な信号伝播を可能にします。さらに、セクション 3.3 では、これらのアテンション マトリックスを実装するためにソフトマックス アテンションを変更する方法を示します。
以下の図では、研究では提案された 2 つの SPA スキーム、U-SPA と E-SPA を検証しました。結果は、ネットワークが深い場合でも、うまく回避できることを示しています。バニラトランスフォーマーにおけるランク崩壊現象のみに注目してください。
WikiText-103 ベースライン: まず、この研究では、正規化層 (LN) と変換されたアクティベーションがある場合でも、残差接続のない標準的なディープ トランスフォーマーはトレーニングできないことを検証しますが、メソッドはこの記事ではこの問題を解決できます。図 2 に示すように、標準変圧器から残留接続を除去するとトレーニング不能になり、トレーニング損失が約 7.5 で安定することがはっきりとわかります。図 1 に示すように、標準トランスにはランク崩壊が発生します。
一方、本研究で提案した E-SPA 手法は、U-SPA や Value-Skipinit を上回っています。ただし、残差と LN を含むデフォルトのトランスフォーマーは、残差のない方法と比較してトレーニング速度の利点を維持します。
表 1 では、提案された方法と残差のない変換器での LN の使用を使用して、MLP ブロック内のさまざまな活性化関数の影響を評価しています。深さ 36 では、私たちの方法は一連のアクティベーション (DKS 変換された GeLU、TAT 変換された Leaky ReLU、および未変換の GeLU) に対して良好なトレーニング パフォーマンスを達成しましたが、未変換の Sigmoid ではないことがわかります。また、層の正規化はトレーニング速度にとって比較的重要ではなく、アクティベーション仕様を制御するためのメカニズムがすでに組み込まれている SPA を使用する場合、変換されたアクティベーションに悪影響を与える可能性さえあることが実験的に確認されています。
図 3 では、追加の反復を必要とせずにデフォルトのトランスフォーマーのトレーニング損失を一致させる 1 つの方法は、正規化残差接続を使用することであることがわかります。
#表 2 は、正規化された残差と LN を備えた E-SPA がデフォルトの PreLN トランスフォーマーよりも優れていることを示しています。
# 以下の図 4(a) は、E-SPA が他の方法より優れていることを示しています。4(b) は、トレーニング損失ギャップを改善できることを示しています。トレーニング時間を増やすだけで解消できます。
以上がICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。