ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 05:31 PM

電車transforme

多くの注目すべき成果にもかかわらず、ディープニューラルネットワーク (DNN) のトレーニングにおける実際的な進歩は、理論的根拠とはほとんど無関係です。成功している最新の DNN のほとんどは、残余接続と正規化層の特定の配置に依存していますが、新しいアーキテクチャでこれらのコンポーネントを使用する方法の一般原則はまだ不明であり、既存のアーキテクチャにおけるそれらの役割はまだ完全には理解されていません。

残差アーキテクチャは最も人気があり成功を収めており、もともと畳み込みニューラルネットワーク (CNN) のコンテキストで開発され、後にアテンションネットワークから遍在的に出現しました。残差アーキテクチャが成功する理由の 1 つは、通常の DNN と比較して信号伝播が優れていることです。信号伝播とは、DNN 層を介した幾何学的情報の送信を指し、カーネル関数によって表されます。

最近、信号伝播原理を使用して、残留接続や残留アーキテクチャの正規化層を関与させずに、より深い DNN をトレーニングすることが、コミュニティの関心の対象となっています。理由は 2 つあります: 第 1 に、残差アーキテクチャの有効性に関する信号伝播仮説が検証され、DNN の解釈可能性の理解を明確にすることができます。第 2 に、これにより、残差パラダイムを超えた DNN トレーニング可能性の一般原理と方法が可能になる可能性があります。

CNN の場合、Xiao et al. (2018) の研究では、初期化を改善することで信号伝播を改善することで、通常のディープネットワークを効率的にトレーニングできることが示されています。残りのネットワークよりも大幅に遅い。 Martens et al. (2021) の研究では、活性化関数変換を使用して信号伝播を制御し、K-FAC などの強力な 2 次オプティマイザーを使用して通常のネットワークと残差ネットワークのトレーニングを実装するディープカーネルシェーピング (DKS) を提案しました。 ImageNet では速度は同等です。 Zhang et al. (2022) の研究では、DKS をより大きなクラスの活性化関数に拡張し、一般化においてほぼ同等の結果を達成しています。

信号伝播で分析する重要な量は、DNN の初期化時間カーネル、より正確には、無限幅制限の下での近似カーネルです。デルタ初期化を使用する多層パーセプトロン (MLP) および CNN の場合、カーネルは 2D 関数のみを含む単純な層再帰として記述でき、簡単な分析を容易にします。クロスレイヤトランスフォーマのカーネル進化はより複雑であるため、DKS などの既存の方法はトランスフォーマや、実際にはセルフアテンション層を含むアーキテクチャには適していません。

MLP では、信号の伝播は (1 次元の) カーネルの動作を見て判断されますが、トランス内の信号の伝播は (高次元の) カーネルの動作を見て判断できます。 ) ネットワーク層のカーネルマトリックスの進化から判断します。

この研究では、対角要素が深さの増加とともに急速に拡大または縮小する状況を回避する必要があります。これは制御されていない活性化規範に関連しており、飽和損失や数値的問題を引き起こす可能性があります。ランク崩壊を回避することはディープトランスフォーマーのトレーニング可能性のために必要ですが、ディープ残差フリートランスフォーマーをトレーニングできるかどうかは未解決の問題のままです。

ICLR 2023 のブラインドレビュー段階のこの論文は、この問題を解決し、残留接続や正規化層なしでディープトランスフォーマーを正常に訓練できることを初めて実証します。この目的を達成するために、彼らは深い残留物のない変圧器における信号伝播とランク崩壊の問題を研究し、それらを防ぐための 3 つの方法を導き出しました。具体的には、このアプローチでは、パラメーターの初期化、バイアス行列、位置依存の再スケーリングを組み合わせて使用し、位置エンコーディングや因果関係マスキングとの相互作用など、トランス内の信号伝播に特有のいくつかの複雑さを浮き彫りにします。研究者らは、彼らの方法が深く訓練可能な残差のない変換器を生成できることを経験的に実証しました。

実験部分では、WikiText-103 および C4 データセットを使用して、研究者らは主要な手法である指数関数的信号維持注意 (E-SPA) の使用を実証しました。トレーニング時間を約 5 倍に延長することで、標準変圧器のトレーニング損失が論文の残留変圧器の損失と同等になります。さらに、研究者らは、この方法を残差接続と組み合わせることで、正規化層のないトランスフォーマーが標準トランスフォーマーと同等のトレーニング速度を達成できることも示しました。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

#論文アドレス: https://openreview.net/pdf?id=NPrsUQgMjKK

この論文に関して、Google AI のチーフエンジニアである Rohan Anil は、これが Transformer アーキテクチャの大きな前進であり、根本的な改善であると信じています。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

ショートカットなしでトレーニング可能な深い Transformer の構築

これまでのところ、Transformer のランク崩壊を修正する唯一の戦略は残留接続に依存しており、このアプローチでは省略されています。自己注意層に固有の訓練可能性の問題。対照的に、この研究はこの質問に直接取り組んでいます。まずアテンション層を介した信号伝播をより深く理解し、次に洞察に基づいて変更を加えて、残留接続の有無にかかわらずトレーニングできる深いトランスフォーマーでの忠実な信号伝送を実現します。

具体的には、まず研究では、ディープバニラトランスの簡単な設定を注意のみで実施し、次にトランスが単一ヘッド (h = 1) 設定またはマルチヘッド設定では、注意行列 A は異なるヘッド間で変化しません。ブロック l≤L が初期化時にアテンション行列 A_l を持つ場合、最終ブロックの表現は X_L になります。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

上記の式の場合、 ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか? とは直交初期化を採用しており、は初期化中に直交することができます。

上記の仮定の下で、クロスポジション入力カーネル行列を表すために ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか? を使用すると、いくつかの単純化の後、次の式が得られます。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

この単純化された式 (深さのみのアテンション変換器のカーネル行列) から、(A_l)_l の 3 つの要件を決定できます。

各ブロック内で適切に実行し、ランクの崩壊や対角値の爆発/消失などの劣化状況を回避する必要があります。
#A_l する必要があります。要素ごとに非負の ∀l である必要があります。
A_l は、因果マスクアテンションと互換性があるように下三角 ∀l である必要があります。

次のセクション 3.1 と 3.2 では、研究は上記のニーズを満たすアテンションマトリックスを見つけることに焦点を当て、E-SPA、U-SPA、および 3 つの方法を提案しています。 Value-Skipinit、それぞれのメソッドを使用してトランスのアテンションマトリックスを制御し、深い深さでも忠実な信号伝播を可能にします。さらに、セクション 3.3 では、これらのアテンションマトリックスを実装するためにソフトマックスアテンションを変更する方法を示します。

以下の図では、研究では提案された 2 つの SPA スキーム、U-SPA と E-SPA を検証しました。結果は、ネットワークが深い場合でも、うまく回避できることを示しています。バニラトランスフォーマーにおけるランク崩壊現象のみに注目してください。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

実験

WikiText-103 ベースライン: まず、この研究では、正規化層 (LN) と変換されたアクティベーションがある場合でも、残差接続のない標準的なディープトランスフォーマーはトレーニングできないことを検証しますが、メソッドはこの記事ではこの問題を解決できます。図 2 に示すように、標準変圧器から残留接続を除去するとトレーニング不能になり、トレーニング損失が約 7.5 で安定することがはっきりとわかります。図 1 に示すように、標準トランスにはランク崩壊が発生します。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

一方、本研究で提案した E-SPA 手法は、U-SPA や Value-Skipinit を上回っています。ただし、残差と LN を含むデフォルトのトランスフォーマーは、残差のない方法と比較してトレーニング速度の利点を維持します。

表 1 では、提案された方法と残差のない変換器での LN の使用を使用して、MLP ブロック内のさまざまな活性化関数の影響を評価しています。深さ 36 では、私たちの方法は一連のアクティベーション (DKS 変換された GeLU、TAT 変換された Leaky ReLU、および未変換の GeLU) に対して良好なトレーニングパフォーマンスを達成しましたが、未変換の Sigmoid ではないことがわかります。また、層の正規化はトレーニング速度にとって比較的重要ではなく、アクティベーション仕様を制御するためのメカニズムがすでに組み込まれている SPA を使用する場合、変換されたアクティベーションに悪影響を与える可能性さえあることが実験的に確認されています。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

図 3 では、追加の反復を必要とせずにデフォルトのトランスフォーマーのトレーニング損失を一致させる 1 つの方法は、正規化残差接続を使用することであることがわかります。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

#表 2 は、正規化された残差と LN を備えた E-SPA がデフォルトの PreLN トランスフォーマーよりも優れていることを示しています。

ICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?

# 以下の図 4(a) は、E-SPA が他の方法より優れていることを示しています。4(b) は、トレーニング損失ギャップを改善できることを示しています。トレーニング時間を増やすだけで解消できます。

以上がICLR のブラインドレビュー段階で査読者から高く評価された論文: Transformer アーキテクチャの大きな革新となるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました