ホームページ > 記事 > テクノロジー周辺機器 > Tian Yuandongの新作:トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません
Transformer アーキテクチャは、自然言語処理、コンピュータ ビジョン、音声、マルチモダリティなどを含む多くの分野を席巻してきました。しかし、現時点での実験結果は非常に印象的であり、Transformer の動作原理に関する関連研究はまだ行われていません。まだ非常に限られています。
最大の謎は、なぜ Transformer が「単純な予測損失」のみに依存して勾配トレーニング ダイナミクスから効率的な表現を導き出せるのかということです。
最近、Tian Yuandong 博士がチームの最新の研究結果を発表し、数学的に厳密な方法で、Transformer の層 (自己注意層とデコーダ層) のパフォーマンスを分析しました。次のトークン予測タスクでは、SGD トレーニング ダイナミクスがオンです。
論文リンク: https://arxiv.org/abs/2305.16380
この論文は、セルフアテンション層が入力トークンをどのように組み合わせるかという動的プロセスのブラックボックスを明らかにし、潜在的な誘導バイアスの性質を明らかにします。
具体的には、位置エンコーディングがなく、長い入力シーケンスがあり、デコーダ層が自己注意層よりも速く学習するという仮定の下で、研究者らは自己注意が重要であることを証明しました。 識別スキャン アルゴリズム :
均一な注意 (均一な注意) から開始して、特定の次のトークンを予測するために、モデルは徐々に異なるキー トークンに注意を払い、そして、複数の次のトークン ウィンドウに表示される共通のトークンにはそれほど注意を払いません
さまざまなトークンについて、モデルはトレーニングに従って、注意の重みを徐々に減らします。キー トークンとクエリ トークンを低位から高位に並べます。
興味深いのは、このプロセスは勝者総取りには至らず、2 層の学習率によって制御される相転移によって減速され、最終的には(ほぼ) 固定されたトークンの組み合わせこのダイナミックは合成データと現実世界のデータでも検証されています。
Tian Yuandong 博士は、メタ人工知能研究所の研究者兼研究マネージャーであり、囲碁 AI プロジェクトのリーダーであり、研究の方向性は深層強化学習とそのゲームへの応用です。 、ディープラーニングモデルの理論分析も可能です。彼は、2005 年と 2008 年に上海交通大学で学士号と修士号を取得し、2013 年に米国のカーネギーメロン大学ロボット工学研究所で博士号を取得しました。
は、2013 年コンピューター ビジョン国際会議 (ICCV) マー賞佳作および ICML2021 優秀論文佳作賞にノミネートされました。
博士課程卒業後、研究方向の選択、読書の蓄積、時間管理、仕事の姿勢などを網羅した「博士課程5年間の総括」シリーズを出版。 、収入と持続可能なキャリア開発. 博士のキャリアに関する考えと経験のまとめ。
1 層 Transformer の公開Transformer アーキテクチャに基づく事前トレーニング モデルには、通常、次の単語の予測、入力などの非常に単純な監視タスクのみが含まれています。下流のタスクに非常に豊富な表現を提供することは、気が遠くなるような作業です。
これまでの研究では、Transformer が本質的にユニバーサル近似器であることが証明されていますが、kNN、カーネル SVM、多層パーセプトロンなど、以前に一般的に使用されていた機械学習モデルは、実際にはユニバーサル近似器です。この理論では、これら 2 つのタイプのモデル間のパフォーマンスの大きな差を説明できません。
研究者は、Transformer のトレーニング ダイナミクスを理解することが重要であると考えています。つまり、トレーニング中に次のことが可能です。パラメータが時間の経過とともにどのように変化するかを学びます。
この記事では、最初に厳密な数学的定義を使用して、ポジションレス コーディング層を使用した SGD のトレーニング ダイナミクスを正式に説明します。 次のトークン予測のトランスフォーマー (GPT シリーズ モデルで一般的に使用されるトレーニング パラダイム) )。
レイヤー 1 の Transformer には、ソフトマックス セルフ アテンション レイヤーと次のトークンを予測するデコーダー レイヤーが含まれています。
シーケンスが長く、デコーダがセルフアテンション層よりも速く学習すると仮定すると、次の動的な動作を証明できます。トレーニング中の自己注意:
1. 周波数バイアス
モデルは徐々にクエリ トークンと大量に同時発生するキー トークンに注意を払い、あまり同時発生しないトークンへの注意を減らします。
2. 識別バイアス
モデルは、予測されるものにより多くの注意を払います。 next 次のトークンに現れる唯一の一意のトークンであり、複数の次のトークンに現れる共通のトークンには興味を失います。
これら 2 つの特性は、セルフ アテンションが識別スキャン アルゴリズムを暗黙的に実行し、帰納的バイアスがあること、つまり、クエリ トークンと共起することが多い一意のキー トークンに偏っていることを示しています。
さらに、周波数バイアスが示すように、自己注意層はトレーニング中に疎になる傾向がありますが、トレーニング ダイナミクスの相転移により、モデルは 1 つに崩壊しません。熱い。
学習の最終段階では、勾配がゼロの鞍点には収束せず、代わりにゆっくりとした注意の変化に入ります。領域(つまり、時間の経過に伴う対数)、パラメータの凍結と学習。
研究結果はさらに、相転移の開始が学習率によって制御されることを示しています。高い学習率ではまばらな注意パターンが生成されますが、一定の自己注意学習率では、デコーダの学習率が大きいと、位相遷移が速くなり、注意パターンが密になります。
研究者らは、研究で発見された SGD ダイナミクスをスキャンとスナップと名付けました:
スキャン フェーズ: 自己注意とはキー トークン、つまり、次の予測トークンと同時に出現することが多いさまざまなトークンに焦点が当てられ、他のすべてのトークンに対する注意が減少します。
スナップステージ: 注意はほぼフリーズしており、トークンの組み合わせは固定されています。
この現象は、WikiText 1 でトレーニングされた SGD を使用した、単純な実世界のデータ実験でも検証されています。この層の自己注意層と 3 層の Transformer を比較すると、学習率がトレーニング プロセス全体を通じて一定のままであっても、トレーニング プロセス中の特定の瞬間に注意がフリーズし、まばらになることがわかります。
以上がTian Yuandongの新作:トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。