Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません-AI-php.cn

ホームページ

テクノロジー周辺機器

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

王林

Jun 12, 2023 pm 01:56 PM

Transformer アーキテクチャは、自然言語処理、コンピュータビジョン、音声、マルチモダリティなどを含む多くの分野を席巻してきました。しかし、現時点での実験結果は非常に印象的であり、Transformer の動作原理に関する関連研究はまだ行われていません。まだ非常に限られています。

最大の謎は、なぜ Transformer が「単純な予測損失」のみに依存して勾配トレーニングダイナミクスから効率的な表現を導き出せるのかということです。

最近、Tian Yuandong 博士がチームの最新の研究結果を発表し、数学的に厳密な方法で、Transformer の層 (自己注意層とデコーダ層) のパフォーマンスを分析しました。次のトークン予測タスクでは、SGD トレーニングダイナミクスがオンです。

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

論文リンク: https://arxiv.org/abs/2305.16380

この論文は、セルフアテンション層が入力トークンをどのように組み合わせるかという動的プロセスのブラックボックスを明らかにし、潜在的な誘導バイアスの性質を明らかにします。

具体的には、位置エンコーディングがなく、長い入力シーケンスがあり、デコーダ層が自己注意層よりも速く学習するという仮定の下で、研究者らは自己注意が重要であることを証明しました。識別スキャンアルゴリズム :

均一な注意 (均一な注意) から開始して、特定の次のトークンを予測するために、モデルは徐々に異なるキートークンに注意を払い、そして、複数の次のトークンウィンドウに表示される共通のトークンにはそれほど注意を払いません

さまざまなトークンについて、モデルはトレーニングに従って、注意の重みを徐々に減らします。キートークンとクエリトークンを低位から高位に並べます。

興味深いのは、このプロセスは勝者総取りには至らず、2 層の学習率によって制御される相転移によって減速され、最終的には(ほぼ) 固定されたトークンの組み合わせこのダイナミックは合成データと現実世界のデータでも検証されています。

Tian Yuandong 博士は、メタ人工知能研究所の研究者兼研究マネージャーであり、囲碁 AI プロジェクトのリーダーであり、研究の方向性は深層強化学習とそのゲームへの応用です。、ディープラーニングモデルの理論分析も可能です。彼は、2005 年と 2008 年に上海交通大学で学士号と修士号を取得し、2013 年に米国のカーネギーメロン大学ロボット工学研究所で博士号を取得しました。

は、2013 年コンピュータービジョン国際会議 (ICCV) マー賞佳作および ICML2021 優秀論文佳作賞にノミネートされました。

博士課程卒業後、研究方向の選択、読書の蓄積、時間管理、仕事の姿勢などを網羅した「博士課程5年間の総括」シリーズを出版。、収入と持続可能なキャリア開発. 博士のキャリアに関する考えと経験のまとめ。

1 層 Transformer の公開

Transformer アーキテクチャに基づく事前トレーニングモデルには、通常、次の単語の予測、入力などの非常に単純な監視タスクのみが含まれています。下流のタスクに非常に豊富な表現を提供することは、気が遠くなるような作業です。

これまでの研究では、Transformer が本質的にユニバーサル近似器であることが証明されていますが、kNN、カーネル SVM、多層パーセプトロンなど、以前に一般的に使用されていた機械学習モデルは、実際にはユニバーサル近似器です。この理論では、これら 2 つのタイプのモデル間のパフォーマンスの大きな差を説明できません。

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

研究者は、Transformer のトレーニングダイナミクスを理解することが重要であると考えています。つまり、トレーニング中に次のことが可能です。パラメータが時間の経過とともにどのように変化するかを学びます。

この記事では、最初に厳密な数学的定義を使用して、ポジションレスコーディング層を使用した SGD のトレーニングダイナミクスを正式に説明します。次のトークン予測のトランスフォーマー (GPT シリーズモデルで一般的に使用されるトレーニングパラダイム) ）。

レイヤー 1 の Transformer には、ソフトマックスセルフアテンションレイヤーと次のトークンを予測するデコーダーレイヤーが含まれています。

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

シーケンスが長く、デコーダがセルフアテンション層よりも速く学習すると仮定すると、次の動的な動作を証明できます。トレーニング中の自己注意:

1. 周波数バイアス

モデルは徐々にクエリトークンと大量に同時発生するキートークンに注意を払い、あまり同時発生しないトークンへの注意を減らします。

2. 識別バイアス

モデルは、予測されるものにより多くの注意を払います。 next 次のトークンに現れる唯一の一意のトークンであり、複数の次のトークンに現れる共通のトークンには興味を失います。

これら 2 つの特性は、セルフアテンションが識別スキャンアルゴリズムを暗黙的に実行し、帰納的バイアスがあること、つまり、クエリトークンと共起することが多い一意のキートークンに偏っていることを示しています。

さらに、周波数バイアスが示すように、自己注意層はトレーニング中に疎になる傾向がありますが、トレーニングダイナミクスの相転移により、モデルは 1 つに崩壊しません。熱い。

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

学習の最終段階では、勾配がゼロの鞍点には収束せず、代わりにゆっくりとした注意の変化に入ります。領域（つまり、時間の経過に伴う対数）、パラメータの凍結と学習。

研究結果はさらに、相転移の開始が学習率によって制御されることを示しています。高い学習率ではまばらな注意パターンが生成されますが、一定の自己注意学習率では、デコーダの学習率が大きいと、位相遷移が速くなり、注意パターンが密になります。

研究者らは、研究で発見された SGD ダイナミクスをスキャンとスナップと名付けました:

スキャンフェーズ: 自己注意とはキートークン、つまり、次の予測トークンと同時に出現することが多いさまざまなトークンに焦点が当てられ、他のすべてのトークンに対する注意が減少します。

スナップステージ: 注意はほぼフリーズしており、トークンの組み合わせは固定されています。

Tian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありません

この現象は、WikiText 1 でトレーニングされた SGD を使用した、単純な実世界のデータ実験でも検証されています。この層の自己注意層と 3 層の Transformer を比較すると、学習率がトレーニングプロセス全体を通じて一定のままであっても、トレーニングプロセス中の特定の瞬間に注意がフリーズし、まばらになることがわかります。

以上がTian Yuandongの新作：トランスフォーマーのブラックボックスの最初の層を開くと、注目のメカニズムはそれほど神秘的ではありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、