ホームページ >テクノロジー周辺機器 >AI >明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

王林
王林転載
2024-01-12 23:48:251373ブラウズ
最近、Transformer の数学的原理の新しい解釈を提供する論文が arxiv に公開されました。内容は非常に長く、知識も豊富です。原文を読むことをお勧めします。 。

2017 年、Vaswani らによって出版された「attention is all you need」は、ニューラル ネットワーク アーキテクチャの開発における重要なマイルストーンとなりました。この論文の中心的な貢献はセルフアテンション メカニズムです。これは、トランスフォーマーを従来のアーキテクチャから区別する革新であり、トランスフォーマーの優れた実用的なパフォーマンスにおいて重要な役割を果たします。

実際、このイノベーションは、コンピューター ビジョンや自然言語処理などの分野における人工知能の進歩の重要な触媒となっており、また、人工知能の出現においても重要な役割を果たしています。大規模な言語モデルの効果。したがって、トランスフォーマー、特に自己注意がデータを処理するメカニズムを理解することは重要ですが、ほとんど研究されていない分野です。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

論文アドレス: https://arxiv.org/pdf/2312.10794.pdf

ディープ ニューラル ネットワーク ( DNN) には、入力データが層ごとに順番に処理され、時間離散動的システムを形成するという共通の特徴があります (具体的な内容については、MIT 発行の「深層学習」を参照してください。中国では「花書」とも呼ばれています)。 )。この観点は、ニューラル常微分方程式 (ニューラル ODE) と呼ばれる時間連続動的システム上に残差ネットワークをモデル化するためにうまく使用されています。神聖な定数微分方程式では、入力画像 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 は、時間間隔 (0, T) で与えられた時間変化する速度場 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 に従って進化します。したがって、DNN は、ある 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 から別の 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 への流れマップ (Flow Map) 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 とみなすことができます。古典的な DNN アーキテクチャの制約下の速度場であっても、フロー マップ間には強い類似性があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

研究者らは、トランスフォーマーが実際には
上のフロー マッピング、つまり d 次元の確率測度空間 (確率測度の空間) 間のマッピングであることを発見しました。メートル空間間で変換するこのフロー マッピングを実装するには、トランスフォーマーは平均場相互作用粒子システムを確立する必要があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

具体的には、各粒子 (深層学習のコンテキストではトークンとして理解できます) はベクトル場の流れに従い、その流れは経験的な測定に依存します。すべての粒子の割合 (経験的測定)。次に、方程式は粒子の経験的測定の発展を決定します。このプロセスは長期間続く可能性があり、継続的な注意が必要です。

研究者らの主な観察は、粒子は最終的には凝集する傾向があるということでした。この現象は、一方向導出 (つまり、シーケンス内の次の単語の予測) などの学習タスクで特に顕著です。出力メトリックは次のトークンの確率分布をエンコードし、クラスタリング結果に基づいて少数の考えられる結果をフィルタリングして除外できます。

この記事の研究結果は、極限分布が実際には多様性やランダム性のない点塊であることを示していますが、これは実際の観測結果と矛盾しています。この明らかな矛盾は、粒子が長期間にわたって可変状態で存在するという事実によって解決されます。図 2 と 4 からわかるように、トランスフォーマーには 2 つの異なる時間スケールがあります。第 1 段階では、すべてのトークンがすぐにいくつかのクラスターを形成しますが、第 2 段階では (第 1 段階よりもはるかに遅い)、トークンのペアごとのマージ プロセス中に、クラスターでは、すべてのトークンが最終的に 1 つの点に崩壊します。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

この記事の目的は 2 つあります。一方で、この記事は、数学的な観点からトランスフォーマーを研究するための一般的でわかりやすい枠組みを提供することを目的としています。特に、これらの相互作用する粒子系の構造により、研究者は、非線形輸送方程式、ワッサーシュタイン勾配流、集団挙動のモデル、球上の点の最適構成など、数学の確立されたトピックと具体的に結び付けることができます。一方、この論文では、長期にわたるクラスタリング現象に特に焦点を当てて、いくつかの有望な研究の方向性について説明しています。研究者らによって提案された主な結果の尺度は新しいものであり、論文全体を通じて興味深いと考えられる未解決の質問も提起されています。

この記事の主な貢献は 3 つの部分に分かれています。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理


#パート 1: モデリング。この記事では、層の数を連続時間変数として扱う Transformer アーキテクチャの理想的なモデルを定義します。この抽象化のアプローチは新しいものではなく、ResNets などの古典的なアーキテクチャで採用されているアプローチに似ています。この記事のモデルは、Transformer アーキテクチャの 2 つの主要なコンポーネント、セルフ アテンション メカニズムとレイヤー正規化のみに焦点を当てています。レイヤー正規化は粒子を単位球の空間に効果的に制限し、セルフアテンション メカニズムは経験的測定を通じて粒子間の非線形結合を実現します。次に、経験的尺度は連続偏微分方程式に従って発展します。この記事では、自己注意のためのよりシンプルで使いやすい代替モデル、エネルギー関数のワッサーシュタイン勾配流も紹介します。また、エネルギー関数の球面上の点の最適な構成については、すでに成熟した研究手法が存在します。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理
#パート 2: クラスタリング。この部分では、研究者らは、より長い期間にわたるトークンのクラスタリングに関する新しい数学的結果を提案します。定理 4.1 が示すように、高次元空間では、単位球上でランダムに初期化された n 個の粒子のグループが
の点に集まります。研究者らによる粒子クラスターの収縮率の正確な説明は、この結果を補足するものです。具体的には、研究者らは、すべての粒子間の距離と、すべての粒子がクラスタリングを完了しようとしていた時点のヒストグラムをプロットしました (元の記事のセクション 4 を参照)。研究者らは、大きな次元 d を仮定せずにクラスタリングの結果も得ました (元の記事のセクション 5 を参照)。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理#パート 3: 将来を見据えて。この記事では、主に自由形式の質問の形式で質問を提示し、数値的な観察を通じてそれらを実証することにより、将来の研究の潜在的な方向性を提案します。研究者らはまず、次元 d = 2 の場合 (元の記事のセクション 6 を参照) に焦点を当て、倉本発振器との関係を引き出します。次に、モデルに単純かつ自然な変更を加えることで、球面最適化に関連する困難な問題をどのように解決できるかを簡単に示します (元の記事のセクション 7 を参照)。次の章では、Transformer アーキテクチャのパラメータを調整できるようにする相互作用するパーティクル システムについて説明します。これは、後で実用的なアプリケーションにつながる可能性があります。

以上が明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。