ホームページ  >  記事  >  テクノロジー周辺機器  >  よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

王林
王林転載
2023-04-16 19:25:011314ブラウズ

タスクの普遍性は基礎モデル研究の中核目標の 1 つであり、深層学習研究が高度なインテリジェンスにつながる唯一の方法でもあります。近年、アテンション メカニズムのユニバーサル キー モデリング機能のおかげで、Transformer は多くの分野で良好なパフォーマンスを発揮し、徐々にユニバーサル アーキテクチャの傾向を示しています。ただし、シーケンスの長さが増加するにつれて、標準的なアテンション メカニズムの計算は 2 次の複雑さを示し、長いシーケンス モデリングや大規模なモデルへの適用が著しく妨げられます。

この目的を達成するために、清華大学ソフトウェア学部のチームはこの重要な問題を深く調査し、標準の汎用性を維持しながら、タスク汎用の線形複雑性バックボーン ネットワーク Flowformer を提案しました。 Transformer 同時に、その複雑さは線形に軽減され、論文は ICML 2022 に採択されました。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

著者リスト: Wu Haixu、Wu Jialong、Xu Jiehui、Wang Jianmin、Long Mingsheng

##リンク: https://arxiv.org/pdf/2202.06258.pdf

コード: https://github.com /thuml/ Flowformer

標準の Transformer と比較して、この記事で提案する Flowformer モデルには次の特徴があります。

  • ## 線形複雑さ は、数千の長さの入力シーケンスを処理できます。
  • は、新しい帰納的な優先順位を導入せず、 の普遍性を維持します。独自の注意メカニズム モデリング能力;
  • 普遍的なタスク、および 長いシーケンス、ビジョン、自然言語、時系列、および強化学習 効果。
1. 問題分析

標準のアテンション メカニズム入力には、queries()、keys()、values() の 3 つの部分とその計算方法が含まれます。ここで、 は注目重み行列であり、最終的な計算結果は重み付き融合によって得られます。上記のプロセスの計算量は です。古典的なアルゴリズムにおける多項行列の連続乗算の問題については多くの研究が行われてきたことに注意してください。特に、アテンション メカニズムについては、行列乗算の結合法則を使用して最適化を達成できます。たとえば、元の 2 次の複雑さを線形に減らすことができます。しかし、注意メカニズムの機能により、結合法則を直接適用することは不可能になります。したがって、アテンション メカニズムの関数をどのように削除するかが、線形の複雑さを実現するための鍵となります。しかし、最近の多くの研究では、関数が些細な注意学習を回避する上で重要な役割を果たすことが実証されています。要約すると、(1) 機能を削除する、(2) 些細な注意を避ける、(3) モデルの汎用性を維持する、という目標を達成するモデル設計ソリューションが期待されています。

2. 動機

目標 (1) を考慮すると、これまでの研究では、関数を置き換えるためにカーネル メソッドがよく使用されていました。 (非線形関数の) 計算ですが、それを直接削除すると、些細な注意が必要になります。この目的を達成するために、目標 (2) については、以前の研究 でいくつかの帰納的優先順位を導入する必要がありましたが、これによりモデル の汎用性が制限され、そのため cosFormer の局所性仮定などの目標 (3) を満たせませんでした。 。

Softmax における競争メカニズム

上記の目的を達成するために、 の基本特性に基づいて分析します。当初、「勝者総取り」最大演算を微分可能な形式に拡張することが提案されたことに注意してください。したがって、 はその固有の「競合」メカニズムのおかげで、さまざまなトークン間の注意の重みを区別することができ、それによって通常の注意の問題を回避できます。 上記の考慮事項に基づいて、カーネルメソッドの分解によって引き起こされる些細なアテンションの問題を回避するために、アテンションメカニズムの設計に競合メカニズムを導入しようとします。

ネットワークフローにおける競争メカニズム

グラフ理論における古典的なネットワークフロー(フローネットワーク)モデルの「保存」##に注目します。 #(保全)は重要な現象であり、各ノードへの流入と流出が等しいということです。 「固定リソースは必然的に競争を引き起こす」 に触発され、この記事では、古典的な注意メカニズムにおける情報の流れをネットワーク フローの観点から再分析し、保全を通じて競争を転換することを試みます。プロパティ 通常の注意の問題を回避するための注意メカニズム 設計を導入します。 3. フローフォーマー

3.1 ネットワーク フローの観点から見たアテンション メカニズム

アテンション メカニズムの内部: 情報の流れは次のように表現できます。 from

Source (ソース、対応) は、学習された flow Capacity (フロー キャパシティ、対応する注意の重み) に基づいて sink (シンク、対応) に収集されます。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

アテンション メカニズムの外側では、ソース (v) の情報はネットワークの上位層から取得され、シンク (R) の情報も提供されます。下のフィードフォワード層に転送します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

3.2 フロー アテンション

上記の観察に基づいて、次のことができます。 inflow フローとアウトフローの 2 つの観点から、アテンションメカニズムと外部ネットワーク間の相互作用を制御して「固定リソース」を実現し、それによってソースとシンク内でそれぞれ競合を引き起こし、通常のアテンションを回避します。一般性を失わずに、アテンション メカニズムと外部ネットワーク間のインタラクション情報の量をデフォルト値 1.

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

に設定します。 (1) シンク (R) の流入保存量:

を取得することは難しくありません。保存前、シンクの流入情報量は次のとおりです。

。各シンクに流入する情報量をユニット 1 に固定するために、情報フロー (注意の重み) の計算における正規化として よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022 を導入します。正規化後、シンクの流入情報量は次のようになります。 よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

#このとき、シンクの流入の保存により、シンク間の自然な競合が発生します。さまざまな情報源 (V) の関係を考慮して、この時点で各情報源 (V) が提供する情報量を計算すると、次のことが得られます。 競合状態にある各情報源が提供する情報量。これは各情報源の重要性も表します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

(2) 発生源 (V) からの流出の保全: 保全前の前述のプロセスと同様に、ソースから流出する情報量は です。各ソースから流出する情報量を単位 1 に固定するために、正規化として情報の流れ (注意の重み) の計算を導入します。正規化後の、j 番目のソースからの流出情報の量は、よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022 になります。このとき、ソースからの流出が保存されるため、シンク間には自然な競争関係が生じます () このとき、各シンク () が受け取る情報量を計算すると、次のようになります。競技の結果ごとに最終的に求められるのは、受け取る情報量です。 よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

(3) 全体設計

上記の結果をもとに、以下の Flow-Attendance 機構を設計します。具体的には、競争 (Competition)、集約 (Aggregation)、および割り当て (Allocation) の 3 つの部分が含まれます: 競争では、重要な情報を強調するために競争メカニズムが導入されます。集約では、行列結合法則に基づいて線形の複雑さが実現されます。割り当てでは、競争メカニズムが導入され、制御が他のユーザーに移されます。次のステップ、情報の 1 層。上記のプロセスのすべての操作には線形の複雑さがあります。同時に、フロー アテンションの設計は、ネットワーク フローの保存原則にのみ依存し、情報フローを再統合するため、新たな帰納的優先順位を導入せず、モデルの汎用性を確保します。 Flowformer は、標準の Transformer の 2 次複雑度 Attendance を Flow-Attendance に置き換えることによって得られます。

4. 実験

この文書では、標準データセットに対して広範な実験を実施します:

    5 つの主要なタスクについて説明します。 : 長いシーケンス、視覚、自然言語、時系列、強化学習;
  • では、通常 (Normal) タスクと自己回帰タスク (Causal) の 2 種類の注意メカニズムを調べます。
  • さまざまなシーケンス長 (20 ~ 4000) の入力状況をカバーします。
  • さまざまな分野の古典的なモデル、主流のディープ モデル、Transformer とそのバリアントなど、さまざまなベースライン手法を比較します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

以下の表に示すように、Flowformer は 5 つのタスクすべてで良好なパフォーマンスを示し、モデルの多用途性を実証しました。詳細な実験結果については論文を参照してください。

5. 分析

Flowformer の動作原理をさらに説明するために、ImageNet 分類タスク (フロー アテンションに対応) におけるアテンションに関する視覚実験を実施しました。

  • 線形変換器などの分解にカーネル メソッドのみを使用する場合、モデルの注意が散漫になり、重要な領域を効果的にキャプチャできなくなります。
  • ##従来の Transformer と Flowformer はどちらも画像の主要な位置を正確にキャプチャできますが、後者には計算の複雑さの点で利点があります。
  • cosFormer では 1 次元が導入されています。注意メカニズムの局所性 仮説として、その効果は言語タスクにおいて顕著です。しかし、画像 (2D データを 1D シーケンスに展開する) では、局所性の仮定を 2 次元に拡張しない限り、視覚タスクに適応させることはできません。これは、「新たな帰納的優先順位を導入しない」という Flowformer の設計方法の利点も裏付けています。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

上記の視覚化は、フローアテンションを通じて注意メカニズムの設計に競争を導入すると、些細な注意を効果的に回避できることを示しています。この論文には、さらに多くの視覚化実験が記載されています。

6. 概要

この記事で提案するフローフォーマーは、ネットワーク フローの保存原理を設計に導入し、注意計算に競争メカニズムを効果的に導入します。これにより、些細な注意の問題が解決され、線形の複雑さを実現しながら、標準の Transformer の多用途性が維持されます。 Flowformer は、長いシーケンス、ビジョン、自然言語、時系列、強化学習という 5 つの主要なタスクで優れた結果を達成しました。さらに、フローフォーマーの「特別な誘導を優先しない」という設計コンセプトは、一般インフラの研究にも刺激を与えます。今後の取り組みでは、大規模な事前トレーニングにおける Flowformer の可能性をさらに探求していきます。

以上がよくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。