ホームページ >テクノロジー周辺機器 >AI >ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

PHPz
PHPz転載
2023-09-20 20:53:021315ブラウズ

Transformer アーキテクチャは、最新の機械学習の分野で広く使用されています。重要な点は、トークンの確率分布を生成するために使用されるソフトマックスを含むトランスフォーマーのコアコンポーネントの 1 つに焦点を当てることです。 Softmax は指数計算とシーケンス長の合計を実行するため、コストが高くなります。そのため、並列化の実行が困難になります。

Google DeepMind は新しいアイデアを考え出しました。ソフトマックス演算を、必ずしも確率分布を出力しない新しいメソッドに置き換えます。 研究者らはまた、ReLU をシーケンス長で割った値をビジュアル Transformer と併用すると、従来のソフトマックスに近づくか、それに匹敵する可能性があることを観察しました。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

論文リンク: https://arxiv.org/abs/2309.08586

この結果がもたらすものReLU はシーケンス長の次元で並列化でき、必要な収集操作が従来のものよりも少ないため、並列化に対する新しいソリューション

#メソッド

##重要な点は集中することです

重要な点は d 次元のクエリ、キー、値を変換する関数に集中することです {q_i, k_i, v_i} 2 段階のプロセスを通じて

#最初のステップでは、フォース ウェイトによってキー ポイントを取得することに重点を置くことが重要です。

:ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

## ここで、ϕ は通常ソフトマックスです。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

この焦点を使用した次のステップは、重みに焦点を当てて出力を計算することです このペーパーでは、ϕ の代替として点単位の計算の使用について検討します。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますReLU の重要なポイントは、

DeepMind が式 1 の ϕ = ソフトマックスを観察したことに焦点を当てることです。 ,

がより良い代替手段です。彼らは、

フォーカスは ReLU と呼ばれます。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます拡張されたポイントごとの焦点は、焦点を絞ることです

研究者らはまた、実験的にさらに広範囲の調査を行いました。

選択肢。α ∈ [0, 1] および h ∈ {relu,relu², gelu,softplus,identity,relu6,sigmoid}。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます書き直す必要があるのは、シーケンスの長さの拡張です。

彼らはまた、Expanding を使用している場合に次のことを発見しました。シーケンス長 L の項目を使用すると、精度が向上します。 Softmax を削除しようとする以前の研究作業では、この拡張スキームは使用されていませんでした。

現在ソフトマックスの使用に重点を置いて設計されているトランスフォーマーの中には、ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます があります。これは ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます を意味しますが、これは必要な条件である可能性は低いですが、ただし、ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます は、初期化中の ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます の複雑さが ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます であることを保証できます。 この条件を維持すると、 Softmax を置き換える場合は、他のハイパーパラメータを変更する必要があります。

初期化時はq、kの要素がO(1)なので、ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますもO(1)となります。 ReLU のような活性化関数は O (1) を維持するため、ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます の複雑度を ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます にするには ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます の係数が必要です。

実験と結果

主な結果

図 1 説明ImageNet-21k トレーニングに関しては、ReLU はフォーカスに重点を置き、softmax はスケーリング トレンドに重点を置いています。 X 軸は、実験に必要なカーネルの合計計算時間を時間単位で示します。 ReLU の大きな利点は、シーケンス長の次元で並列化でき、必要な収集操作がソフトマックスよりも少ないことです。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

#書き直す必要がある内容は、シーケンス長を拡張した場合の効果です

図 2 は、書き直す必要があるもの、つまりシーケンス長拡張法の結果と、ソフトマックスに代わる他のさまざまなポイントごとのソリューションを比較しています。具体的には、relu、relu²、gelu、softplus、identityなどをsoftmaxの代わりに使用することです。 X軸はαです。 Y 軸は、S/32、S/16、および S/8 Vision Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性がないため、主な実験では高速な ReLU を使用しました。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

## qk-layernorm の効果は次のように言い換えることができます:

主な実験では qk-layernorm を使用し、重みを計算する前にクエリとキーが LayerNorm に渡されました。 DeepMind は、デフォルトで qk-layernorm を使用する理由は、モデル サイズをスケーリングする際の不安定性を防ぐ必要があるためであると述べています。図 3 は、qk-layernorm を削除した場合の影響を示しています。この結果は、qk-layernorm がこれらのモデルにほとんど影響を与えないことを示していますが、モデルのサイズが大きくなると状況は異なる可能性があります。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

再説明: ドアの追加効果

##

ソフトマックスを除去するためのこれまでの研究では、ゲーティングユニットを追加する方法が採用されていましたが、この方法は系列長に対応できません。具体的には、ゲート アテンション ユニットには、出力射影の前に要素ごとの乗算の組み合わせによって得られる出力を生成する追加の射影があります。図 4 は、ゲートの存在により、シーケンス長の拡張である書き換えの必要性がなくなるかどうかを調べています。全体として、DeepMind は、シーケンス長の拡張という書き換えを必要とすることにより、ゲートの有無にかかわらず最高の精度が達成されることを観察しています。 ReLU を使用する S/8 モデルの場合、このゲート メカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

以上がReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。