ホームページ >テクノロジー周辺機器 >AI >ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます
Transformer アーキテクチャは、最新の機械学習の分野で広く使用されています。重要な点は、トークンの確率分布を生成するために使用されるソフトマックスを含むトランスフォーマーのコアコンポーネントの 1 つに焦点を当てることです。 Softmax は指数計算とシーケンス長の合計を実行するため、コストが高くなります。そのため、並列化の実行が困難になります。
Google DeepMind は新しいアイデアを考え出しました。ソフトマックス演算を、必ずしも確率分布を出力しない新しいメソッドに置き換えます。 研究者らはまた、ReLU をシーケンス長で割った値をビジュアル Transformer と併用すると、従来のソフトマックスに近づくか、それに匹敵する可能性があることを観察しました。
論文リンク: https://arxiv.org/abs/2309.08586
この結果がもたらすものReLU はシーケンス長の次元で並列化でき、必要な収集操作が従来のものよりも少ないため、並列化に対する新しいソリューション
重要な点は d 次元のクエリ、キー、値を変換する関数に集中することです {q_i, k_i, v_i} 2 段階のプロセスを通じて
#最初のステップでは、フォース ウェイトによってキー ポイントを取得することに重点を置くことが重要です。
:
## ここで、ϕ は通常ソフトマックスです。
この焦点を使用した次のステップは、重みに焦点を当てて出力を計算することです このペーパーでは、ϕ の代替として点単位の計算の使用について検討します。
ReLU の重要なポイントは、
DeepMind が式 1 の ϕ = ソフトマックスを観察したことに焦点を当てることです。 ,
がより良い代替手段です。彼らは、フォーカスは ReLU と呼ばれます。 拡張されたポイントごとの焦点は、焦点を絞ることです
研究者らはまた、実験的にさらに広範囲の調査を行いました。
選択肢。α ∈ [0, 1] および h ∈ {relu,relu², gelu,softplus,identity,relu6,sigmoid}。書き直す必要があるのは、シーケンスの長さの拡張です。
彼らはまた、Expanding を使用している場合に次のことを発見しました。シーケンス長 L の項目を使用すると、精度が向上します。 Softmax を削除しようとする以前の研究作業では、この拡張スキームは使用されていませんでした。 現在ソフトマックスの使用に重点を置いて設計されているトランスフォーマーの中には、 があります。これは を意味しますが、これは必要な条件である可能性は低いですが、ただし、 は、初期化中の の複雑さが であることを保証できます。 この条件を維持すると、 Softmax を置き換える場合は、他のハイパーパラメータを変更する必要があります。 初期化時はq、kの要素がO(1)なので、もO(1)となります。 ReLU のような活性化関数は O (1) を維持するため、 の複雑度を にするには の係数が必要です。 主な結果 図 1 説明ImageNet-21k トレーニングに関しては、ReLU はフォーカスに重点を置き、softmax はスケーリング トレンドに重点を置いています。 X 軸は、実験に必要なカーネルの合計計算時間を時間単位で示します。 ReLU の大きな利点は、シーケンス長の次元で並列化でき、必要な収集操作がソフトマックスよりも少ないことです。
#書き直す必要がある内容は、シーケンス長を拡張した場合の効果です 図 2 は、書き直す必要があるもの、つまりシーケンス長拡張法の結果と、ソフトマックスに代わる他のさまざまなポイントごとのソリューションを比較しています。具体的には、relu、relu²、gelu、softplus、identityなどをsoftmaxの代わりに使用することです。 X軸はαです。 Y 軸は、S/32、S/16、および S/8 Vision Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性がないため、主な実験では高速な ReLU を使用しました。
## qk-layernorm の効果は次のように言い換えることができます:
再説明: ドアの追加効果 ## ソフトマックスを除去するためのこれまでの研究では、ゲーティングユニットを追加する方法が採用されていましたが、この方法は系列長に対応できません。具体的には、ゲート アテンション ユニットには、出力射影の前に要素ごとの乗算の組み合わせによって得られる出力を生成する追加の射影があります。図 4 は、ゲートの存在により、シーケンス長の拡張である書き換えの必要性がなくなるかどうかを調べています。全体として、DeepMind は、シーケンス長の拡張という書き換えを必要とすることにより、ゲートの有無にかかわらず最高の精度が達成されることを観察しています。 ReLU を使用する S/8 モデルの場合、このゲート メカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。 実験と結果
以上がReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。