ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます-AI-php.cn

ホームページ

テクノロジー周辺機器

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

PHPz

Sep 20, 2023 pm 08:53 PM

モデルgoogle

Transformer アーキテクチャは、最新の機械学習の分野で広く使用されています。重要な点は、トークンの確率分布を生成するために使用されるソフトマックスを含むトランスフォーマーのコアコンポーネントの 1 つに焦点を当てることです。 Softmax は指数計算とシーケンス長の合計を実行するため、コストが高くなります。そのため、並列化の実行が困難になります。

Google DeepMind は新しいアイデアを考え出しました。ソフトマックス演算を、必ずしも確率分布を出力しない新しいメソッドに置き換えます。 研究者らはまた、ReLU をシーケンス長で割った値をビジュアル Transformer と併用すると、従来のソフトマックスに近づくか、それに匹敵する可能性があることを観察しました。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

論文リンク: https://arxiv.org/abs/2309.08586

この結果がもたらすものReLU はシーケンス長の次元で並列化でき、必要な収集操作が従来のものよりも少ないため、並列化に対する新しいソリューション

#メソッド

##重要な点は集中することです

重要な点は d 次元のクエリ、キー、値を変換する関数に集中することです {q_i, k_i, v_i} 2 段階のプロセスを通じて

#最初のステップでは、フォースウェイトによってキーポイントを取得することに重点を置くことが重要です。

: ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

## ここで、ϕ は通常ソフトマックスです。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

この焦点を使用した次のステップは、重みに焦点を当てて出力を計算することですこのペーパーでは、ϕ の代替として点単位の計算の使用について検討します。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます ReLU の重要なポイントは、

DeepMind が式 1 の ϕ = ソフトマックスを観察したことに焦点を当てることです。 ,

がより良い代替手段です。彼らは、

フォーカスは ReLU と呼ばれます。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます拡張されたポイントごとの焦点は、焦点を絞ることです

研究者らはまた、実験的にさらに広範囲の調査を行いました。

選択肢。α ∈ [0, 1] および h ∈ {relu,relu², gelu,softplus,identity,relu6,sigmoid}。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます書き直す必要があるのは、シーケンスの長さの拡張です。

彼らはまた、Expanding を使用している場合に次のことを発見しました。シーケンス長 L の項目を使用すると、精度が向上します。 Softmax を削除しようとする以前の研究作業では、この拡張スキームは使用されていませんでした。

現在ソフトマックスの使用に重点を置いて設計されているトランスフォーマーの中には、があります。これはを意味しますが、これは必要な条件である可能性は低いですが、ただし、は、初期化中のの複雑さがであることを保証できます。この条件を維持すると、 Softmax を置き換える場合は、他のハイパーパラメータを変更する必要があります。

初期化時はq、kの要素がO(1)なので、もO(1)となります。 ReLU のような活性化関数は O (1) を維持するため、の複雑度をにするにはの係数が必要です。

実験と結果

主な結果

図 1 説明ImageNet-21k トレーニングに関しては、ReLU はフォーカスに重点を置き、softmax はスケーリングトレンドに重点を置いています。 X 軸は、実験に必要なカーネルの合計計算時間を時間単位で示します。 ReLU の大きな利点は、シーケンス長の次元で並列化でき、必要な収集操作がソフトマックスよりも少ないことです。

#書き直す必要がある内容は、シーケンス長を拡張した場合の効果です

図 2 は、書き直す必要があるもの、つまりシーケンス長拡張法の結果と、ソフトマックスに代わる他のさまざまなポイントごとのソリューションを比較しています。具体的には、relu、relu²、gelu、softplus、identityなどをsoftmaxの代わりに使用することです。 X軸はαです。 Y 軸は、S/32、S/16、および S/8 Vision Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性がないため、主な実験では高速な ReLU を使用しました。

## qk-layernorm の効果は次のように言い換えることができます:
主な実験では qk-layernorm を使用し、重みを計算する前にクエリとキーが LayerNorm に渡されました。 DeepMind は、デフォルトで qk-layernorm を使用する理由は、モデルサイズをスケーリングする際の不安定性を防ぐ必要があるためであると述べています。図 3 は、qk-layernorm を削除した場合の影響を示しています。この結果は、qk-layernorm がこれらのモデルにほとんど影響を与えないことを示していますが、モデルのサイズが大きくなると状況は異なる可能性があります。

再説明: ドアの追加効果
##
ソフトマックスを除去するためのこれまでの研究では、ゲーティングユニットを追加する方法が採用されていましたが、この方法は系列長に対応できません。具体的には、ゲートアテンションユニットには、出力射影の前に要素ごとの乗算の組み合わせによって得られる出力を生成する追加の射影があります。図 4 は、ゲートの存在により、シーケンス長の拡張である書き換えの必要性がなくなるかどうかを調べています。全体として、DeepMind は、シーケンス長の拡張という書き換えを必要とすることにより、ゲートの有無にかかわらず最高の精度が達成されることを観察しています。 ReLU を使用する S/8 モデルの場合、このゲートメカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。

以上がReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

WebStorm Mac版

便利なJavaScript開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。