検索
ホームページテクノロジー周辺機器AIDeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能

ハイブリッドの深さを導入した DeepMind の新しい設計により、トランスの効率が大幅に向上します。


言うまでもなく、Transformer の重要性は現在、多くの研究チームがこの革新的なテクノロジーの改善に取り組んでいます。 Transformer のパフォーマンスを向上させます。これにより、不必要な計算を節約できるようになります。

Transformer アーキテクチャの提案者の 1 人であり、NEAR プロトコルの共同創設者である Illiya Polosukhin 氏は、少し前の Jen-Hsun Huang 氏との会話で次のように述べています。次のステップはコンピューティングです。特定の問題にどれだけのコンピューティング リソースが費やされるかに注意を払う必要があります。」 DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
##実際、人間はその能力を持って生まれています。コンピューティングに適応するために - 人々は問題を解決しています。問題が異なれば、当然、割り当てられる時間とエネルギーの量も異なります。

#同様のことが言語モデリングにも当てはまります。正確な予測結果を得るために、すべてのトークンとシーケンスに同じ時間やリソースを投資する必要はありません。ただし、Transformer モデルは、フォワード パスの各トークンに同じ量の計算を費やします。このことを人々は嘆くでしょう。計算のほとんどが無駄になっているのです。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
#不必要な計算の実行を回避できれば、Transformer の計算予算を削減できるのが理想的です。

#条件付き計算は、必要な場合にのみ計算を実行することで、総計算量を削減する手法です。これまでに多くの研究者が、いつ計算が実行されるか、どの程度の計算が使用されるかを評価できるさまざまなアルゴリズムを提案してきました。

ただし、この困難な問題に対して、一般的に使用される解決形式は、動的な計算グラフを導入する傾向があるため、既存のハードウェアの制限にうまく対処できない可能性があります。代わりに、最も有望な条件付き計算方法は、現在のハードウェア スタックを一貫して使用し、静的計算グラフとハードウェアの最大使用率に基づいて選択された既知のテンソル サイズの使用を優先するものである可能性があります。

最近、Google DeepMind はこの問題を研究し、より少ないコンピューティング予算を使用して、Transformer で使用される計算量を削減したいと考えています。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
    #論文のタイトル: 深さの混合: トランスフォーマーベースの言語モデルでのコンピューティングの動的割り当て
  • # #論文アドレス: https://arxiv.org/pdf/2404.02258.pdf

彼らは次のように構想しました: 各層で、ネットワークは意思決定を学習する必要がある利用可能なコンピューティング バジェットを動的に割り当てるために、トークンごとに作成されます。特定の実装では、総計算量は、ネットワークが動作する際の実行決定の関数ではなく、トレーニング前にユーザーによって設定され、変更されることはありません。これにより、ハードウェア効率の向上 (メモリ フットプリントの削減や順方向パスごとの FLOP の削減など) を事前に予測して活用することができます。チームの実験では、ネットワーク全体のパフォーマンスを損なうことなく、これらの利点を達成できることが示されています。

#DeepMind のチームは、Mixed Expert (MoE) Transformer と同様のアプローチを採用しており、動的なトークンレベルのルーティング決定がネットワーク深度全体にわたって実行されます。

MoE とは異なり、ここでの選択は、トークンに計算を適用するか (標準の Transformer と同じ)、残りの接続を介してトークンをラップするかです (変更せずにそのままにして、計算を保存します)。 MoE とのもう 1 つの違いは、このルーティング メカニズムが MLP とマルチヘッド アテンションの両方に使用されることです。したがって、これはネットワークによって処理されるキーとクエリにも影響するため、ルートはどのトークンが更新されるかだけでなく、どのトークンが注目に値するかを決定します。

DeepMind は、各トークンが Transformer の深さで異なる数のレイヤーまたはモジュールを通過するという事実を強調するために、この戦略を Mixture-of-Depths (MoD) と名付けました。ここではこれを「混合の深さ」と訳します。図 1 を参照してください。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能#MoD は、ユーザーがパフォーマンスと速度を比較検討できるようにサポートします。一方で、ユーザーは通常の Transformer と同じトレーニング FLOP で MoD Transformer をトレーニングでき、最終的な対数確率トレーニング ターゲットを最大 1.5% 向上させることができます。一方、MoD Transformer は、通常の Transformer と同じトレーニング損失を達成するために使用する計算量が少なく、フォワード パスあたりの FLOP が最大 50% 少なくなります。

これらの結果は、MoD Transformer がインテリジェントなルーティング (つまり、不必要な計算のスキップ) を学習できることを示しています。

Mixed Depth (MoD) Transformer の実装

要約すると、戦略は次のとおりです。

  • 同等の通常の Transformer が必要とする計算量よりも少ない静的計算バジェットを設定します。これは、量を制限することによって行われます。シーケンス内の計算の数 モジュール計算 (つまり、セルフアテンション モジュールと後続の MLP) に参加できるトークンの数。たとえば、通常の Transformer ではシーケンス内のすべてのトークンがセルフ アテンション計算に参加することを許可できますが、MoD Transformer ではシーケンス内のトークンの 50% のみの使用を制限できます。
  • 各トークンについて、スカラー重みを与えるルーティング アルゴリズムが各モジュールにあります。この重みは、各トークンのルーティング設定 (モジュールの計算に参加するかどうか) を表します。過去を回避するために。
  • 各モジュールで、上位 k 個の最大スカラー重みを見つけます。それに対応するトークンがモジュールの計算に参加します。 k 個のトークンのみがこのモジュールの計算に参加する必要があるため、その計算グラフとテンソル サイズはトレーニング プロセス中は静的です。これらのトークンは、ルーティング アルゴリズムによって認識される動的でコンテキスト関連のトークンです。

##ルーティング オプション

チームは 2 つの学習済みルーティングを検討しましたスキーム (図 2 を参照): トークン選択タイプとエキスパート選択タイプ。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
トークン選択型ルーティング スキームでは、ルーティング アルゴリズムは、計算パス全体 (MoE Transformer のエキスパート ID 全体など) で各トークンの確率分布を生成します。その後、トークンは優先パス (つまり、最も確率が高いパス) に送信され、補助損失によりすべてのトークンが同じパスに収束しないことが保証されます。トークンが可能なパス間で適切に分割されることが保証されていないため、トークン選択ルーティングでは負荷分散の問題が発生する可能性があります。

エキスパート選択ルーティングは、上記のスキームを逆にします。トークンに優先パスを選択させる代わりに、各パスはトークンの優先順位 (top-k) に基づいて上位 k 個のトークンを選択します。これにより、各パスに常に k 個のトークンが保証されるため、完全な負荷分散が保証されます。ただし、一部のトークンが複数のパスの上位 k にあり、他のトークンには対応するパスがない可能性があるため、これにより一部のトークンが過剰または過小処理される可能性があります。

DeepMind が専門家による選択的ルーティングを使用することを選択した理由は 3 つあります。

#第一に、補助的なバランスを失う必要がありません。

第 2 に、上位 k を選択する操作は配線の重みの大きさに依存するため、この配線スキームでは相対的な配線の重みを使用できるため、現在の配線の重みを決定するのに役立ちます。モジュール どのトークンが最も必要であるかを計算します。ルーティング アルゴリズムは、重みを適切に設定することで、最も重要なトークンが上位 k に含まれるように試みることができます。これは、トークン選択ルーティング スキームでは実行できないことです。特定の使用例では、本質的に null 操作である計算パスがあるため、重要なトークンを null にルーティングすることは避けるべきです。

第三に、ルーティングは 2 つのパスのみを通過するため、単一の top-k 操作でトークンを効率的に 2 つの相互排他的なセットに分割できます (それぞれがパスのセットを計算します)。 、上記の過剰または処理不足の問題に対処できます。

このルーティング スキームの具体的な実装については、元の論文を参照してください。
サンプリング

エキスパートによる選択ルーティングには多くの利点がありますが、明らかな問題もあります。 -k 操作は非因果的です。つまり、特定のトークンのルーティング重みが上位 k に入るかどうかは、その後のルーティング重みの値に依存しますが、自己回帰サンプリングを実行する場合、これらの重みを取得することはできません。

この問題を解決するために、チームは 2 つの方法をテストしました。

最初の方法は、単純な補助損失を導入することです。言語モデリングの主な目標に対するその影響は 0.2% ~ 0.3% であることが実践的に証明されていますが、これにより、モデルは自己回帰的にサンプリングします。彼らは、ルーティング アルゴリズムの出力がロジットを提供するバイナリ クロス エントロピー ロスを使用し、これらのロジットの上位 k を選択することでターゲットを提供できます (つまり、トークンが上位 k にある場合は 1、それ以外の場合は 1)。 0)。

2 番目の方法は、入力がルーティング アルゴリズム (ストップ グラディエントを含む) と同じであるが、出力がルーティング アルゴリズムと同じである小さな補助 MLP 予測器 (別のルーティング アルゴリズムのような) を導入することです。は、トークンがシーケンスの上位 k にあるかどうかの予測結果です。このアプローチは言語モデリングの目標には影響せず、実験ではこのステップの速度に大きな影響を与えないことが示されています。

これらの新しいメソッドを使用すると、ルーティング先のトークンを選択して自己回帰サンプリングを実行したり、ルーティング アルゴリズムの出力に基づいてモジュールをバイパスしたりすることができます。依存関係なし 将来のトークンに関する情報。実験結果によると、これは比較的単純な補助タスクであり、すぐに 99% の精度を達成できることがわかりました。
結果

##トレーニング、isoFLOP 比較

まず、チームは比較的小さい FLOP バジェット (6e18) でいくつかのモデルをトレーニングし、最適なハイパーパラメーターを決定しました (以下の図 3 を参照)。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
全体として、MoD Transformer がベースラインの isoFLOP 曲線を右下にドラッグしていることがわかります。言い換えれば、最適な MoD Transformer は、最適なベースライン モデルよりも損失が低く、より多くのパラメーターを持ちます。この効果は幸運な結果をもたらします。MoD モデル自体は、ハイパーパラメーター設定で isoFLOP 最適ではないにもかかわらず、最適なベースライン モデルと同等またはそれよりも優れたパフォーマンスを発揮するモデルがいくつかあります (段階的には高速ですが)。たとえば、2 億 2,000 万個のパラメーターを持つ MoD バリアント (図 3 のモデル番号 3) は、isoFLOP 最適ベースライン モデル (同じく 2 億 2,000 万個のパラメーター、図 3 のモデル番号 1) よりわずかに優れていますが、この MoD バリアントはトレーニング中のステップが60% 以上高速化されます。

以下の図 4 は、合計 FLOP が 6e18、2e19、および 1e20 である場合の isoFLOP 分析を示しています。見てわかるように、FLOP バジェットが大きくなると、この傾向が続きます。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
# 以下の図 5 は、インターリーブ ルーティング モジュールを使用してトレーニングされた MoD Transformer のルーティング決定を示しています。モジュールのバイパスが多数あるにもかかわらず、この MoD Transformer は通常の Transformer よりも優れたパフォーマンスを実現します。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
自己回帰評価

MoD バリアントの自己回帰サンプリングも評価しましたパフォーマンス、結果以下の図 6 に示します。これらの結果は、MoD Transformer によって達成される計算量の節約がトレーニング設定に限定されないことを示しています。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
Mixed Depth with Expertise (MoDE)

MoD テクノロジーは MoE と自然に連携します。モデルはいわゆる MoDE モデルに統合されます。以下の図 7 は、MoDE とそれがもたらす改善点を示しています。
DeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能
MoDE には、段階的 MoDE と統合 MoDE の 2 つのバリエーションがあります。

段階的 MoDE はセルフアテンション ステップの前にルーティング バイパスまたはリーチ トークン操作を実行しますが、統合 MoDE は通常の MLP エキスパート間で「操作なし」を統合します。 MoD ルーティングを実装する専門家。前者の利点は、トークンがセルフアテンション ステップをスキップできることですが、後者の利点は、ルーティング メカニズムが単純であることです。

チームは、統合された方法で MoDE を実装する方が、専門家の能力を直接低下させ、残留ルーティングを実現するためにトークンの破棄に依存する設計よりも大幅に優れていることに気づきました。

以上がDeepMind がトランスフォーマーをアップグレードし、フォワードパスの FLOP を最大半分に削減可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AI宇宙会社が生まれましたAI宇宙会社が生まれましたMay 12, 2025 am 11:07 AM

この記事では、AIが宇宙産業にどのように革命をもたらしているかを示しています。 明日、AIでAIを使用して建設されていないSpaceXのような既存の宇宙企業とは異なり、AIネイティブ企業です。 探検しましょう

インドでの10機の機械学習インターンシップ(2025)インドでの10機の機械学習インターンシップ(2025)May 12, 2025 am 10:47 AM

インドであなたの夢の機械学習インターンシップを上陸させてください(2025)! 学生や早期キャリアの専門家にとって、機械学習インターンシップは、やりがいのあるキャリアに最適なランチパッドです。 最先端のジェナからの多様なセクターのインド企業

fellou aiを試して、Googleに別れを告げてChatgptを言ってくださいfellou aiを試して、Googleに別れを告げてChatgptを言ってくださいMay 12, 2025 am 10:26 AM

オンラインブラウジングの風景は、過去1年間に大きな変化を遂げました。 このシフトは、PrplexityやCopilotなどのプラットフォームからの強化されたパーソナライズされた検索結果から始まり、ChatGPTのWeb Sの統合で加速しました

個人的なハッキングはかなり激しいクマになります個人的なハッキングはかなり激しいクマになりますMay 11, 2025 am 11:09 AM

サイバー攻撃が進化しています。 一般的なフィッシングメールの時代は終わりました。 サイバー犯罪の将来は超個人化されており、高度にターゲットを絞った攻撃を作成するために、容易に利用可能なオンラインデータとAIを活用しています。 あなたの仕事を知っている詐欺師を想像してください、あなたのf

教皇レオXIVは、AIが彼の名前の選択にどのように影響したかを明らかにします教皇レオXIVは、AIが彼の名前の選択にどのように影響したかを明らかにしますMay 11, 2025 am 11:07 AM

枢機of大学への彼の​​就任演説では、シカゴ生まれのロバート・フランシス・プレボスト、新たに選出された教皇レオ14世は、彼の同名の教皇レオXIIIの影響について議論しました。

初心者および専門家向けのFastapi -MCPチュートリアル-Analytics Vidhya初心者および専門家向けのFastapi -MCPチュートリアル-Analytics VidhyaMay 11, 2025 am 10:56 AM

このチュートリアルでは、モデルコンテキストプロトコル(MCP)とFastAPIを使用して、大規模な言語モデル(LLM)と外部ツールを統合する方法を示しています。 FastAPIを使用して簡単なWebアプリケーションを構築し、それをMCPサーバーに変換し、Lを有効にします

DIA-1.6B TTS:最高のテキストからダイアログの生成モデル - 分析VidhyaDIA-1.6B TTS:最高のテキストからダイアログの生成モデル - 分析VidhyaMay 11, 2025 am 10:27 AM

DIA-1.6Bを探索:資金がゼロの2人の学部生によって開発された画期的なテキストからスピーチモデル! この16億個のパラメーターモデルは、笑い声やくしゃみなどの非言語的手がかりを含む、非常に現実的なスピーチを生成します。この記事ガイド

AIがメンターシップをこれまで以上に意味のあるものにする3つの方法AIがメンターシップをこれまで以上に意味のあるものにする3つの方法May 10, 2025 am 11:17 AM

私は心から同意します。 私の成功は、メンターの指導に密接に関連しています。 特にビジネス管理に関する彼らの洞察は、私の信念と実践の基盤を形成しました。 この経験は、メンターへの私のコミットメントを強調しています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター