ホームページ  >  記事  >  テクノロジー周辺機器  >  深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

PHPz
PHPz転載
2023-04-11 11:43:021507ブラウズ

10 年前、ディープ ラーニングの台頭は、新しいアルゴリズムとアーキテクチャの導入、データの大幅な増加、コンピューティング能力の向上によって部分的に促進されました。過去 10 年間にわたり、AI および ML モデルはより深く複雑になり、より多くのパラメーターとトレーニング データが使用されるようになり、その結果、より大規模で扱いにくくなり、その結果、機械学習史上で最も革新的な結果がもたらされました。

これらのモデルは、実稼働アプリケーションやビジネス アプリケーションでますます使用されるようになり、同時にその効率とコストは二次的な考慮事項から大きな制限へと進化しました。効率的なアーキテクチャ、トレーニングの効率、データの効率、推論の効率という 4 つのレベルで主要な課題に対処するために、Google は ML の効率化に多額の投資を続けています。これらのモデルは、効率性に加えて、信頼性、セキュリティ、プライバシー、鮮度に関して多くの課題に直面しています。次に、この記事では、上記の課題に対処するための新しいアルゴリズムの開発における Google Research の取り組みに焦点を当てます。

研究の基本的な質問は、「効率を向上させるためにモデルをパラメータ化するより良い方法はあるのか?」です。2022 年、研究者はコンテキストの取得、ハイブリッド エキスパート システム、Transformer の改善に焦点を当てます。 (大規模な ML モデルの中心) モデルを強化することで外部の知識を注入する新しいテクノロジを効率的に開発できます。

コンテキスト拡張モデル

より高い品質と効率を追求するために、大規模なデータベースやトレーニング可能なメモリからの外部コンテキストを使用してニューラル モデルを強化できます。ニューラル ネットワークは、取得したコンテキストを活用することで、内部パラメーターに知識を広範囲に保存することなく、パラメーターの効率、解釈可能性、現実性を向上させることができます。

「コンテキスト拡張言語モデリングのための分離されたコンテキスト処理」というタイトルの記事では、外部コンテキストを言語モデルに組み込むための、エンコーダー/デコーダー アーキテクチャの単純なアーキテクチャであるデカップリングに基づく方法を検討しています。これにより、自己回帰言語モデリングやオープンドメインの質問応答タスクで大幅な計算量の節約が実現します。ただし、事前トレーニングされた大規模言語モデル (LLM) は、大規模なトレーニング セットの自己監視を通じて大量の情報を消費します。ただし、これらのモデルの世界に関する知識が、提示されたコンテキストとどのように相互作用するかは不明です。研究者は、知識認識微調整 (KAFT) を通じて、反事実的で無関係なコンテキストを標準の教師ありデータセットに組み込み、LLM の制御性と堅牢性を強化します。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

論文アドレス: https://arxiv.org/abs/2210.05758

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

コンテキスト マージのためのエンコーダーとデコーダーのクロスアテンション メカニズムにより、コンテキスト エンコーディングを言語モデル推論から切り離すことができるため、コンテキスト強化モデルの効率が向上します。

モジュール式ディープ ネットワークを模索するプロセスにおいて、問題の 1 つは、対応するコンピューティング モジュールを備えたコンセプト データベースを設計する方法です。研究者らは、スケッチを処理するためのポインター モジュールを含む、外部 LSH テーブルにスケッチの形式で「イベントを記憶」を保存する理論的なアーキテクチャを提案しました。

アクセラレータを利用して大規模なデータベースから情報を迅速に取得することは、コンテキスト拡張モデルのもう 1 つの大きな課題です。研究者らは、TPU のパフォーマンス モデルと一致し、予想される再現率を分析的に保証し、最高のパフォーマンスを達成する TPU ベースの類似性検索アルゴリズムを開発しました。検索アルゴリズムには多くの場合、多数のハイパーパラメータと設計上の選択肢が含まれるため、新しいタスクを実行するときにそれらを調整することが困難になります。研究者らは、自動ハイパーパラメータ調整のための新しい制約付き最適化アルゴリズムを提案しています。目的のコストまたはリコールを入力として固定すると、提案されたアルゴリズムは、経験的に速度とリコールのパレートフロンティアに非常に近い調整を生成し、標準ベンチマークで最高のパフォーマンスを提供します。

混合エキスパート モデル

混合エキスパート (MoE) モデルは、計算コストを過度に増加させることなくニューラル ネットワーク モデルの能力を向上させる効果的な手段であることが証明されています。 MoE の基本的な考え方は、多くの専門家サブネットワークから統合ネットワークを構築し、各入力が適切な専門家サブセットによって処理されることです。その結果、MoE は標準のニューラル ネットワークと比較してモデル全体のごく一部のみを呼び出すため、GLaM などの言語モデル アプリケーションで示されているように高い効率が得られます。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#GLaM アーキテクチャの各入力トークンは、64 のエキスパート ネットワークのうち 2 つに動的にルーティングされます。 。

特定の入力に対して、どのエキスパートをアクティブにするかを決定するのはルーティング関数です。研究者は各エキスパートを十分に活用しないようにしたいため、この関数の設計は困難です。そして過剰搾取。最近の研究では、各入力トークンを上位 k 個のエキスパートに割り当てる代わりに、各エキスパートを上位 k 個のトークンに割り当てる新しいルーティング メカニズムであるエキスパート選択ルーティングが提案されています。これにより、エキスパートの負荷分散が自動的に確保されると同時に、複数のエキスパートが入力トークンを処理できるようになります。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#専門家がルートを選択します。事前に決定されたバッファ容量を持つエキスパートには上位 k 個のトークンが割り当てられるため、負荷分散が確保されます。各トークンは、可変の数の専門家によって処理できます。 効果的なトランスフォーマー

トランスフォーマーは、現在人気のあるシーケンス間モデルであり、視覚から自然までの一連の困難な問題で使用されます。言語理解が目覚ましい成功を収めた。このモデルの中心となるコンポーネントはアテンション レイヤーです。アテンション レイヤーはクエリとキー間の類似性を特定し、これらの類似性を使用して適切に重み付けされた値の組み合わせを構築します。パフォーマンスは強力ですが、アテンション メカニズムの計算効率は高くなく、複雑さは通常、入力シーケンスの長さの 2 乗になります。

Transformer の規模が拡大し続けるにつれて、問題の 1 つに関する研究は非常に価値があります。それは、問題を解決できる自然発生的な構造や学習モデルのパターンがあるかどうかです。効果的な注意の原則です。この目的を達成するために、研究者らは中間 MLP 層の学習済みエンベディングを研究し、それらが非常にまばらであることを発見しました。たとえば、T5-Large モデルには 1% の非ゼロ エントリがあります。さらに、スパース性は、モデルのパフォーマンスに影響を与えることなく FLOP を削減できる可能性があることを示しています。

論文アドレス: https://arxiv.org/pdf/2210.06313.pdf

最近、Treeformer を起動するための研究があります。 — 1 デシジョン ツリーに依存する標準的な注意計算の代替手段。簡単に言えば、これはクエリに関連するキーの小さなサブセットを迅速に特定し、そのセットに対してのみアテンション操作を実行します。経験則として、Treeformer はアテンション レイヤーの FLOP を 30 分の 1 に削減できます。これに加えて、アテンション アルゴリズムと貪欲アルゴリズムを組み合わせた微分可能な特徴選択方法であるシーケンシャル アテンションもあります。この手法には、線形モデルに対する強力な証明可能な保証があり、大規模な埋め込みモデルにシームレスに拡張できます。

Transformer の効率を向上させるもう 1 つの方法は、アテンション層のソフトマックス計算を高速化することです。 「ソフトマックス カーネルの低ランク近似」に関する研究に基づいて、研究者らは新しいタイプのランダム特徴を提案し、ソフトマックス カーネルの最初の「正で有界な」ランダム特徴近似を提供しました。シーケンス長の計算は次のとおりです。線形。

トレーニング効率

効率的な最適化手法は最新の ML アプリケーションの基礎であり、これは大規模な設定では特に重要です。この設定では、Adam のような一次適応手法でもコストがかかることが多く、トレーニングの安定性という課題に直面します。さらに、これらの方法は通常、ニューラル ネットワークのアーキテクチャに依存しないため、アーキテクチャの豊富さが無視され、トレーニング効率が低くなります。これにより、最新のニューラル ネットワーク モデルをより効果的に最適化するための新しいテクノロジーが継続的に提案されるようになります。研究者らはアーキテクチャを意識した新しいトレーニング手法を開発しており、たとえば、Transformer ネットワークのトレーニングに関するいくつかの研究には、新しいスケール不変の Transformer ネットワークや、トレーニング プロセスを高速化するための確率的勾配降下 (SGD) と組み合わせた新しい枝刈り手法が含まれています。この方法の助けにより、研究者は適応を必要とせずに、単純な SGD を使用して BERT を効果的にトレーニングすることが初めて可能になりました。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

論文アドレス: https://arxiv.org/pdf/2210.05758.pdf

さらに、研究者らは LocoProp を利用した新しい方法を提案しました。これは、1 次オプティマイザーと同じコンピューティングおよびメモリ リソースを使用しながら、2 次オプティマイザーと同じパフォーマンスを達成します。 -order optimizer. オプティマイザーのようなパフォーマンス。 LocoProp は、ニューラル ネットワークをモジュール形式で表示し、レイヤーの構成に分割します。各層は、出力ターゲットと重み正則化だけでなく、独自の損失関数を持つことができます。この設定では、適切な前方パスと後方パスの後、LocoProp は各層のローカル損失を並行して更新し続けます。実際、これらの更新は、理論的にも経験的にも、高次のオプティマイザーの更新と同様であることが示されています。ディープ オートエンコーダー ベンチマークでは、LocoProp は高速オプティマイザーに匹敵するパフォーマンスを達成しながら、速度面でも優れています。

論文リンク: https://proceedings.mlr.press/v151/amid22a.html

バックプロパゲーションと同様に、LocoProp を適用します。アクティベーションを計算するためのフォワードパス。バックワード パスでは、LocoProp は各層のニューロンごとのターゲットを設定します。最後に、LocoProp はモデル トレーニングをレイヤー全体の独立した問題に分割し、複数のローカル更新を各レイヤーの重みに並行して適用できます。

SGD などのオプティマイザーの中心的な考え方は、各データ ポイントが分布から独立して同一にサンプリングされるということです。残念ながら、モデル (またはエージェント) が独自の予測に基づいて生成されたデータから学習する必要がある強化学習など、現実世界の設定ではこれを満たすことは困難です。研究者らは、線形動的システム、非線形動的システム、および Q 学習で最適な解を見つけることができる、逆体験リプレイに基づく新しい SGD アルゴリズムを提案しました。さらに、この手法の拡張バージョンである IER が、現在、さまざまな一般的な RL ベンチマークにおいて最先端かつ最も安定したエクスペリエンス リプレイ手法であることが研究によって証明されています。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#論文アドレス: https://arxiv.org/pdf/2103.05896.pdf

データ効率

# 多くのタスクにおいて、ディープ ニューラル ネットワークは大規模なデータ セットに大きく依存します。大規模なデータセットに伴うストレージ コストや潜在的なセキュリティ/プライバシーの問題に加えて、そのようなデータセット上で最新のディープ ニューラル ネットワークをトレーニングするには、高い計算コストも発生します。この問題を解決する考えられる方法の 1 つは、データのサブセットを選択することです。

研究者らは、実際のバッチ処理設定で任意のモデル ファミリで使用するために設計されたサブセット選択フレームワークを分析しました。この場合、学習者はコンテキストと真のラベルの両方にアクセスして、一度に 1 つの例をサンプリングできますが、オーバーヘッドを制限するために、その状態 (つまり、さらなるトレーニング モデルの重み) は、十分な例のバッチが作成された後にのみ更新できます。選択されました。研究者らは、重要度サンプリングを通じてサンプルを選択する IWeS と呼ばれるアルゴリズムを開発しました。各サンプルに割り当てられるサンプリング確率は、以前に選択されたバッチでトレーニングされたモデルのエントロピーに基づいています。研究によって提供された理論的分析は、一般化とサンプリング レートの限界を示しています。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#

論文アドレス: https://arxiv.org/pdf/2301.12052.pdf

大規模ネットワークのトレーニングに関するもう 1 つの問題は、トレーニングと矛盾する可能性があることです。デプロイメント時にデータ全体で見られる分布の変化は、特にすべてのデプロイメント時のシナリオをカバーできない限られた量のトレーニング データを扱う場合には非常に機密性が高くなります。 「極端な単純性バイアス」がニューラル ネットワークの脆弱性の背後にある重要な問題であるという仮説を立てた最近の研究により、この仮説が実現可能となり、DAFT と FRR という 2 つの新しい補完的な手法を組み合わせることで、大幅に堅牢なニューラル ネットワークを提供できるようになりました。特に、これら 2 つの方法では、敵対的な微調整と逆特徴予測を使用して、学習ネットワークを強化します。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#論文アドレス: https://arxiv.org/pdf/2006.07710.pdf

推論効率

#ニューラル ネットワークのサイズを大きくすると予測精度が向上することが証明されていますが、現実の世界でこれらの利益を達成するのは困難です。大規模なモデルの展開には推論コストが非常に高いためです。これにより、精度を犠牲にすることなくサービス効率を向上させる戦略が推進されます。 2022 年、専門家はこの目標を達成するためのさまざまな戦略、特に知識の蒸留と適応コンピューティングに基づく戦略を研究しました。

蒸留

蒸留は、大規模なニューラル ネットワークを大幅に拡張する、シンプルで効果的なモデル圧縮方法です。モデルの。研究により、蒸留は広告の推奨などの一連の実用的な用途でその役割を果たすことができることが証明されています。蒸留のほとんどのユースケースでは、特定の領域に基本レシピを直接適用することが含まれますが、これがいつ機能するのか、なぜ機能するのかについての理解は限られています。 Google の今年の調査では、特定の環境向けに蒸留をカスタマイズすることに焦点を当て、蒸留の成功を制御する要因を正式に調査しました。

アルゴリズムの面では、研究により、教師ラベル内のノイズを注意深くモデル化することでトレーニング例の重みを再設定する重要な方法と、データを分類するための効果的な手段が開発されました。教師ラベルを取得するためにサンプリングされます。 Google は、「教師によるトレーニング: 知識伝達のための効率的なフレームワーク」の中で、教師を受動的に利用して固定データセットに注釈を付けるのではなく、教師を積極的に利用して、注釈を付ける有益なサンプルの選択をガイドしていると述べています。これにより、限られたデータまたはロングテール設定で蒸留プロセスが際立ちます。

論文アドレス: https://arxiv.org/pdf/2208.06825.pdf

さらに、Google は、次の新しい手法も研究しました。クロスエンコーダー (BERT などのデュアルエンコーダー) から階乗デュアルエンコーダー (デュアルエンコーダー) へ。これは、(クエリ、ドキュメント) ペアの関連性をスコアリングするための重要な設定でもあります。研究者らは、クロスエンコーダーとデュアルエンコーダー間のパフォーマンスギャップの理由を調査し、これがデュアルエンコーダーの容量制限ではなく一般化の結果である可能性があることに注目しました。蒸留損失関数を注意深く構築すると、この状況を軽減し、クロスエンコーダーとデュアルエンコーダーのパフォーマンス間のギャップを減らすことができます。続いて、embedttil では、教師モデルの埋め込みを一致させることで、デュアル エンコーダーの蒸留をさらに改善することを調査します。この戦略は、大規模から小規模のデュアル エンコーダー モデルから情報を抽出するためにも使用できます。この場合、教師のドキュメントの埋め込みを継承して凍結することが非常に効果的であることがわかります。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

論文アドレス: https://arxiv.org/pdf/2301.12005.pdf

理論的には、この研究は、生徒が教師のラベルをどれだけ正確に予測するかを測定する方法である、監督の複雑さの観点から蒸留についての新しい視点を提供します。 NTK (ニューラル タンジェント カーネル) 理論は概念的な洞察を提供します。研究ではさらに、蒸留によって、教師モデルがモデル化するのが難しいと判断したポイントに生徒が適合しない可能性があることが実証されています。これは直感的に、学生が合理的にモデル化できるサンプルに限られた能力を集中させるのに役立ちます。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#論文アドレス: https://arxiv.org/pdf/2301.12245.pdf

アダプティブ コンピューティング

蒸留は推論コストを削減する効果的な手段ですが、すべてのサンプルにわたって一貫しています。ただし、直感的には、簡単なサンプルの中には、本質的にハード サンプルよりも必要な計算量が少ないものもあります。アダプティブ コンピューティングの目標は、このようなサンプル依存の計算を可能にするメカニズムを設計することです。

CALM (Confident Adaptive Language Modeling) は、T5 などの Transformer ベースのテキスト ジェネレーターに制御された早期終了機能を導入します。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

#論文アドレス: https://arxiv.org/pdf/2207.07061.pdf

#この形式の適応計算では、モデルは各デコード ステップで使用される Transformer レイヤーの数を動的に変更します。早期終了ゲートでは、統計的パフォーマンスの保証を満たすように調整された決定しきい値による信頼性尺度が使用されます。このようにして、モデルは最も困難な予測のためにデコーダー層の完全なスタックを計算するだけで済みます。より単純な予測では、いくつかのデコーダ層を計算するだけで済みます。実際には、モデルは予測を行うために平均で約 3 分の 1 のレイヤーを使用するため、同じレベルの生成品質を維持しながら 2 ~ 3 倍の高速化が実現します。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

通常言語モデル (上) と CALM (下) を使用してテキストを生成します。 CALM は早期の予測を試みます。生成されたコンテンツ (濃い青色の色合い) に十分な自信がある場合は、時間を節約するためにスキップします。

一般的なアダプティブ コンピューティング メカニズムは、2 つ以上の基本モデルのカスケードです。カスケードを使用する場合の重要な問題は、現在のモデルの予測を単純に使用するか、下流モデルに予測を延期するかです。いつ遅延すべきかを知るには、決定を遅らせるための監視として適切な信号を活用できる適切な損失関数を設計する必要があります。この目標を達成するために、研究者らは既存の損失関数を正式に研究し、ラベル平滑化の暗黙的な適用によりサンプルのトレーニングには適さない可能性があることを実証しました。研究によると、この問題は、モデルの内部を変更する必要のない、遅延ルールの事後トレーニングによって軽減できることがわかっています。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

論文アドレス: https://openreview.net/pdf?id=_jg6Sf6tuF7

検索アプリケーションの場合、標準のセマンティック検索手法では、大規模なモデルによって生成された各埋め込みに対して固定表現が使用されます。つまり、表現のサイズと機能は、下流のタスクとそれに関連するコンピューティング環境や制約に関係なく、基本的に固定されます。 MRL (マトリョーシカ表現学習) により、展開環境に応じて表現を適応させる柔軟性が導入されます。 ScaNN などの標準の近似最近傍検索手法と組み合わせて使用​​すると、MRL は同じ再現率と精度のメトリクスを持ちながら、最大 16 倍低い計算を提供できます。

深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがあります

論文アドレス: https://openreview.net/pdf?id=9njZa1fm35

以上が深層学習アルゴリズムの効率を向上させる方法、Google には次のトリックがありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。