初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減-AI-php.cn

ホームページ

テクノロジー周辺機器

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

王林

Apr 09, 2023 am 11:41 AM

poetトレーニング方法深層学習モデル

研究者らは、エッジトレーニングを最適化の問題として捉え、与えられたメモリ予算の下で最小のエネルギー消費を達成するための最適なスケジュールを発見したと述べた。

現在、深層学習モデルは、スマートフォンなどのエッジデバイスや推論用の組み込みプラットフォームに広く導入されています。その中で、トレーニングは依然として GPU などの高スループットアクセラレータを備えた大規模なクラウドサーバーで主に行われています。一元化されたクラウドトレーニングモデルでは、写真やキーストロークなどの機密データをエッジデバイスからクラウドに転送する必要があり、ユーザーのプライバシーが犠牲になり、追加のデータ移動コストが発生します。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

キャプション: Twitter @Shishir Patil

したがって、ユーザーがプライバシーを犠牲にすることなくモデルをパーソナライズできるようにするために、フェデレーテッドラーニングデバイスベースのトレーニング方法Alibaba Cloud などでは、データをクラウドに統合する必要がなく、ローカルトレーニングの更新も実行できます。これらのメソッドは、キーボード候補をパーソナライズするために Google の Gboard キーボードに導入されており、自動音声認識を向上させるために iPhone でも使用されています。同時に、現在のデバイスベースのトレーニング方法は、最新のアーキテクチャや大規模なモデルのトレーニングをサポートしていません。エッジデバイス上で大規模なモデルをトレーニングすることは、主に限られたデバイスメモリで逆伝播アクティベーションを保存できないため、現実的ではありません。 ResNet-50 の 1 回のトレーニング反復には、推論の 200 倍を超えるメモリが必要です。

以前の研究で提案された戦略には、クラウドトレーニングのメモリフットプリントを削減するための補助メモリへのページングと再実装が含まれます。ただし、これらの方法では全体のエネルギー消費量が大幅に増加します。ページング方式に関連するデータ転送は、一般に、大量のデータの計算よりも多くのエネルギーを必要とします。メモリバジェットが縮小すると、再実装によりエネルギー消費が O(n^2) の割合で増加します。

カリフォルニア大学バークレー校の最近の論文では、数人の研究者が、ページングと再実装が高度に補完的であることを示しました。複雑な操作の結果をフラッシュや SD カードなどの二次ストレージにページングしながら単純な操作を再実装することで、最小限のエネルギー消費で有効なメモリ容量を拡張できます。さらに、研究者らは、これら 2 つの方法を組み合わせることで、モバイルグレードのエッジデバイス上で BERT などのモデルをトレーニングできることも証明しました。彼らは、エッジトレーニングを最適化問題として扱うことにより、与えられたメモリバジェットの下で最小のエネルギー消費を達成する最適なスケジュールを発見しました。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

論文アドレス: https://arxiv.org/pdf/2207.07697.pdf
プロジェクトのホームページ: https://poet.cs .berkeley.edu/
GitHub アドレス: https://github.com/shishirpatil/poet

研究者は POET (Private Optimal Energy Training) を提案しましたこれは、メモリに制約のあるエッジデバイス上で最新のニューラルネットワークをエネルギー最適化トレーニングするためのアルゴリズムであり、そのアーキテクチャを以下の図 1 に示します。バックプロパゲーションのためにすべてのアクティベーションテンソルをキャッシュするコストが非常に高いことを考慮して、POET はアクティベーションのページングと再実装を最適化し、それによってメモリ消費を最大 2 分の 1 に削減します。彼らは限界トレーニング問題を整数線形計画法 (ILP) として再定式化し、ソルバーによって 10 分で最適化できることを発見しました。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

キャプション: POET は、エッジデバイスでの SOTA 機械学習モデルのトレーニングを最適化します。

実世界のエッジデバイスにデプロイされたモデルの場合、トレーニングはエッジデバイスがアイドル状態に見え、携帯電話の充電中にモデルの更新をスケジュールする Google Gboard などのサイクルを計算できるときに行われます。したがって、POET には厳しいトレーニング制約も含まれています。メモリの制約とトレーニングエポックの数を考慮して、POET は指定されたトレーニング期限を満たすソリューションを生成します。さらに、研究者らは POET を使用して包括的なコストモデルを開発し、それが数学的に価値を維持し (つまり、近似を行わない)、既存のすぐに使用できるアーキテクチャで動作することを実証しました。

この論文の筆頭著者である Shishir Putil 氏は、デモビデオの中で、POET アルゴリズムはスマートフォンなどの商用エッジデバイス上で膨大なメモリを必要とするあらゆる SOTA モデルをトレーニングできると述べました。また、スマートフォンや ARM Cortex-M デバイス上で BERT や ResNet などの SOTA 機械学習モデルのトレーニングを実証した最初の研究チームとなりました。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

統合されたページングと再実装

再実装とページングは、大規模な SOTA ML モデルのメモリ消費を削減するための 2 つの手法です。再実装では、アクティベーションテンソルは不要になると、最も一般的にはフォワードパス中に削除されます。これにより、後続のレイヤーのアクティベーションを保存するために使用できる貴重なメモリが解放されます。削除されたテンソルが再度必要になると、メソッドはリネージュで指定された他の関連アクティベーションからテンソルを再計算します。ページングはオフロードとも呼ばれ、メモリを削減するための補完的な技術です。ページングでは、すぐに必要ではないアクティベーションテンソルが、一次ストレージからフラッシュメモリや SD カードなどの二次ストレージに呼び出されます。テンソルが再度必要になった場合は、ページアウトします。

図 2 は、8 層ニューラルネットワークの実行スケジュールを示しています。 X 軸に沿って、各ユニットはニューラルネットワークの各層 (合計 8 層 L8) に対応します。 Y 軸は、エポック内の論理時間ステップを表します。図内の占有されたセル (色で塗りつぶされている) は、対応するタイムステップで実行される操作 (順方向/逆伝播計算、再実装、またはページング) を表します。

たとえば、L1 の活性化が最初のタイムステップ (T1) で計算されることがわかります。 T2、T3では、それぞれL2、L3の活性量が算出される。レイヤ L2 と L3 が非線形性 (tanH、ReLU など) など、メモリを大量に消費するものの計算コストが低い操作であると仮定すると、再実装が最良の選択になります。アクティベーション ({T3, L2}、{T4, L3}) を削除してメモリを解放できます。また、バックプロパゲーション中にこれらのアクティベーションが必要な場合は、それらを再実装できます ({T14, L3}、{T16, L2})。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

L5 層と L6 層は、畳み込みや密行列の乗算など、計算量の多い演算であると仮定します。このような操作の場合、再実装すると実行時間とエネルギーが増加するため、最適とは言えません。これらの層の場合、活性化テンソルを補助ストレージ ({T6, L5}、{T7, L6}) にページングし、必要に応じて ({T10, L6}、{T11, L5}) にページングすることをお勧めします。

ページングの主な利点の 1 つは、メモリバスの占有率に基づいて遅延を隠すためにパイプライン化できることです。これは、最新のシステムには、コンピューティングエンジンが並列実行されている間にアクティベーションテンソルをセカンダリストレージからメインメモリに移動する DMA (ダイレクトメモリアクセス) 機能があるためです。たとえば、タイムステップ T7 では、L6 を呼び出し、同時に L7 を計算できます。ただし、再実装は計算量が多く並列化できないため、実行時間が長くなります。たとえば、タイムステップ T14 を使用して L3 を再計算する必要があるため、バックプロパゲーションの残りの実行が遅れます。

POET

この研究では、高いエネルギー効率を維持しながら、エッジデバイスの制限のメモリに収まるように大規模モデルのトレーニング DAG を書き換える、ディープニューラルネットワーク用のグラフレベルのコンパイラーである POET を提案します。

POET はハードウェアを認識し、まず順方向パスと逆方向パスの実行、関連するメモリ割り当て要求、実行時間、各操作のメモリとエネルギー消費を追跡します。この各ワークロードの詳細な分析は、特定のハードウェアに対して 1 回だけ実行され、自動化され、安価で、POET に最も正確なコストモデルを提供します。

POET は、効率的に解くことができる混合整数線形計画法 (MILP) を生成します。 POET オプティマイザーは、メモリに依存するエンドツーエンドのエネルギー消費を最小限に抑える効率的な再実装とページングスケジュールを検索します。結果のスケジュールは、エッジデバイスで実行するための新しい DAG を生成するために使用されます。

MILP は汎用ハードウェアで解決されますが、エッジデバイスに送信されるスケジュールはわずか数百バイトなので、メモリ効率が非常に高くなります。

再実装は、計算コストは低いがメモリを大量に消費する操作の場合に最も効率的です。ただし、ページングは、再実装すると大幅なエネルギーオーバーヘッドが発生する計算集約型の操作に最適です。 POET は、統合検索スペースでの再実装とページングを共同で検討しています。

この記事の方法は、複雑で現実的なアーキテクチャに拡張できます。POET 最適化アルゴリズムは次のとおりです。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

この調査では、計算、ページインとページアウト、ページングと再実装の複合エネルギー消費を最小限に抑えるために、最適化問題に新しい目的関数を導入しています。エネルギー消費を結合する目的関数は次のとおりです:

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

ここで、Φ_compute、Φ_pagein、Φ_pageout は、それぞれ計算、ページイン、ページアウトで各ノードによって消費されるエネルギーを表します。

POET は、グラフのどのノード (k) が再実装されるか、各タイムステップ (t) でどのノードがページイン初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減またはページアウトであるかに基づいて DAG スケジュールを出力します。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

実験結果

#POET の評価において、研究者は 3 つの重要な質問に答えようとしました。まず、POET はさまざまなモデルやプラットフォームでどれくらいのエネルギーを削減できるでしょうか?次に、POET はハイブリッドページングと再実装戦略からどのようなメリットを得られるでしょうか?最後に、POET はさまざまなランタイムバジェットにどのように適応するのでしょうか?

研究者らは、以下の表 2 に 4 つの異なるハードウェアデバイス、つまり ARM Cortex M0 MKR1000、ARM Cortex M4F nrf52840、A72 Raspberry Pi 4B、および Nvidia Jetson TX2 をリストしています。 POET は完全にハードウェアを認識しており、きめ細かい分析に依存しています。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

以下の図 3 は、単一トレーニングエポックのエネルギー消費を示しています。各列は異なるハードウェアプラットフォームに対応しています。研究者らは、POET がすべてのプラットフォームにわたってエネルギー効率の高いスケジュール (Y 軸) を生成すると同時に、ピーク時のメモリ消費量 (X 軸) を削減し、時間の予算を満たしていることを発見しました。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

以下の図 5 では、研究者は A72 で ResNet-18 をトレーニングする際に POET と Capuchin をベンチマークしました。 RAM 予算が削減されると、Capuchin はメモリがフルのベースラインよりも 73% ～ 141% 多くのエネルギーを消費します。比較すると、POET が生成するエネルギーは消費エネルギーの 1% 未満です。この傾向は、テストされたすべてのアーキテクチャとプラットフォームに当てはまります。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

表 3 では、研究では Nvidia の Jetson TX2 で ResNet-18 をトレーニングする際の POET と POFO のベンチマークを示しています。この調査では、POET が再実装とページングを統合することで、ピーク時のメモリ消費量が 8.3% 削減され、スループットが 13% 向上することがわかりました。これは、より大きな検索空間にわたって最適化できる POET の MILP ソルバーの利点を示しています。 POFO は線形モデルのみをサポートしますが、POET は図 3 に示すように非線形モデルに一般化できます。

初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減

図 4 は、POET がさまざまな時間制約の下で統合戦略を採用する利点を示しています。以下の図は、実行時間ごとに総エネルギー消費量をプロットしています。初めてスマートフォン上で BERT と ResNet をトレーニングし、エネルギー消費を 35% 削減 # ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃