ホームページ >テクノロジー周辺機器 >AI >SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

WBOY
WBOY転載
2023-04-12 23:19:041278ブラウズ

この記事では、AAAI 2023 に掲載された論文を紹介します。この論文は、上海交通大学およびクイーンズ大学ベルファストのスケーラブル コンピューティングおよびシステムの上海主要研究所の Hua Yang 氏と Louis Ann 氏によって書かれました。那州州立大学が共同で完成させた。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

  • 紙のリンク: https://arxiv.org/abs/2212.01197
  • コードリンク (ALA モジュールの使用手順を含む): https://github.com/TsingZ0/FedALA

本論文は、クライアントが必要とする情報をグローバルモデルから自動的に取得することにより、フェデレーテッドラーニングにおける統計的不均一性問題に対処するフェデレーテッドラーニングのための適応型ローカル集約手法を提案する。著者は 11 個の SOTA モデルを比較し、最適な方法を 3.27% 上回る優れたパフォーマンスを達成しました。著者は、適応型ローカル集約モジュールを他のフェデレーテッド ラーニング手法に適用し、最大 24.19% の改善を達成しました。

1 はじめに

フェデレーション ラーニング (FL) は、ユーザーのプライバシー データを広めずにローカルに保存することで、プライバシーを保護しながら、人々がお互いを完全に理解し、学び合うのに役立ちます。ユーザーデータに。ただし、クライアント間のデータは目に見えないため、データの統計的な不均一性 (非独立で同一に分散されたデータ (非 IID) およびデータ量の不均衡) が FL の大きな課題の 1 つとなっています。データの統計的不均一性により、従来のフェデレーション学習手法 (FedAvg など) では、FL プロセス トレーニングを通じて各クライアントに適した単一のグローバル モデルを取得することが困難になります。

近年、データの統計的不均一性に対処できるため、パーソナライズされたフェデレーテッド ラーニング (pFL) 手法がますます注目を集めています。高品質のグローバル モデルを求める従来の FL とは異なり、pFL アプローチは、フェデレーション ラーニングの協調的なコンピューティング能力を使用して、各クライアントに適したパーソナライズされたモデルをトレーニングすることを目的としています。サーバー上でのモデルの集約に関する既存の pFL 研究は、次の 3 つのカテゴリに分類できます。

(1) 単一のグローバル モデルを学習して微調整する方法 (Per-FedAvg など)および FedRep;

(2) pFedMe や同上など、追加のパーソナライゼーション モデルを学習する方法;

(3) パーソナライゼーションによる集約 (またはローカル アグリゲーション) ローカル モデルを学習するためのメソッド (FedAMP、FedPHP、FedFomo、APPLE、PartialFed など)。

カテゴリ (1) および (2) の pFL メソッドは、ローカル初期化 (各反復でのローカル トレーニングの前にローカル モデルを初期化することを指します) にグローバル モデルからのすべての情報を使用します。ただし、グローバル モデルでは、ローカル モデルの品質を向上させる情報 (ローカルのトレーニング目標を満たす、クライアントが必要とする情報) のみがクライアントにとって有益です。グローバル モデルには、単一のクライアントに必要な情報と不要な情報の両方が含まれるため、一般化が不十分です。したがって、研究者らは、パーソナライズされた集約を通じてグローバル モデルで各クライアントが必要とする情報を取得するカテゴリー (3) の pFL 手法を提案しています。ただし、カテゴリ (3) の pFL メソッドは依然として存在しており、(a) クライアントのローカル トレーニング目標を考慮せず (FedAMP や FedPHP など)、(b) 計算コストと通信コストが高くなります (FedFomo や APPLE など)、(c)プライバシー漏洩などの問題 (FedFomo や APPLE など)、および (d) パーソナライズされた集計とローカルのトレーニング目標の間の不一致 (PartialFed など)。さらに、これらのメソッドは FL プロセスに大幅な変更を加えているため、これらのメソッドが使用するパーソナライズされた集計メソッドは、ほとんどの既存の FL メソッドでは直接使用できません。

FedAvg と比較して反復ごとの通信コストを増加させることなく、クライアントが必要とする情報をグローバル モデルから正確に取得するために、著者はフェデレーション Learning Adaptive Local Aggregation の手法を提案しました。メソッド (FedALA)。図 1 に示すように、FedALA は、各ローカル トレーニングの前に、適応ローカル アグリゲーション (ALA) モジュールを通じてグローバル モデルとローカル モデルを集約することにより、グローバル モデル内の必要な情報を取得します。 FedALA は、FedAvg と比較して、他の FL プロセスを変更せずに各反復でローカル モデルの初期化プロセスを変更するために ALA のみを使用するため、ALA は他のほとんどの既存の FL メソッドに直接適用して、それぞれのパフォーマンスを向上させることができます。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

#図 1: 反復におけるクライアント上のローカル学習プロセス

2 メソッド

##2.1 適応型ローカル集約 ( ALA)

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

図 2: アダプティブ ローカル アグリゲーション (ALA) プロセス

適応型ローカル アグリゲーション (ALA) プロセスを図 2 に示します。従来のフェデレーテッド ラーニングと比較して、ダウンロードされたグローバル モデル

はローカル モデル で直接上書きされ、ローカル初期化モデルを取得します。 の方法 (つまり、) では、FedALA は、各パラメータのローカル集約の重みを学習することにより、適応型ローカル集約を実行します。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案


その中で、著者は

「renew」と呼んでいます。さらに、作者は要素ごとの重み枝刈りメソッド SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を通じて正則化を実装し、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の値を [0,1] に制限します。 SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案ディープ ニューラル ネットワーク (DNN) の下位層ネットワークは上位層に比べて相対的に一般的な情報を学習する傾向があり、一般的な情報は各ローカル モデルに必要な情報であるため、したがって、グローバル モデルの下位ネットワークの情報のほとんどは、ローカル モデルの下位ネットワークで必要な情報と一致します。ローカル集約の重みを学習するために必要な計算コストを削減するために、著者は ALA の範囲を制御するハイパーパラメータ p を導入し、グローバル モデルの下位層のネットワーク パラメータがローカル モデルの下位層のネットワークを直接カバーするようにします。上位層のみ ALA を有効にします。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案このうち、

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 のニューラル ネットワーク層の数を表します。 (またはニューラル ネットワーク ブロックの数)、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の下位ネットワークの形状と一致しており、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の残りの部分と一致しています。 p 層の上位ネットワークは同じ形状です。 SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

作成者は、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 のすべての値を 1 に初期化し、ローカル初期化の各ラウンド中に古い SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 に基づいて SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を更新します。計算コストをさらに削減するために、著者はランダム サンプリング s

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

を使用します。ここで、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 は学習です。 SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 レートを更新します。 SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を学習する過程で、著者は SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を除く他の学習可能なパラメータを凍結しました。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

図 3: MNIST および Cifar10 データセットにおけるクライアント 8 の学習曲線

より小さい p 値を選択すると、FedALA のパフォーマンスに影響を与えることなく、ALA のトレーニングに必要なパラメーターを大幅に削減できます。さらに、図 3 に示すように、最初のトレーニング セッションで収束するようにトレーニングされると、その後の反復でトレーニングされたとしても、ローカル モデルの品質に大きな影響を与えないことを著者らは観察しました。つまり、各クライアントは古い SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を再利用して、必要な情報を取得できます。著者は、計算コストを削減するために、後続の反復で SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を微調整する方法を採用しています。 SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

2.2 ALA 分析

分析に影響を与えることなく、簡単にするために、作成者は SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を無視し、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 と仮定します。上記の式により、SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 が得られます。SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 を表します。作成者は、ALA の SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の更新を SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の更新と考えることができます。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

勾配項SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案は、各ラウンドで要素ごとにスケールされます。ローカル モデルのトレーニング (または微調整) 方法とは異なり、上記の SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 の更新プロセスは、グローバル モデル内の共通情報を認識できます。異なる反復ラウンド間で、動的に変化する SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案 によって ALA モジュールに動的な情報が導入され、FedALA が複雑な環境に適応しやすくなります。

3 実験

著者は、ResNet-18 を使用して、実際のデータ異種混合環境における Tiny-ImageNet データセットのハイパーパラメータ s と p を比較しました。 FedALA の影響を表 1 に示します。の場合、ALA モジュール学習によりランダムにサンプリングされたローカル トレーニング データを使用すると、パーソナライズされたモデルのパフォーマンスが向上しますが、計算コストも増加します。 ALA を使用する場合、 のサイズは各クライアントの計算能力に基づいて調整できます。表からわかるように、FedALA は、非常に小さい s (s=5 など) を使用した場合でも優れたパフォーマンスを発揮します。 p については、異なる p 値はパーソナライズされたモデルのパフォーマンスにほとんど影響を与えませんが、計算コストには大きな違いがあります。この現象は、モデルを分割し、ニューラル ネットワーク層をクライアントにアップロードせずに出力の近くに保持する FedRep などの手法の有効性を、ある側面から示しています。 ALA を使用する場合、パーソナライズされたモデルのパフォーマンス機能を確保しながら、より小さく適切な p 値を使用して計算コストをさらに削減できます。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

#表 1: ハイパーパラメータとその FedALA への影響に関する調査

#著者は、FedALAと11のSOTA手法を、病理学的データ異種環境と実践データ異種環境において比較分析した。表 2 に示すように、データは、これらのケースで FedALA がこれら 11 の SOTA メソッドよりも優れていることを示しています。ここで、「TINY」とは、Tiny-ImageNet で 4 層 CNN を使用することを意味します。たとえば、TINY の場合、FedALA は最適なベースラインを 3.27% 上回っています。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

#表 2: 病理学的データと実データの異種環境下での実験結果

さらに、著者はFedALA のパフォーマンスも、さまざまな異種環境とクライアントの総数の下で評価されました。表 3 に示すように、FedALA はこれらの条件下でも依然として優れたパフォーマンスを維持しています。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

#表 3: その他の実験結果

表 3 に基づく実験その結果、ALA モジュールを他の方法に適用すると、最大 24.19% の改善を達成できます。

最後に、著者は、図 4 に示すように、MNIST 上の元の FL プロセスでのモデル トレーニングに対する ALA モジュールの追加の影響も視覚化しました。 ALA がアクティブ化されていない場合、モデル トレーニングの軌跡は FedAvg を使用した場合と一致します。 ALA がアクティブ化されると、グローバル モデルでキャプチャされたトレーニングに必要な情報を使用して、モデルは最適な目標に向かって直接最適化できます。

SOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案

図 4: クライアント No. 4 でのモデル トレーニングの軌跡の視覚化

以上がSOTAを3.27%上回り、上海交通大学などが適応型ローカル集約の新たな手法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。