이 기사는 AAAI 2023에 포함된 논문을 소개합니다. 이 논문은 Shanghai Jiao Tong University, Queen's University Belfast 및 Louisiana State University의 Shanghai Key Laboratory of Scalable Computing and Systems 소속 Hua Yang 교수와 Wang Hao 교사가 공동 집필했습니다. 함께요.
본 논문에서는 통계적 이질성 문제에서 클라이언트가 요구하는 정보를 자동으로 캡처하여 연합 학습의 문제를 해결하기 위한 적응형 로컬 집계 방법을 제안합니다. 저자는 11개의 SOTA 모델을 비교한 결과 최적 방법을 뛰어넘는 3.27%의 우수한 성능을 달성했다. 저자는 적응형 로컬 집계 모듈을 다른 연합 학습 방법에 적용하여 최대 24.19%의 향상을 달성했습니다.
연합 학습(FL)은 사용자 개인 데이터를 전파하지 않고 로컬에 보관하여 개인 정보를 보호하면서 사람들이 사용자 데이터에 포함된 가치를 완전히 탐색하도록 돕습니다. 그러나 클라이언트 간의 데이터가 눈에 보이지 않기 때문에 데이터의 통계적 이질성(비독립적이고 동일하게 분산된 데이터(non-IID) 및 데이터 볼륨 불균형)은 FL의 큰 과제 중 하나가 되었습니다. 데이터의 통계적 이질성으로 인해 전통적인 연합 학습 방법(예: FedAvg 등)에서는 FL 프로세스 교육을 통해 각 클라이언트에 적합한 단일 글로벌 모델을 얻기가 어렵습니다.
최근에는 데이터의 통계적 이질성에 대처할 수 있는 능력으로 인해 개인화 연합 학습(pFL) 방법이 점점 더 주목을 받고 있습니다. 고품질의 글로벌 모델을 추구하는 기존 FL과 달리 pFL 접근 방식은 연합 학습의 협업 컴퓨팅 능력을 통해 각 클라이언트에 적합한 맞춤형 모델을 학습하는 것을 목표로 합니다. 서버의 집계 모델에 대한 기존 pFL 연구는 다음 세 가지 범주로 나눌 수 있습니다. 2 ) pFedMe 및 Ditto를 포함한 추가 개인화 모델 학습 방법
(3) FedAMP, FedPHP, FedFomo, APPLE 및 PartialFed를 포함한 개인화 집계(또는 로컬 집계)를 통해 로컬 모델을 학습하는 방법.
범주 (1)과 (2)의 pFL 방법은 로컬 초기화를 위해 전역 모델의 모든 정보를 사용합니다(각 반복에서 로컬 훈련 전에 로컬 모델을 초기화하는 것을 의미). 그러나 글로벌 모델에서는 로컬 모델의 품질을 향상시키는 정보(로컬 훈련 목표를 충족하기 위해 클라이언트가 요구하는 정보)만이 클라이언트에게 유익합니다. 글로벌 모델에는 단일 클라이언트에 필요한 정보와 필요하지 않은 정보가 모두 포함되어 있기 때문에 일반화가 잘 되지 않습니다. 따라서 연구자들은 개인화된 집계를 통해 글로벌 모델에서 각 클라이언트가 요구하는 정보를 캡처하기 위해 범주 (3)의 pFL 방법을 제안합니다. 그러나 범주 (3)의 pFL 방법은 (a) 고객의 로컬 교육 목표(FedAMP 및 FedPHP 등)를 고려하지 않고 여전히 존재하며, (b) 계산 및 통신 비용이 높으며(FedFomo 및 APPLE), (c) 개인 정보 유출(예: FedFomo 및 APPLE) 및 (d) 개인화된 집계와 로컬 교육 대상(예: PartialFed) 간의 불일치와 같은 문제. 또한 이러한 방법은 FL 프로세스에 상당한 수정을 가하기 때문에 이들이 사용하는 개인화된 집계 방법은 대부분의 기존 FL 방법에서 직접 사용할 수 없습니다.
FedAvg에 비해 각 반복에서 통신 비용을 늘리지 않고 글로벌 모델에서 클라이언트가 요구하는 정보를 정확하게 캡처하기 위해 저자는 연합 학습을 위한 적응형 로컬 집계 방법(FedALA)을 제안합니다. 그림 1에서 볼 수 있듯이 FedALA는 각 로컬 훈련 전에 ALA(Adaptive Local Aggregation) 모듈을 통해 글로벌 모델과 로컬 모델을 집계하여 글로벌 모델에 필요한 정보를 캡처합니다. FedALA는 다른 FL 프로세스를 변경하지 않고 FedAvg와 비교하여 각 반복에서 로컬 모델 초기화 프로세스를 수정하기 위해 ALA만 사용하므로 ALA를 대부분의 기존 FL 방법에 직접 적용하여 성능을 향상시킬 수 있습니다.
그림 1: 반복 중인 클라이언트의 로컬 학습 프로세스
2.1 적응형 로컬 집계(ALA)
그림 2: 적응형 로컬 집계 (알라) 프로세스
ALA(적응형 로컬 집계) 프로세스는 그림 2에 나와 있습니다. 로컬 초기화 모델 (예: )을 얻기 위해 다운로드한 글로벌 모델 으로 로컬 모델 을 직접 덮어쓰는 기존 연합 학습과 비교하여 FedALA는 각 매개변수에 대한 로컬 모델을 학습합니다. 적응형 로컬 집계를 위한 집계 가중치입니다.
그 중 저자는 을 "업데이트"라고 부릅니다. 또한 저자는 요소별 가중치 가지치기 방법을 통해 정규화를 구현하고 의 값을 [0,1]로 제한합니다.
심층신경망(DNN)의 하위 레이어 네트워크는 상위 레이어에 비해 상대적으로 더 일반적인 정보를 학습하는 경향이 있고, 일반 정보는 각 로컬 모델에서 요구하는 정보이기 때문에 하위 레이어 네트워크는 글로벌 모델 대부분의 정보는 로컬 모델의 하위 수준 네트워크에 필요한 정보와 일치합니다. 로컬 집계 가중치를 학습하는 데 필요한 계산 비용을 줄이기 위해 저자는 ALA의 범위를 제어하는 하이퍼파라미터 p를 도입하여 글로벌 모델의 하위 레이어 네트워크 매개변수가 로컬 모델의 하위 레이어 네트워크를 직접 덮고, 상위 계층에서만 ALA를 활성화합니다.
그 중 은 의 신경망 레이어 수(또는 신경망 블록 수)를 나타내며, 는 의 하위 수준 네트워크 모양과 일치합니다. , 및 은 과 일치합니다. 나머지 p-계층 상위 수준 네트워크는 동일한 모양을 갖습니다.
작성자는 의 모든 값을 1로 초기화하고, 각 로컬 초기화 라운드 동안 이전 을 기반으로 를 업데이트합니다. 계산 비용을 더욱 줄이기 위해 저자는 무작위 샘플링 s
을 사용합니다. 여기서 는 업데이트 의 학습 속도입니다. 학습 과정에서 저자는 을 제외한 다른 훈련 가능한 매개변수를 동결합니다.
그림 3: MNIST 및 Cifar10 데이터 세트에 대한 클라이언트 8의 학습 곡선
더 작은 p 값을 선택하면 FedALA 성능이 FedALA 성능에 거의 영향을 주지 않고 크게 향상됩니다. ALA 훈련에 필요한 매개변수입니다. 또한 그림 3에서 볼 수 있듯이 저자는 첫 번째 훈련에서 수렴하도록 훈련한 후에는 후속 반복에서 훈련하더라도 로컬 모델 품질에 큰 영향을 미치지 않는다는 것을 관찰했습니다. 즉, 각 클라이언트는 이전 을 재사용하여 필요한 정보를 캡처할 수 있습니다. 저자는 계산 비용을 줄이기 위해 후속 반복에서 미세 조정 방법을 채택했습니다.
2.2 ALA 분석
분석에 영향을 주지 않고 단순화를 위해 저자는 을 무시하고 을 가정합니다. 위 공식에 따르면 을 얻을 수 있습니다. 여기서 은 을 나타냅니다. 작성자는 ALA의 업데이트 를 업데이트 로 생각할 수 있습니다.
그라디언트 용어는 각 라운드의 요소별로 크기가 조정됩니다. 위의 업데이트 프로세스는 로컬 모델 학습(또는 미세 조정) 방법과 달리 전역 모델의 공통 정보를 인식할 수 있습니다. 다양한 반복 라운드 사이에 동적으로 변화하는 은 ALA 모듈에 동적 정보를 도입하여 FedALA가 복잡한 환경에 쉽게 적응할 수 있도록 합니다.
저자는 표 1과 같이 실제 데이터 이기종 환경에서 Tiny-ImageNet 데이터 세트에 대한 FedALA의 하이퍼 매개변수 s와 p가 미치는 영향을 연구하기 위해 ResNet-18을 사용했습니다. s의 경우 ALA 모듈 학습을 위해 무작위로 샘플링된 로컬 훈련 데이터를 사용하면 개인화된 모델의 성능이 향상될 수 있지만 계산 비용도 증가합니다. ALA를 사용하는 경우 각 클라이언트의 컴퓨팅 성능에 따라 s의 크기를 조정할 수 있습니다. 표에서 볼 수 있듯이 FedALA는 매우 작은 s(예: s=5)를 사용해도 여전히 뛰어난 성능을 발휘합니다. p의 경우, 서로 다른 p 값은 개인화 모델의 성능에 거의 영향을 미치지 않지만 계산 비용에는 큰 차이가 있습니다. 이 현상은 또한 모델을 분할하고 클라이언트에 업로드하지 않고 출력에 가까운 신경망 계층을 유지하는 FedRep과 같은 방법의 효율성을 한 측면에서 보여줍니다. ALA를 사용할 때 더 작고 적절한 p 값을 사용하면 개인화된 모델의 성능을 보장하면서 계산 비용을 더욱 줄일 수 있습니다.
표 1: 하이퍼파라미터에 대한 연구와 이것이 FedALA에 미치는 영향
저자는 병리학적 데이터 이기종 환경과 실제 데이터 이기종 환경에서 FedALA를 11과 비교했으며 여러 SOTA 방법을 자세히 비교 분석했습니다. 표 2에 표시된 대로 데이터는 FedALA가 모든 경우에 이러한 11가지 SOTA 방법보다 성능이 우수하다는 것을 보여줍니다. 여기서 "TINY"는 Tiny-ImageNet에서 4계층 CNN을 사용하는 것을 의미합니다. 예를 들어, FedALA는 TINY 사례에서 최적 기준을 3.27% 능가합니다.
표 2: 병리학적 및 실제 데이터 이기종 환경에서의 실험 결과
또한 저자는 다양한 이기종 환경 및 총 클라이언트 수에서 FedALA의 성능도 평가했습니다. 표 3에서 볼 수 있듯이 FedALA는 이러한 조건에서도 여전히 우수한 성능을 유지합니다.
표 3: 기타 실험 결과
표 3의 실험 결과에 따르면 ALA 모듈을 다른 방법에 적용하면 최대 24.19%의 성능 향상을 얻을 수 있습니다.
마지막으로 저자는 그림 4와 같이 MNIST의 원래 FL 프로세스에서 모델 훈련에 ALA 모듈 추가가 미치는 영향을 시각화했습니다. ALA가 활성화되지 않은 경우 모델 훈련 궤적은 FedAvg를 사용하는 것과 일치합니다. ALA가 활성화되면 모델은 글로벌 모델에서 캡처된 교육에 필요한 정보를 사용하여 최적의 목표를 향해 직접 최적화할 수 있습니다.
그림 4: 클라이언트 4의 모델 훈련 궤적 시각화
위 내용은 SOTA를 3.27% 앞지르며 Shanghai Jiao Tong University 등은 적응형 로컬 집계의 새로운 방법을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!