本文介紹的是一篇收錄於AAAI 2023 的論文,論文由位於上海交通大學的上海市可擴展計算與系統重點實驗室、貝爾法斯特女王大學的華揚老師和路易斯安那州立大學的王灝老師共同完成。
- 論文連結:https://arxiv.org/abs/2212.01197
- #程式碼連結(包含ALA模組的使用說明):https://github.com/TsingZ0/FedALA
該論文提出了一種用於聯邦學習的自適應本地聚合方法,透過從全局模型中自動捕獲客戶機所需資訊的方式來應對聯邦學習中的統計異質性問題。作者比較了 11 個 SOTA 模型,並取得了超越最優方法 3.27% 的優異表現。作者將其中的自適應本地聚合模組應用到其他聯邦學習方法上取得了最多 24.19% 的提升。
1 介紹
聯邦學習(FL)透過將使用者隱私資料保留在本地而不進行傳播的方式,幫助人們在保護隱私的情況下,充分發掘用戶資料中蘊含的價值。但由於客戶機之間資料不可見,資料的統計異質性(資料非獨立同分佈(non-IID)和資料量不平衡現象)便成了 FL 的巨大挑戰之一。資料的統計異質性使得傳統聯邦學習方法(如 FedAvg 等)很難透過 FL 流程訓練得到適用於每個客戶機的單一全局模型。
近年來,個人化聯邦學習(pFL)方法因其應對數據統計異質性的能力受到了越來越多的關注。與尋求高品質全局模型的傳統 FL 不同,pFL 方法的目標是藉助聯邦學習的協同運算能力為每個客戶機訓練適用於自身的個人化模型。現有的伺服器上聚合模型的pFL 研究可以分為以下三類:
(1) 學習單一全域模型並對其進行微調的方法,包括Per-FedAvg 和FedRep;
(2) 學習額外個人化模型的方法,包括pFedMe 和Ditto;
##(3) 透過個人化聚合(或本地聚合)學習本地模型的方法,包括FedAMP、FedPHP、FedFomo、APPLE 和PartialFed。
類別(1)和(2)中的 pFL 方法將全域模型中的所有資訊用於本地初始化(指在每次迭代的局部訓練之前初始化局部模型)。然而,在全局模型中,只有提高本地模型品質的資訊(符合本地訓練目標的客戶機所需資訊)才對客戶機有益。全域模型的泛化能力較差是因為其中同時存在對於單一客戶機來說需要和不需要的資訊。因此,研究者提出類別(3)中的 pFL 方法,透過個人化聚合來捕捉全局模型中每個客戶機所需的資訊。但是,類別(3)中的pFL 方法依舊存在(a)沒有考慮客戶機本地訓練目標(如FedAMP 和FedPHP)、(b)計算代價和通訊代價較高(如FedFomo 和APPLE)、(c)隱私洩漏(如FedFomo 和APPLE)和(d)個人化聚合與本地訓練目標不符(如PartialFed)等問題。此外,由於這些方法對 FL 過程做了大量修改,因此它們使用的個人化聚合方法並不能直接用於大多數現有 FL 方法。
為了從全局模型中精確地捕獲客戶機所需信息,且相比於FedAvg 不增加每一輪迭代中的通訊代價,作者提出了一種用於聯邦學習的自適應本地聚合方法(FedALA)。如圖 1 所示,FedALA 在每次本地訓練之前,透過自適應本地聚合(ALA)模組將全局模型與本地模型進行聚合的方式,捕捉全局模型中的所需資訊。由於FedALA 相比於FedAvg 僅使用ALA 修改了每一輪迭代中的本地模型初始化過程,而沒有改變其他FL 過程,因此ALA 可直接應用於大多數現有的其他FL 方法,以提升它們的個性化表現。
#
圖1:在第次迭代中客戶機上的本機學習過程
#2 方法
##2.1自適應本地聚合(ALA)
圖2:自適應本地聚合(ALA)過程
自適應本地聚合(ALA)流程如圖2 所示。相較於傳統聯邦學習中直接將下載的全域模型覆蓋本地模型得到本地初始化模型#的方式(即),FedALA 透過為每個參數學習本地聚合權重,進行自適應本地聚合。
其中,作者把這一項稱之為“更新」。此外,作者透過逐元素權重剪枝方法
實現正規化並將
中的值限制在 [0,1] 中。
因為深度神經網路(DNN)的較低層網路相比於較高層傾向於學習相對更通用的信息,而通用信息是各個本地模型所需信息,所以全域模型中較低層網路中的大部分資訊與本地模型中較低層網路所需資訊一致。為了降低學習本地聚合權重所需的計算代價,作者引入一個超參數p 來控制ALA 的作用範圍,使得全局模型中較低層網絡參數直接覆蓋本地模型中的較低層網絡,而只在較高層啟用ALA。
其中,表示
中的神經網路層數(或神經網路區塊數),
與
中的低層網路形狀一致,
則與中剩下的p 層高層網絡形狀一致。
作者將中的值全部初始化為 1,並且在每一輪本地初始化過程中基於舊的
更新
。為了進一步降低計算代價,作者採用隨機取樣s
#其中,是更新
的學習率。作者在學習
的過程中,將除
之外的其他可訓練參數凍結。
#圖3:在MNIST 與Cifar10 資料集上8 號客戶機的學習曲線
透過選擇較小的p 值,在幾乎不影響FedALA 表現的情況下,大幅降低ALA 中訓練所需的參數。此外,如圖 3,作者觀察到:一旦在第一次訓練將其訓練到收斂,即使在後續迭代中訓練
,其對本地模型品質也沒有很大影響。也就是說,每個客戶機可以重複使用舊的
實現對其所需資訊的捕獲。作者採取在後續迭代中微調
的方式,降低計算代價。
2.2 ALA 分析
#在不影響分析的情況下,為了簡單起見,作者忽略並設
。根據上述公式可以得到
,其中
代表
。作者可以把在 ALA 中更新
看成更新
。
梯度項目#在每一輪中都做了逐元素地縮放。有別於本地模型訓練(或 fine-tuning)方法,上述對
的更新過程能夠感知到全域模型中的通用資訊。在不同的迭代輪數之間,動態變化的
為 ALA 模組引入了動態訊息,使其 FedALA 容易適應複雜的環境。
3 實驗
作者在實際(practical)資料異質環境下的Tiny-ImageNet 資料集上用ResNet-18 進行了對超參數s 和p的FedALA 影響的研究,如表1 所示。對於 s 來說,採用越多的隨機採樣的本地訓練資料用於 ALA 模組學習可以使個人化模型表現更好,但也同時增加了計算代價。在使用 ALA 的過程中,可以根據每個客戶機的運算能力調整 s 的大小。從表中可以得知,即使使用極小的 s(如 s=5),FedALA 依舊具有傑出的表現。對 p 來說,不同的 p 值對個人化模型的表現幾乎沒有影響,在計算代價上卻有著巨大的差異。這個現像也從一個側面展示了 FedRep 等方法,將模型分割後保留靠近輸出的神經網路層在客戶機不上傳的做法的有效性。使用 ALA 時,我們可以採用較小且合適的 p 值,在保證個人化模型表現能力的情況下,進一步降低計算代價。
表1:關於超參數與對FedALA 影響的研究
# #作者在病態(pathological)資料異質環境和實際(practical)資料異質環境下,將FedALA 與11 個SOTA 方法進行了比較和詳細分析。如表 2 所示,數據顯示 FedALA 在這些情況下的表現都超越了這 11 個 SOTA 方法,其中 “TINY” 表示在 Tiny-ImageNet 上使用 4-layer CNN。例如,FedALA 在 TINY 情況下比最優基線(baseline)高了 3.27%。
表2:病態與實際資料異質環境下的實驗結果
此外,作者也在不同異質性環境和客戶機總量情況下評估了FedALA 的表現。如表 3 所示,FedALA 在這些情況下依舊保持著優異的表現。
表3:其他實驗結果
根據表3 的實驗結果,將ALA 模組應用於其他方法可以獲得最多24.19% 的提升。
最後,作者也在 MNIST 上視覺化了 ALA 模組的加入對原本 FL 過程中模型訓練的影響,如圖 4 所示。當不活化 ALA 時,模型訓練軌跡與使用 FedAvg 一致。一旦 ALA 被激活,模型便可以透過全局模型中捕獲的其訓練所需資訊直直朝著最優目標最佳化。
圖 4:4 號客戶機上模型訓練軌跡的視覺化圖
#以上是超越SOTA 3.27%,交大等提出自適應本地聚合新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。