多智能體強化學習(MARL) 是一個具有挑戰性的問題,它不僅需要識別每個智能體的策略改進方向,而且還需要將單一智能體的策略更新聯合起來,以提高整體性能。最近,這個問題已得到初步解決,有研究人員引入了集中訓練分散執行 (CTDE) 的方法,使智能體在訓練階段可以存取全局資訊。然而,這些方法無法涵蓋多智能體互動的全部複雜性。
事實上,其中一些方法也被證明是失敗的。為了解決這個問題,有人提出多智能體優勢分解定理。在此基礎上,HATRPO 和 HAPPO 演算法被推導出來。然而,這些方法也存在局限性,這些方法仍然依賴精心設計的最大化目標。
近年來,序列模型(SM)在自然語言處理(NLP)領域取得了實質進展。如 GPT 系列、BERT 在廣泛的下游任務上表現出色,並且在小樣本泛化任務上取得了較強的性能。
由於序列模型與語言的序列特性自然契合,因此可用於語言任務,但是序列方法不僅限於 NLP 任務,而是廣泛適用的通用基礎模型。例如,在電腦視覺 (CV) 中,可以將影像分割成子圖並將它們按序列排列,就好像它們是 NLP 任務中的 token 一樣 。近期比較有名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。
隨著 Transformer 等網路架構的出現,序列建模技術也引起了 RL 社群的極大關注,這促進了一系列基於 Transformer 架構的離線 RL 開發。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。
儘管這些方法取得了顯著的成功,但沒有一種方法被設計用來建模多智能體系統中最困難(也是MARL 獨有的) 的方面——智能體之間的互動。事實上,如果簡單地賦予所有智能體一個 Transformer 策略,並對其進行單獨訓練,這仍然不能保證能提高 MARL 聯合性能。因此,雖然有大量強大的序列模型可用,但 MARL 並沒有真正利用序列模型效能優勢。
如何用序列模型解決 MARL 問題?來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體Transformer(MAT,Multi-Agent Transformer)架構,該架構可以有效地將協作MARL 問題轉化為序列模型問題,其任務是將智能體的觀測序列映射到智能體的最優動作序列。
本文的目標是在 MARL 和 SM 之間建立橋樑,以便為 MARL 釋放現代序列模型的建模能力。 MAT 的核心是編碼器- 解碼器架構,它利用多智能體優勢分解定理,將聯合策略搜尋問題轉化為序列決策過程,這樣多智能體問題就會表現出線性時間複雜度,最重要的是,這樣做可以確保MAT 單調效能提升。與 Decision Transformer 等先前技術需要預先收集的離線資料不同,MAT 以線上策略方式透過來自環境的線上試驗和錯誤進行訓練。
- #論文網址:https://arxiv.org/pdf/2205.14953 .pdf
- 專案首頁:https://sites.google.com/view/multi-agent-transformer
為了驗證MAT,研究者在StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和Google Research Football 基準上進行了廣泛的實驗。結果表明,與 MAPPO 和 HAPPO 等強基線相比,MAT 具有更好的效能和資料效率。此外,研究也證明了無論智能體的數量如何變化,MAT 在沒見過的任務上表現較好,可是說是個優秀的小樣本學習者。
背景知識
在本節中,研究者首先介紹了協作 MARL 問題公式和多智能體優勢分解定理,這是本文的基石。然後,他們回顧了現有的與 MAT 相關的 MARL 方法,最後引出了 Transformer。
傳統多智能體學習範式(左)與多智能體序列決策範式(右)的比較。
問題公式
協作MARL 問題通常由離散的部分可觀察馬可夫決策過程(Dec-POMDPs)#來建模。
多智能體優勢分解定理
智能體透過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值,定義如下。
定理 1(多智能體優勢分解):設 i_1:n 為智能體的排列。如下公式始終成立,無需進一步假設。
重要的是,定理 1 提供了一種用來引導如何選擇漸進式改進行動的直覺。
現有MARL 方法
研究者總結了目前兩種SOTA MARL 演算法,它們都建構在近端策略優化(Proximal Policy Optimization, PPO)之上。 PPO 是一種以簡潔性和性能穩定性聞名的 RL 方法。
多智能體近端策略最佳化(MAPPO)是第一個將 PPO 應用於 MARL 中的最直接方法。
異構智能體近端策略最佳化(HAPPO)是目前的SOTA 演算法之一,它可以充分利用定理(1) 以實現具有單調提升保證的多智能體信任域學習。
Transformer 模型
#基於定理(1) 中所述的序列屬性以及HAPPO 背後的原理,現在可以直觀地考慮使用Transformer 模型來實現多智能體信任域學習。透過將一個智能體團隊視為一個序列,Transformer 架構允許建模具有可變數量和類型的智能體團隊,同時可以避免 MAPPO/HAPPO 的缺點。
多智能體 Transformer
為了實現 MARL 的序列建模範式,研究者提供的解決方案是多智能體 Transformer(MAT)。應用Transformer 架構的思路源自於這樣一個事實,即智能體觀察序列(o^i_1,...,o^i_n) 輸入與動作序列(a^ i_1 , . . . , a^i_n)輸出之間的映射是類似機器翻譯的序列建模任務。如同定理 (1) 所迴避的,動作 a^i_m 依賴先前所有智能體的決策 a ^i_1:m−1。
因此,如下圖(2)所示,MAT 中包含了一個用於學習聯合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。
編碼器的參數以φ 表示,它以任意順序取得觀察序列(o^i_1 , . . . , o^i_n),並將它們傳遞通過幾個計算塊。每個區塊都由一個自註意力機制、一個多層感知機(MLP)和殘差連接組成,以防止隨深度增加而出現梯度消失和網路退化。
解碼器的參數以θ表示,它將嵌入的聯合動作a^i_0:m−1 , m = {1, . . . n}(其中a^i_0 是指示解碼開始的任意符號)傳遞到解碼塊序列。至關重要的是,每個解碼區塊都有一個遮罩的自註意力機制。為了訓練解碼器,研究者將如下裁剪 PPO 目標最小化。
MAT 中的詳細資料流如下動圖所示。
實驗結果
為了評估MAT 是否符合預期,研究者在星海爭霸II 多智能體挑戰(SMAC)基準(MAPPO 在之上具有優越性能)和多智能體MuJoCo 基準上(HAPPO 在之上具有SOTA 性能)對MAT 進行了測試。
此外,研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準上了對 MAT 進行了擴展測試。前者提供了一系列具有挑戰性的雙手操作任務,後者提供了一系列足球遊戲中的合作場景。
最後,由於Transformer 模型通常在小樣本任務上表現出強大的泛化性能,因此研究者相信MAT 在未見過的MARL 任務上也能具有類似強大的泛化能力。因此,他們在 SMAC 和多智能體 MuJoCo 任務上設計了零樣本和小樣本實驗。
協作MARL 基準上的效能
如下表1 與圖4 所示,對於SMAC、多智能體MuJoCo 和Bi-DexHands 基準來說,MAT 在幾乎所有任務上都顯著優於MAPPO 和HAPPO,顯示它在同構和異構智能體任務上強大的建構能力。此外,MAT 還得到了優於 MAT-Dec 的性能,顯示了 MAT 設計中解碼器架構的重要性。
#同樣地,研究者在Google Research Football 基準上也得到了類似的性能結果,如下圖5 所示。
MAT 用於小樣本學習
表2 和表3 中總結了每個演算法的零樣本和小樣本結果,其中粗體數字表示最佳性能。
研究者也提供了資料相同情況下 MAT 的效能,其與對照組一樣從頭開始訓練。如下表所示,MAT 獲得了大多數最佳成績,這證明了 MAT 小樣本學習的強大泛化表現。
以上是星海爭霸II協作對抗基準超越SOTA,新型Transformer架構解決多智能體強化學習問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境