星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 08:31 AM

架構強化學習智慧

多智能體強化學習(MARL) 是一個具有挑戰性的問題，它不僅需要識別每個智能體的策略改進方向，而且還需要將單一智能體的策略更新聯合起來，以提高整體性能。最近，這個問題已得到初步解決，有研究人員引入了集中訓練分散執行 (CTDE) 的方法，使智能體在訓練階段可以存取全局資訊。然而，這些方法無法涵蓋多智能體互動的全部複雜性。

事實上，其中一些方法也被證明是失敗的。為了解決這個問題，有人提出多智能體優勢分解定理。在此基礎上，HATRPO 和 HAPPO 演算法被推導出來。然而，這些方法也存在局限性，這些方法仍然依賴精心設計的最大化目標。

近年來，序列模型（SM）在自然語言處理（NLP）領域取得了實質進展。如 GPT 系列、BERT 在廣泛的下游任務上表現出色，並且在小樣本泛化任務上取得了較強的性能。

由於序列模型與語言的序列特性自然契合，因此可用於語言任務，但是序列方法不僅限於 NLP 任務，而是廣泛適用的通用基礎模型。例如，在電腦視覺 (CV) 中，可以將影像分割成子圖並將它們按序列排列，就好像它們是 NLP 任務中的 token 一樣。近期比較有名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網路架構的出現，序列建模技術也引起了 RL 社群的極大關注，這促進了一系列基於 Transformer 架構的離線 RL 開發。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。

儘管這些方法取得了顯著的成功，但沒有一種方法被設計用來建模多智能體系統中最困難(也是MARL 獨有的) 的方面——智能體之間的互動。事實上，如果簡單地賦予所有智能體一個 Transformer 策略，並對其進行單獨訓練，這仍然不能保證能提高 MARL 聯合性能。因此，雖然有大量強大的序列模型可用，但 MARL 並沒有真正利用序列模型效能優勢。

如何用序列模型解決 MARL 問題？來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體Transformer(MAT，Multi-Agent Transformer)架構，該架構可以有效地將協作MARL 問題轉化為序列模型問題，其任務是將智能體的觀測序列映射到智能體的最優動作序列。

本文的目標是在 MARL 和 SM 之間建立橋樑，以便為 MARL 釋放現代序列模型的建模能力。 MAT 的核心是編碼器- 解碼器架構，它利用多智能體優勢分解定理，將聯合策略搜尋問題轉化為序列決策過程，這樣多智能體問題就會表現出線性時間複雜度，最重要的是，這樣做可以確保MAT 單調效能提升。與 Decision Transformer 等先前技術需要預先收集的離線資料不同，MAT 以線上策略方式透過來自環境的線上試驗和錯誤進行訓練。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

#論文網址：https://arxiv.org/pdf/2205.14953 .pdf
專案首頁：https://sites.google.com/view/multi-agent-transformer

為了驗證MAT，研究者在StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和Google Research Football 基準上進行了廣泛的實驗。結果表明，與 MAPPO 和 HAPPO 等強基線相比，MAT 具有更好的效能和資料效率。此外，研究也證明了無論智能體的數量如何變化，MAT 在沒見過的任務上表現較好，可是說是個優秀的小樣本學習者。

背景知識

在本節中，研究者首先介紹了協作 MARL 問題公式和多智能體優勢分解定理，這是本文的基石。然後，他們回顧了現有的與 MAT 相關的 MARL 方法，最後引出了 Transformer。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

傳統多智能體學習範式（左）與多智能體序列決策範式（右）的比較。

問題公式

協作MARL 問題通常由離散的部分可觀察馬可夫決策過程（Dec-POMDPs）星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題 #來建模。

多智能體優勢分解定理

智能體透過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值，定義如下。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

定理 1（多智能體優勢分解）：設 i_1:n 為智能體的排列。如下公式始終成立，無需進一步假設。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

重要的是，定理 1 提供了一種用來引導如何選擇漸進式改進行動的直覺。

現有MARL 方法

研究者總結了目前兩種SOTA MARL 演算法，它們都建構在近端策略優化（Proximal Policy Optimization, PPO）之上。 PPO 是一種以簡潔性和性能穩定性聞名的 RL 方法。

多智能體近端策略最佳化（MAPPO）是第一個將 PPO 應用於 MARL 中的最直接方法。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

異構智能體近端策略最佳化（HAPPO）是目前的SOTA 演算法之一，它可以充分利用定理(1) 以實現具有單調提升保證的多智能體信任域學習。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題

Transformer 模型

#基於定理(1) 中所述的序列屬性以及HAPPO 背後的原理，現在可以直觀地考慮使用Transformer 模型來實現多智能體信任域學習。透過將一個智能體團隊視為一個序列，Transformer 架構允許建模具有可變數量和類型的智能體團隊，同時可以避免 MAPPO/HAPPO 的缺點。

多智能體 Transformer

為了實現 MARL 的序列建模範式，研究者提供的解決方案是多智能體 Transformer（MAT）。應用Transformer 架構的思路源自於這樣一個事實，即智能體觀察序列（o^i_1，...，o^i_n）輸入與動作序列（a^ i_1 , . . . , a^i_n）輸出之間的映射是類似機器翻譯的序列建模任務。如同定理 (1) 所迴避的，動作 a^i_m 依賴先前所有智能體的決策 a ^i_1:m−1。

因此，如下圖（2）所示，MAT 中包含了一個用於學習聯合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

星海爭霸II協作對抗基準超越SOTA，新型Transformer架構解決多智能體強化學習問題