強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

王林

Apr 13, 2023 am 10:46 AM

ai強化學習

強化學習（RL）為順序決策提供了一種數學形式，深度強化學習（DRL）近年來也取得巨大進展。然而，樣本效率問題阻礙了在現實世界中廣泛應用深度強化學習方法。為了解決這個問題，一個有效的機制是在 DRL 框架中引入歸納偏壓。

在深度強化學習中，函數逼近器是非常重要的。然而，與監督學習（SL）中的架構設計相比，DRL 中的架構設計問題仍然很少被研究。大多數關於 RL 架構的現有工作都是由監督學習 / 半監督學習社群推動的。例如，在DRL 中處理基於高維度影像的輸入，常見的做法是引入卷積神經網路（CNN）[LeCun et al., 1998; Mnih et al., 2015]；處理部分可觀測性（partial observability）影像的常見做法是引入遞歸神經網路（RNN） [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來，Transformer 架構[Vaswani et al., 2017] 展現出優於CNN 和RNN 的效能，成為越來越多SL 任務中的學習範式[Devlin et al ., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。 Transformer 架構支援對長程（long-range）依賴關係進行建模，並具有優異的可擴展性 [Khan et al., 2022]。受 SL 成功的啟發，人們對將 Transformer 應用於強化學習產生了濃厚的興趣，希望將 Transformer 的優勢應用於 RL 領域。

Transformer 在RL 中的使用可以追溯到Zambaldi 等人2018 年的一項研究，其中自註意力（self-attention）機制被用於結構化狀態表徵的關係推理。隨後，許多研究人員尋求將自註意力應用於表徵學習，以提取實體之間的關係，從而更好地進行策略學習 [Vinyals et al., 2019; Baker et al., 2019]。

除了利用Transformer 進行表徵學習，先前的工作還使用Transformer 捕捉多時序依賴，以處理部分可觀測性問題[Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021 ]。離線 RL [Levine et al., 2020] 因其使用離線大規模資料集的能力而受到關注。受離線RL 的啟發，最近的研究表明，Transformer 結構可以直接作為順序決策的模型[Chen et al., 2021; Janner et al., 2021] ，並推廣到多個任務和領域[Lee et al., 2022; Carroll et al., 2022]。

實際上，在強化學習中使用Transformer 做函數逼近器面臨一些特殊的挑戰，包括：

強化學習智能體（agent）的訓練資料通常是目前策略的函數，這在學習Transformer 的時候會導致不平穩性（non-stationarity）；
現有的RL 演算法通常對訓練過程中的設計選擇高度敏感，包括模型架構和模型容量[Henderson et al., 2018]；
基於Transformer 的架構經常受制於高效能運算和記憶體成本，這使得RL 學習過程中的訓練和推理都很昂貴。

例如，在用於視訊遊戲的AI 中，樣本產生的效率（在很大程度上影響訓練表現）取決於RL 策略網路和估值網路（ value network）的計算成本[Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動強化學習領域發展，來自清華大學、北京大學、智源人工智慧研究院和騰訊公司的研究者聯合發表了一篇關於強化學習中Transformer（即TransformRL）的綜述論文，歸納總結了當前的已有方法和麵臨的挑戰，並討論了未來的發展方向，作者認為TransformRL 將在激發強化學習潛力方面發揮重要作用。

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

論文網址：https://arxiv.org/pdf/2301.03044.pdf

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

#論文的整體架構如下：

第2 章介紹了RL 和Transformer 的背景知識，然後簡要介紹了這兩者是如何結合在一起的；
##第3 章描述了RL 中網路架構的演變，以及長期以來RL 中阻礙廣泛探索Transformer 架構的挑戰；
第4 章論文作者對RL 中的Transformer 進行了分類，並討論了目前具有代表性的方法；
第5 章總結並指出了未來潛在的研究方向。

核心內容從論文第 3 章開始，以下我們來看看論文的主要內容。

RL 中的網路架構

在介紹TransformRL 的分類方法之前，論文回顧了RL 中網路架構設計的早期進展，並總結了其存在的挑戰。作者認為 Transformer 是一種先進的神經網路架構，將有助於深度強化學習（DRL）的發展。

函數逼近器的架構

#自Deep Q-Network [Mnih et al., 2015] 的開創性工作以來，人們為DRL 智能體的網路架構做了許多努力。強化學習中網路架構的改進主要分為兩類。

一類是設計新的結構，結合 RL 歸納偏移來降低訓練策略或價值函數的難度。例如[Wang et al. 2016] 提出決鬥（dueling）網路架構，其中一個網路用於狀態價值函數，另一個用於狀態相關的行動優勢函數（action advantage function），這種架構設計結合了歸納偏置。

另一類是研究常用的神經網路技術（如正規化、殘差連接（skip connection）、批次歸一化）是否可以應用於 RL。例如，[Ota et al. 2020] 發現在使用線上特徵提取器增強狀態表徵的同時增加輸入維度，有助於提高 DRL 演算法的效能和樣本效率。 [Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構，使用殘差連接進行有效學習，並使用歸納偏置來緩解資料處理不平等問題。 [Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表徵學習來改善大型網路的資訊流和梯度。最近，由於 Transformer 的優越效能，研究人員嘗試將 Transformer 架構應用於策略最佳化演算法，但發現普通的 Transformer 設計無法在 RL 任務中達到理想的效能 [Parisotto et al., 2020]。

面臨的挑戰

#雖然過去幾年基於Transformer 的架構在SL 領域取得了許多進展，但將Transformer 應用於RL 並不簡單。實際上，這存在著多個特有的挑戰。

從RL 的角度來看，許多研究指出現有的RL 演算法對深度神經網路的架構非常敏感[Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先，RL 中資料收集和策略最佳化之間的範式交替導致訓練的不平穩。其次，RL 演算法通常對訓練過程中的設計選擇高度敏感。 [Emmons et al. 2021] 證明仔細選擇模型架構和正規化對於 DRL 智能體的表現至關重要。

從 Transformer 的角度來看，基於 Transformer 的架構存在記憶體佔用大、延遲高的問題，這阻礙了它們的高效部署和推理。最近，許多研究圍繞著原始 Transformer 架構對運算和記憶體效率進行改進，但其中大部分工作都集中在 SL 領域。

在 RL 領域，Parisotto 和 Salakhutdinov 提出將基於大容量 Transformer 的學習器模型轉變為小容量的 actor 模型，以避免 Transformer 的高推理延遲。然而，這種方法在記憶體和計算方面仍然很昂貴。目前，RL 社群還未充分探索高效或輕量級的 Transformer。

強化學習中的Transformer

儘管Transformer 已成為大多數監督學習研究的基礎模型，但由於前述挑戰，它在RL 社群中長期未被廣泛應用。實際上，TransformRL 的大多數早期嘗試都將 Transformer 用於狀態表徵學習或提供記憶資訊（memory information），同時仍將標準 RL 演算法用於智能體學習，例如時序差分學習和策略優化。

因此，儘管引入 Transformer 作為函數逼近器，這些方法仍然受到傳統 RL 框架的挑戰。直到最近，離線 RL 使得從大規模離線資料中學習最佳策略成為可能。受離線 RL 的啟發，最近的工作進一步將 RL 問題視為固定經驗的條件序列建模問題。這樣做有助於繞過傳統 RL 中的 bootstrapping error 挑戰，從而使 Transformer 架構釋放其強大的順序建模能力。

論文回顧了 TransformRL 的進展，並按分類展示現有方法。作者將現有方法分為四類：表徵學習、模型學習、順序決策和通用智能體。圖 2 顯示相關分類的概覽。

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

用於表徵學習的Transformer

考慮到RL 任務的順序性，使用Transformer 編碼器模組是合理的。事實上，RL 任務中的各種序列都需要處理，例如局部per-timestep 序列（多實體序列[Vinyals et al., 2019; Baker et al., 2019]、多智能體序列[Wen et al., 2022]）、時序序列（[Parisotto et al., 2020; Banino et al., 2021]）等。

局部per-timestep 序列的編碼器

這種方法早期顯著的成功體現在使用Transformer 處理智能體觀察到的可變數量實體的複雜資訊。 [Zambaldi et al. 2018a] 首先提出用多頭點積注意力捕捉結構化觀察的關係推理，隨後AlphaStar [Vinyals et al., 2019] 實現了在具有挑戰性的多智能體環境（星際爭霸II）中處理多實體觀察。在這個稱為實體Transformer 的機制中，觀察結果以如下形式編碼：

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

#其中e_i 代表智能體對實體i 的觀察，要么直接從整個觀察中切片，要么由實體tokenizer 給出。

一些後續工作豐富了實體 Transformer 機制。 [Hu et al. 2020] 提出了一種相容的解耦策略，以明確地將行動與各種實體相關聯，並利用注意力機制進行策略解釋。為了實現具有挑戰性的 one-shot 視覺模仿，Dasari 和 Gupta [2021] 使用 Transformer 來學習專注於特定任務元素的表徵。

類似於分散在觀測中的實體，一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。 Tang 和 Ha [2021] 利用 Transformer 的注意力機制來處理感知序列並建構一個置換不變性輸入策略。在不相容的多任務 RL 中，[Kurin et al., 2020] 提出使用 Transformer 來提取形態域知識。

時序編碼器

#同時，用 Transformer 處理時序序列也是合理的。時序編碼器被用作儲存架構，

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

#其中o_t 表示智能體在時間t 的觀察，Emb_0:t表示從初始觀察到當前觀察的歷史觀察的嵌入。

在早期的工作中，[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時序序列，並且發現它在某些特定任務中甚至比隨機策略表現更差。 Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個使用 Transformer 作為儲存架構來處理軌跡的有效方案。 GTrXL 透過 Identity Map Reordering 修改 Transformer-XL 架構 [Dai et al., 2019]，以提供從時序輸入到 Transformer 輸出的「skip」路徑，這可能有助於形成從一開始就穩定的訓練過程。 [Loynd et al. 2020] 提出了一種用於長期依賴的記憶向量快速機制，[Irie et al. 2021] 將線性 Transformer 與快速加權程式設計器（Fast Weight Programmer）相結合以獲得更好的效能。 [Melo 2022] 提出使用自註意力機制來模擬基於儲存的元 RL 的儲存恢復。

雖然隨著儲存的成長和參數規模的擴大，Transformer 的效能優於 LSTM/RNN，但它在 RL 上的資料效率不佳。後續工作利用一些輔助自監督任務來促進學習 [Banino et al., 2021] 或使用預先訓練的 Transformer 架構作為時序編碼器 [Li et al., 2022; Fan et al.，2022]。

用於模型學習的Transformer

#除了使用Transformer 作為序列嵌入的編碼器，Transformer 架構還在在基於模型的演算法中作為環境模型的backbone。與以單步驟觀察和行動為條件的預測不同，Transformer 使環境模型能夠預測以一定長度的歷史資訊為條件的變換（transition）。

實際上，Dreamer 及其後續演算法的成功[Hafner et al., 2020, 2021; Seo et al., 2022] 已經在一些部分可觀察的環境或需要記憶機制的任務中證明了基於歷史資訊的世界模型的優點。以歷史資訊為條件的世界模型由一個捕捉抽象資訊的觀察編碼器和一個學習潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構而非 RNN 來建構基於歷史的世界模型。 [Chen et al. 2022] 以基於 Transformer 的模型 TSSM（Transformer State-Space Model）取代 Dreamer 中基於 RNN 的循環狀態空間模型（RSSM）。 IRIS（Imagination with autoRegression over an Inner Speech）[Micheli et al., 2022] 透過對rollout 經驗的自回歸學習來學習基於Transformer 的世界模型，而沒有像Dreamer 那樣的KL 平衡，並在Atari [Bellemare et al ., 2013] 上取得了很好的結果。

此外，有研究嘗試用基於 Transformer 的世界模型做規劃。 [Ozair et al. 2021] 驗證了使用 Transformer 變換模型進行規劃來完成隨機任務的有效性。 [Sun et al. 2022] 提出了一個以目標為條件的 Transformer 變換模型，在程式任務的視覺基礎規劃中是很有效的。

RNN 和 Transformer 都適合學習基於歷史資訊的世界模型。然而，[Micheli et al. 2022] 發現與 Dreamer 相比，Transformer 架構是資料效率更高的世界模型。 TSSM 的實驗結果表明，Transformer 架構在需要長期記憶的任務中表現出眾。

用於順序決策的Transformer

#除了融入傳統RL 演算法中作為高效能架構以外，Transformer也可以直接用作順序決策模型。這是因為可以把 RL 看成一個條件序列建模問題：產生可以產生高回報的行動序列。

強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述

鑑於Transformer 在序列預測上的優異準確性，Bootstrapped Transformer (BooT) [Wang et al., 2022 ] 提出透過bootstrap Transformer 來產生數據，同時優化數據以進行順序決策。 Bootstrapping Transformer 用於資料增強可以擴大離線資料集的數量和覆蓋範圍，從而提升效能。具體地說，BooT 比較了不同的數據生成方案和 bootstraping 方案，以分析 BooT 如何幫助策略學習。結果表明，它可以產生與底層 MDP 一致的數據，而無需額外的限制。

用於通用智能體的 Transformer

Decision Transformer 已經在離線資料的各種任務中發揮巨大作用，有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領域那樣讓通用智能體解決多個不同任務或問題。

泛化到多個任務

#有些研究者藉鑒了CV 和NLP中對大規模資料集進行預訓練的思想，並嘗試從大規模多任務資料集中抽像出通用策略。 Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是DT 的變體，該模型在由專家和非專家資料組成的多樣化資料集上學習DT，並使用一組參數在多個Atari 遊戲上實現接近人類的水平。為了在非專家級資料集上獲得專家級的表現，MGDT 設計了專家行動推理機制，從return-to-go 的先驗分佈計算專家級的return-to-go 後驗分佈並根據貝葉斯公式預設專家級return-to-go 的機率。

同樣，Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是TT 的多任務擴展，利用稀疏激活模型，將FFN 層替換為混合專家層，以實現高效的多任務離線學習。此外，SwitchTT 也採用分散式 trajectory 值估計器對值估計的不確定性進行建模。依靠這兩個增強功能，SwitchTT 在性能和訓練速度方面都比 TT 提升了很多。 MGDT 和 SwitchTT 利用從多個任務和各種效能級策略中收集的經驗來學習通用策略。然而，建構大規模的多任務資料集並非易事。

與CV 和NLP 中的大規模資料集通常使用來自互聯網的海量資料和簡單的人工標記不同，RL 中的順序決策資料總是缺少行動信息，並且不易標記。因此，[Baker et al. 2022] 提出了一種半監督方案，利用沒有行動資訊的大規模線上數據，學習基於 Transformer 的逆向動態模型（IDM）。該模型利用對過去和未來的觀察來預測行動訊息，能夠標記大量線上影片資料。 IDM 是在包含手動標記行動的小型資料集上學習的，並且足夠準確。

NLP 的許多現有工作證明了 prompt 在適應新任務方面的有效性，一些工作利用基於 DT 方法的 prompt 技術來實現快速適應。 Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本（few-shot）示範資料集中取樣一系列變換作為 prompt，並將少樣本策略泛化到離線元 RL 任務上。 [Reed et al. 2022] 進一步利用基於 prompt 的架構，透過在涵蓋自然語言、圖像、時間決策和多模態資料的超大規模資料集上進行自回歸序列建模來學習通用智能體（Gato）。 Gato 能夠執行來自不同領域的一系列任務，包括文本生成和決策。

[Laskin et al. 2022] 提出了演算法蒸餾 (AD)，以在單任務 RL 演算法學習過程的 across-episode 序列上訓練 Transformer。因此，即使在新任務中，Transformer 也可以學會在自回歸生成過程中逐步改進其策略。

泛化到更廣泛領域

#除了泛化到多個任務， Transformer 也是一個強大的「通用」模型，可以用於與順序決策相關的一系列領域。受NLP 中掩碼語言建模（masked language modeling）[Devlin et al., 2018] 技術的啟發，[Carroll et al. 2022] 提出了Uni [MASK]，它將各種常用研究領域統一為mask 推理問題，包括行為克隆、離線RL、GCRL、過去/ 未來推理和動態預測。 Uni [MASK] 比較了不同的 mask 方案，包括任務特定 mask、隨機 mask 和微調變體。結果表明，用隨機 mask 訓練的單一 Transformer 可以解決任意推理任務。

此外，[Reid et al. 2022] 發現，使用在語言資料集或包含語言模態的多模態資料集上預訓練的Transformer 對DT 進行微調是有益的。這表明，即使是來自非 RL 領域的知識也可以透過 transformer 進行 RL 訓練。

有興趣的讀者可以閱讀論文原文，了解更多研究細節。

以上是強化學習中的Transformer發展到哪一步了？清華、北大等聯合發布TransformRL綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客

AI出了問題嗎？現在在那里為此保險May 01, 2025 am 11:11 AM

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題，已聯手引入了新型的第三方責任（TPL）保險產品。該政策保護業務不利

Chatgpt Mobile用途揭示了 - 研究發現一個明確的贏家May 01, 2025 am 11:10 AM

最近對Chatgpt Android應用程序的近89,000個Google Play商店評論的分析顯示了對移動AI使用的令人驚訝的見解。這項由Inboxarmy進行的研究旨在了解用戶的參與度和滿意度。結果繪製了

來自Windsurf的Anshul Ramachandran的想法May 01, 2025 am 11:09 AM

AI徹底改變了軟件開發：Windsurf的Anshul Ramachandran的見解 Andrej Karpathy的“ Vibe編碼”概念雖然引人注目，但反映了AI代碼生成功能的有機演變。像可愛的典範這樣的平台

HP Amplify 2025-新遊戲，商業和消費電腦May 01, 2025 am 11:08 AM

HP在近期發布了大量新款PC，部分原因是為了滿足企業升級2020年和2021年（新冠疫情高峰期）過時電腦的需求，以及應對Windows 10即將失去支持的問題。 (注：惠普是Moor Insights & Strategy公司的諮詢客戶。) 面向消費者和遊戲玩家的HP OmniBook系列首先來看OmniBook系列。該系列始於OmniBook X系列，今年新增了14英寸和16英寸的翻轉版本，以及一款更大的17.3英寸的傳統筆記本電腦。這三款筆記本電腦都將搭載最新的英特爾酷睿Ultra

See all articles