設想一下,當你站在房間內,準備往門口走去,你是透過自回歸的方式逐步規劃路徑嗎?實際上,你的路徑是一次性整體生成的。
最新研究指出,利用擴散模型的規劃模組可以同時產生長序列的軌跡規劃,更符合人類的決策方式。此外,擴散模型在策略表徵和資料合成方面也能為現有的決策智慧演算法提供更優化的方案。
來自上海交通大學的團隊撰寫的綜述論文《Diffusion Models for Reinforcement Learning: A Survey》梳理了擴散模型在強化學習相關領域的應用。綜述指出現有強化學習演算法面臨長序列規劃誤差累積、策略表達能力受限、互動資料不足等挑戰,而擴散模型已展現出解決強化學習問題中的優勢,並為應對上述長期以來的挑戰帶來新的思路。
論文連結:https://arxiv.org/abs/2311.01223
計畫網址: https://github.com/apexrl/Diff4RLSurvey
此綜述對擴散模型在強化學習中的作用進行了分類,總結了不同強化學習場景中擴散模型的成功案例。最後,綜述展望了未來利用擴散模型解決強化學習問題的發展方向。
圖中展示了擴散模型在經典智能體-環境-經驗回放池循環中的作用。與傳統解決方案相比,擴散模型為系統引入了新的元素,提供了更全面的資訊互動和學習機會。透過這種方式,智能體能夠更好地適應環境變化,並且優化其決策
擴散模型在強化學習中扮演的角色
文章根據擴散模型在強化學習中扮演角色的不同,分類比較了擴散模型的應用方式和特徵。
圖 2:擴散模型在強化學習中扮演的不同角色。
軌跡規劃
# 強化學習中的規劃指透過使用動態模型在想像中做決策,再選擇最大化累積獎勵的適當動作。規劃的過程通常會探索各種動作和狀態的序列,進而提升決策的長期效果。在基於模型的強化學習(MBRL)框架中,規劃序列通常以自回歸方式進行模擬,導致累積誤差。擴散模型可以同時產生多步驟規劃序列。現有文章以擴散模型產生的目標非常多樣,包括 (s,a,r)、(s,a)、僅 s、僅有 a 等等。為了在線上評估時產生高獎勵的軌跡,許多工作使用了有分類器或無分類器的引導採樣技術。
策略表徵
#擴散規劃器更近似傳統強化學習中的MBRL,與之相對,將擴散模型作為策略更類似無模型強化學習。 Diffusion-QL 首先將擴散策略與 Q 學習架構結合。由於擴散模型擬合多模態分佈的能力遠超傳統模型,擴散策略在由多個行為策略所取樣的多模態資料集中表現良好。擴散策略與普通策略相同,通常以狀態為條件產生動作,同時考慮最大化 Q (s,a) 函數。 Diffusion-QL 等方法在擴散模型訓練時加上加權的價值函數項,而 CEP 從能量的視角建構加權迴歸目標,用價值函數作為因子,調整擴散模型學到的動作分佈。
資料合成
#擴散模型可以作為資料合成器,來緩解離線或線上強化學習中資料稀少的問題。傳統強化學習資料增強方法通常只能對原有資料進行小幅擾動,而擴散模型強大的分佈擬合能力使其可以直接學習整個資料集的分佈,再取樣新的高品質資料。
其他類型
除了以上幾類,還有一些零散的工作以其他方式使用擴散模型。例如,DVF 利用擴散模型估計值函數。 LDCQ 先將軌跡編碼到隱空間上,再在隱空間上應用擴散模型。 PolyGRAD 以擴散模型學習環境動態轉移,讓策略和模型互動來提升策略學習效率。
在不同強化學習相關問題的應用
#離線強化學習
##擴散模型的引入有助於離線強化學習策略擬合多模態資料分佈並擴展了策略的表徵能力。 Diffuser 首先提出了基於分類器指導的高獎勵軌跡生成演算法並啟發了大量的後續工作。同時,擴散模型也能應用在多工與多智能體強化學習場景。
圖3:Diffuser 軌跡產生過程與模型示意圖
線上強化學習
研究者證明擴散模型對線上強化學習中的價值函數、策略也具備最佳化能力。例如,DIPO 對動作資料重標註並使用擴散模型訓練,使策略避免了基於價值引導訓練的不穩定性;CPQL 則驗證了單步採樣擴散模型作為策略能夠平衡交互時的探索和利用。
模仿學習
#模仿學習透過學習專家示範資料來重建專家行為。擴散模型的應用有助於提高策略表徵能力以及學習多樣的任務技能。在機器人控制領域,研究發現擴散模型能夠在保持時序穩定性的條件下預測閉環動作序列。 Diffusion Policy 採用影像輸入的擴散模型產生機器人動作序列。實驗顯示擴散模型能夠產生有效閉環動作序列,同時確保時序一致性。
圖4:Diffusion Policy 模型示意圖
軌跡產生
擴散模型在強化學習中的軌跡生成主要聚焦於人類動作生成以及機器人控制兩類任務。擴散模型產生的動作資料或視訊資料被用來建立模擬模擬器或訓練下游決策模型。 UniPi 訓練了一個視訊生成擴散模型作為通用策略,透過連接不同的逆動力學模型來得到底層控制命令,實現跨具身的機器人控制。
圖 5:UniPi 決策流程示意圖。
資料增強量
#擴散模型也可以直接擬合原始資料分佈,在維持真實性的前提下提供多樣的動態擴展資料。例如,SynthER 和 MTDiff-s 透過擴散模型產生了訓練任務的完整環境轉移資訊並將其應用於策略的提升,且結果顯示生成資料的多樣程度以及準確性都優於歷史方法。
圖6:MTDiff 進行多任務規劃和資料增強的示意圖
未來展望
生成式模擬環境
#如圖1 所示,現有研究主要利用擴散模型來克服智能體和經驗回放池的局限性,利用擴散模型增強模擬環境的研究比較少。 Gen2Sim 利用文生圖擴散模型在模擬環境中產生多樣化的可操作物件來提高機器人精密操作的泛化能力。擴散模型還有可能在模擬環境中產生狀態轉移函數、獎勵函數或多智能體互動中的對手行為。
加入安全性限制#
透過將安全約束作為模型的取樣條件,基於擴散模型的智能體可以做出滿足特定限制的決策。擴散模型的引導採樣允許透過學習額外的分類器來不斷加入新的安全約束,而原始模型的參數保持不變,從而節省額外的訓練開銷。
檢索增強生成
#檢索增強生成技術能夠透過存取外部資料集增強模型能力,在大語言模型上得到廣泛的應用。透過檢索與智能體當前狀態相關的軌跡並輸入到模型中,基於擴散的決策模型在這些狀態下的表現同樣可能得到提升。如果檢索資料集不斷更新,智能體有可能在不重新訓練的情況下表現出新的行為。
組合多種技能
#與分類器引導或無分類器引導結合,擴散模型可以組合多種簡單技能來完成複雜任務。離線強化學習中的早期結果也表明擴散模型可以共享不同技能之間的知識,從而有可能透過組合不同技能實現零樣本遷移或持續學習。
表格
#圖 7:相關論文總結分類表格。
以上是擴散模型如何建構新一代決策智能體?超越自回歸,同時產生長序列規劃軌跡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。