搜尋
首頁科技週邊人工智慧系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

近年来,强化学习 (RL) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习,难以利用预先获取的先验知识来辅助决策,导致很大的计算开销。

而在监督学习领域,预训练范式已经被验证为有效的获得可迁移先验知识的方式,通过在大规模数据集上进行预训练,网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试,尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究,让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。

然而,预训练在 RL 领域的应用面临着诸多挑战,例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时,过往研究考虑的实验设定和方法存在很大差异,这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向,来自上海交通大学和腾讯的研究者撰文综述,讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

论文地址:https://arxiv.org/pdf/2211.03959.pdf

RL 预训练简介

强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。

然而,机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练,大型基础模型 (foundation models) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而,预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景,但设计大规模 RL 预训练的原则面临诸多挑战。1)领域和任务的多样性;2)有限的数据源;3)快速适应解决下游任务的难度。这些因素源于 RL 的内在特征,需要研究者加以特别考虑。

预训练对 RL 有很大的潜力,这项研究可以作为对这一方向感兴趣的人的起点。本文中,研究者试图对现有深度强化学习的预训练工作进行系统的回顾。

近年来,深度强化学习预训练经历了几次突破性进展。首先,基于专家示范的预训练使用监督学习来预测专家所采取的行动,已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 (offline RL) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

線上預訓練

以往 RL 的成功都是在密集且設計良好的獎勵函數下實現的。在許多領域取得巨大進展的傳統 RL 範式,在擴展到大規模預訓練時面臨兩個關鍵挑戰。首先,RL 智能體很容易過度擬合,用複雜的任務獎勵預訓練得到的智能體很難在從未見過的任務上取得很好的表現。此外,設計獎勵函數通常十分昂貴,需要大量專家知識,這在實際中無疑是個很大的挑戰。

無獎勵訊號的線上預訓練可能會成為學習通用先驗知識的可用解決方案,並且是無需人工參與的監督訊號。線上預訓練旨在沒有人類監督的情況下,透過與環境的互動來獲得先驗知識。在預訓練階段,智能體被允許與環境長時間的交互,但不能獲得外在獎勵。這種解決方案,也被稱為無監督 RL,近年來研究者一直在積極研究。

為了激勵智能體在沒有任何監督訊號的情況下從環境中獲取先驗知識,一種成熟的方法是為智能體設計內在獎勵(intrinsic reward) ,鼓勵智能體透過收集多樣的經驗或掌握可遷移的技能,相應地設計獎勵機制。先前研究已經表明,透過內在獎勵和標準 RL 演算法進行線上預訓練,智能體能夠快速適應下游任務。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

離線預訓練

儘管線上預訓練在無需人類監督的情況下能夠取得很好的預訓練效果,但對於大規模應用來說,線上預訓練仍然是有限的。畢竟,線上的互動與在大型和多樣化的資料集上進行訓練的需求在一定程度上是互斥的。為了解決這個問題,人們往往希望將資料收集和預訓練環節脫鉤,直接利用從其他智能體或人類收集的歷史資料進行預訓練。

一個可行的解決方案是離線強化學習。離線強化學習的目的是從離線資料中獲得一個獎勵最大化的 RL 策略。其所面臨的一個基本挑戰是分佈偏移問題,即訓練資料和測試期間看到的資料之間的分佈差異。現有的離線強化學習方法著重於如何在使用函數近似時解決這項挑戰。例如,策略約束方法明確要求學到的策略避免採取資料集中未見的動作,價值正則化方法則透過將價值函數擬合到某種形式的下限,緩解了價值函數的高估問題。然而,離線訓練的策略是否能泛化到離線資料集中未見的新環境中,仍沒有充分的探索。

或許,我們可以避開 RL 策略的學習,而是利用離線資料學習有利於下游任務的收斂速度或最終表現的先驗知識。更有趣的是,如果我們的模型能夠在沒有人類監督的情況下利用離線數據,它就有可能從大量的數據中獲益。本文中,研究者將這種設定稱為離線預訓練,智能體可以從離線資料中提取重要的資訊(例如,良好的表徵和行為先驗)。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

邁向通用智能體

#在單一環境和單一模態下的預訓練方法主要集中在上述的線上預訓練和離線預訓練設定,而在最近,領域內的研究者對建立一個單一的通用決策模型的興趣激增(例如,Gato [1] 和Multi-game DT [2]),使得同一模型能夠處理不同環境中不同模態的任務。為了使智能體能夠從各種開放式任務中學習並適應這些任務,該研究希望能夠利用不同形式的大量先驗知識,如視覺感知和語言理解。更為重要地是,如果研究者能成功地在 RL 和其他領域的機器學習之間架起一座橋樑,將以前的成功經驗結合起來,或許可以建立一個能夠完成各種任務的通用智能體模型。

以上是系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
使用AI代理創建個性化的新聞摘要使用AI代理創建個性化的新聞摘要Apr 12, 2025 am 11:18 AM

介紹 大語言模型(LLM)的功能正在迅速發展。它們使我們能夠構建各種LLM應用程序。這些範圍從任務自動化到工作流優化。一個令人興奮的應用程序是

美國AI政策從'安全”到'安全”急劇旋轉美國AI政策從'安全”到'安全”急劇旋轉Apr 12, 2025 am 11:15 AM

總統唐納德·特朗普(Donald Trump)在他的任期的第一天取消了前總統喬·拜登(Joe Biden)的AI行政命令(披露:我在拜登政府期間擔任國土安全部AI的高級顧問),副總統JD VA

什麼是數據庫中的典型化?什麼是數據庫中的典型化?Apr 12, 2025 am 11:10 AM

介紹 想像一下,經營一個繁忙的咖啡館,其中每一秒鐘都很重要。您沒有不斷檢查單獨的庫存和訂單列表,而是將所有關鍵詳細信息整合到一個易於閱讀的板上。這類似於Denormaliza

構建用於內容審核的多模式模型構建用於內容審核的多模式模型Apr 12, 2025 am 10:51 AM

介紹 想像一下,當一條進攻性帖子突然出現時,您正在瀏覽自己喜歡的社交媒體平台。在您點擊報告按鈕之前,它已經消失了。那是內容主音

與洞察員自動化數據見解與洞察員自動化數據見解Apr 12, 2025 am 10:44 AM

介紹 在當今數據繁多的世界中,處理龐大的數據集可能會令人不知所措。這就是洞察力的來源。它旨在使探索您的數據變得輕而易舉。只需上傳您的數據集,您就會獲得Instan

向量流:生鏽的記憶效率索引向量流:生鏽的記憶效率索引Apr 12, 2025 am 10:42 AM

介紹 正在引入嵌入中的矢量流,該功能旨在優化大規模文檔嵌入。使用RUST的並發啟用異步分塊和嵌入,可減少記憶使用情況和

什麼是補充代理? |入門指南-Analytics Vidhya什麼是補充代理? |入門指南-Analytics VidhyaApr 12, 2025 am 10:40 AM

介紹 想像一下,開發與對話相同的應用程序。將沒有復雜的開發環境可以設置,也無需查看配置文件。將概念轉換為有價值的應用程序

使用Lamini-Analytics Vidhya微調開源LLM使用Lamini-Analytics Vidhya微調開源LLMApr 12, 2025 am 10:20 AM

最近,隨著大語言模型和AI的興起,我們看到了自然語言處理方面的無數進步。文本,代碼和圖像/視頻生成等域中的模型具有存檔的人類的推理和P

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用