搜尋
首頁科技週邊人工智慧系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

近年来,强化学习 (RL) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习,难以利用预先获取的先验知识来辅助决策,导致很大的计算开销。

而在监督学习领域,预训练范式已经被验证为有效的获得可迁移先验知识的方式,通过在大规模数据集上进行预训练,网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试,尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究,让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。

然而,预训练在 RL 领域的应用面临着诸多挑战,例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时,过往研究考虑的实验设定和方法存在很大差异,这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向,来自上海交通大学和腾讯的研究者撰文综述,讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

论文地址:https://arxiv.org/pdf/2211.03959.pdf

RL 预训练简介

强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。

然而,机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练,大型基础模型 (foundation models) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而,预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景,但设计大规模 RL 预训练的原则面临诸多挑战。1)领域和任务的多样性;2)有限的数据源;3)快速适应解决下游任务的难度。这些因素源于 RL 的内在特征,需要研究者加以特别考虑。

预训练对 RL 有很大的潜力,这项研究可以作为对这一方向感兴趣的人的起点。本文中,研究者试图对现有深度强化学习的预训练工作进行系统的回顾。

近年来,深度强化学习预训练经历了几次突破性进展。首先,基于专家示范的预训练使用监督学习来预测专家所采取的行动,已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 (offline RL) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

線上預訓練

以往 RL 的成功都是在密集且設計良好的獎勵函數下實現的。在許多領域取得巨大進展的傳統 RL 範式,在擴展到大規模預訓練時面臨兩個關鍵挑戰。首先,RL 智能體很容易過度擬合,用複雜的任務獎勵預訓練得到的智能體很難在從未見過的任務上取得很好的表現。此外,設計獎勵函數通常十分昂貴,需要大量專家知識,這在實際中無疑是個很大的挑戰。

無獎勵訊號的線上預訓練可能會成為學習通用先驗知識的可用解決方案,並且是無需人工參與的監督訊號。線上預訓練旨在沒有人類監督的情況下,透過與環境的互動來獲得先驗知識。在預訓練階段,智能體被允許與環境長時間的交互,但不能獲得外在獎勵。這種解決方案,也被稱為無監督 RL,近年來研究者一直在積極研究。

為了激勵智能體在沒有任何監督訊號的情況下從環境中獲取先驗知識,一種成熟的方法是為智能體設計內在獎勵(intrinsic reward) ,鼓勵智能體透過收集多樣的經驗或掌握可遷移的技能,相應地設計獎勵機制。先前研究已經表明,透過內在獎勵和標準 RL 演算法進行線上預訓練,智能體能夠快速適應下游任務。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

離線預訓練

儘管線上預訓練在無需人類監督的情況下能夠取得很好的預訓練效果,但對於大規模應用來說,線上預訓練仍然是有限的。畢竟,線上的互動與在大型和多樣化的資料集上進行訓練的需求在一定程度上是互斥的。為了解決這個問題,人們往往希望將資料收集和預訓練環節脫鉤,直接利用從其他智能體或人類收集的歷史資料進行預訓練。

一個可行的解決方案是離線強化學習。離線強化學習的目的是從離線資料中獲得一個獎勵最大化的 RL 策略。其所面臨的一個基本挑戰是分佈偏移問題,即訓練資料和測試期間看到的資料之間的分佈差異。現有的離線強化學習方法著重於如何在使用函數近似時解決這項挑戰。例如,策略約束方法明確要求學到的策略避免採取資料集中未見的動作,價值正則化方法則透過將價值函數擬合到某種形式的下限,緩解了價值函數的高估問題。然而,離線訓練的策略是否能泛化到離線資料集中未見的新環境中,仍沒有充分的探索。

或許,我們可以避開 RL 策略的學習,而是利用離線資料學習有利於下游任務的收斂速度或最終表現的先驗知識。更有趣的是,如果我們的模型能夠在沒有人類監督的情況下利用離線數據,它就有可能從大量的數據中獲益。本文中,研究者將這種設定稱為離線預訓練,智能體可以從離線資料中提取重要的資訊(例如,良好的表徵和行為先驗)。

系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了

邁向通用智能體

#在單一環境和單一模態下的預訓練方法主要集中在上述的線上預訓練和離線預訓練設定,而在最近,領域內的研究者對建立一個單一的通用決策模型的興趣激增(例如,Gato [1] 和Multi-game DT [2]),使得同一模型能夠處理不同環境中不同模態的任務。為了使智能體能夠從各種開放式任務中學習並適應這些任務,該研究希望能夠利用不同形式的大量先驗知識,如視覺感知和語言理解。更為重要地是,如果研究者能成功地在 RL 和其他領域的機器學習之間架起一座橋樑,將以前的成功經驗結合起來,或許可以建立一個能夠完成各種任務的通用智能體模型。

以上是系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。