近年来,强化学习 (RL) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习,难以利用预先获取的先验知识来辅助决策,导致很大的计算开销。
而在监督学习领域,预训练范式已经被验证为有效的获得可迁移先验知识的方式,通过在大规模数据集上进行预训练,网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试,尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究,让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。
然而,预训练在 RL 领域的应用面临着诸多挑战,例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时,过往研究考虑的实验设定和方法存在很大差异,这令研究者很难在现实场景下设计合适的预训练模型。
为了梳理预训练在 RL 领域的发展以及未来可能的发展方向,来自上海交通大学和腾讯的研究者撰文综述,讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题。
论文地址:https://arxiv.org/pdf/2211.03959.pdf
强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。
然而,机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练,大型基础模型 (foundation models) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而,预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景,但设计大规模 RL 预训练的原则面临诸多挑战。1)领域和任务的多样性;2)有限的数据源;3)快速适应解决下游任务的难度。这些因素源于 RL 的内在特征,需要研究者加以特别考虑。
预训练对 RL 有很大的潜力,这项研究可以作为对这一方向感兴趣的人的起点。本文中,研究者试图对现有深度强化学习的预训练工作进行系统的回顾。
近年来,深度强化学习预训练经历了几次突破性进展。首先,基于专家示范的预训练使用监督学习来预测专家所采取的行动,已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 (offline RL) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。
以往 RL 的成功都是在密集且設計良好的獎勵函數下實現的。在許多領域取得巨大進展的傳統 RL 範式,在擴展到大規模預訓練時面臨兩個關鍵挑戰。首先,RL 智能體很容易過度擬合,用複雜的任務獎勵預訓練得到的智能體很難在從未見過的任務上取得很好的表現。此外,設計獎勵函數通常十分昂貴,需要大量專家知識,這在實際中無疑是個很大的挑戰。
無獎勵訊號的線上預訓練可能會成為學習通用先驗知識的可用解決方案,並且是無需人工參與的監督訊號。線上預訓練旨在沒有人類監督的情況下,透過與環境的互動來獲得先驗知識。在預訓練階段,智能體被允許與環境長時間的交互,但不能獲得外在獎勵。這種解決方案,也被稱為無監督 RL,近年來研究者一直在積極研究。
為了激勵智能體在沒有任何監督訊號的情況下從環境中獲取先驗知識,一種成熟的方法是為智能體設計內在獎勵(intrinsic reward) ,鼓勵智能體透過收集多樣的經驗或掌握可遷移的技能,相應地設計獎勵機制。先前研究已經表明,透過內在獎勵和標準 RL 演算法進行線上預訓練,智能體能夠快速適應下游任務。
儘管線上預訓練在無需人類監督的情況下能夠取得很好的預訓練效果,但對於大規模應用來說,線上預訓練仍然是有限的。畢竟,線上的互動與在大型和多樣化的資料集上進行訓練的需求在一定程度上是互斥的。為了解決這個問題,人們往往希望將資料收集和預訓練環節脫鉤,直接利用從其他智能體或人類收集的歷史資料進行預訓練。
一個可行的解決方案是離線強化學習。離線強化學習的目的是從離線資料中獲得一個獎勵最大化的 RL 策略。其所面臨的一個基本挑戰是分佈偏移問題,即訓練資料和測試期間看到的資料之間的分佈差異。現有的離線強化學習方法著重於如何在使用函數近似時解決這項挑戰。例如,策略約束方法明確要求學到的策略避免採取資料集中未見的動作,價值正則化方法則透過將價值函數擬合到某種形式的下限,緩解了價值函數的高估問題。然而,離線訓練的策略是否能泛化到離線資料集中未見的新環境中,仍沒有充分的探索。
或許,我們可以避開 RL 策略的學習,而是利用離線資料學習有利於下游任務的收斂速度或最終表現的先驗知識。更有趣的是,如果我們的模型能夠在沒有人類監督的情況下利用離線數據,它就有可能從大量的數據中獲益。本文中,研究者將這種設定稱為離線預訓練,智能體可以從離線資料中提取重要的資訊(例如,良好的表徵和行為先驗)。
#在單一環境和單一模態下的預訓練方法主要集中在上述的線上預訓練和離線預訓練設定,而在最近,領域內的研究者對建立一個單一的通用決策模型的興趣激增(例如,Gato [1] 和Multi-game DT [2]),使得同一模型能夠處理不同環境中不同模態的任務。為了使智能體能夠從各種開放式任務中學習並適應這些任務,該研究希望能夠利用不同形式的大量先驗知識,如視覺感知和語言理解。更為重要地是,如果研究者能成功地在 RL 和其他領域的機器學習之間架起一座橋樑,將以前的成功經驗結合起來,或許可以建立一個能夠完成各種任務的通用智能體模型。
以上是系統回顧深度強化學習預訓練,線上、離線等研究這篇就夠了的詳細內容。更多資訊請關注PHP中文網其他相關文章!