Transformers+世界模型，竟能拯救深度強化學習？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Transformers+世界模型，竟能拯救深度強化學習？

王林

May 04, 2023 am 09:19 AM

世界模型建模iris

很多人都知道，當年打敗李世石、柯潔等一眾國際頂尖棋手的AlphaGo一共迭代了三個版本，分別是戰勝李世石的一代目AlphaGo Lee、戰勝柯潔的二代目AlphaGo Master，以及吊打前兩代的三代目AlphaGo Zero。

AlphaGo的棋藝能夠逐代遞增，背後其實是在AI技術上一個出現了明顯的變化趨勢，就是強化學習的比重越來越大。

到了近幾年，強化學習又發生了一次「進化」，人們把「進化」後的強化學習，稱為深度強化學習。

但深度強化學習代理的樣本效率低下，這極大地限制了它們在實際問題中的應用。

最近，許多基於模型的方法被設計來解決這個問題，在世界模型的想像中學習是最突出的方法之一。

然而，雖然與模擬環境幾乎無限的交互作用聽起來很吸引人，但世界模型必須在很長一段時間內保持準確。

受Transformer在序列建模任務中的成功啟發，康乃爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介紹了IRIS，這是一種資料高效代理，它在由離散自編碼器和自回歸Transformer組成的世界模型中學習。

在Atari 100k基準測試中，在僅相當於兩個小時的遊戲時間裡，IRIS的平均人類標準化得分為1.046，並且在26場比賽中的10場比賽中表現優於人類。

此前，LeCun曾說，強化學習會走進死胡同。

Transformers+世界模型，竟能拯救深度強化學習？

現在看來，康乃爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人，正在將世界模型與強化學習（更準確地說是深度強化學習）融為一體，而連接兩者的橋樑，便是Transformers。

深度強化學習有什麼不一樣

一提到人工智慧技術，很多人能想到的，還是深度學習上。

其實，雖然深度學習仍活躍在AI領域，但已經暴露出許多問題。

現在深度學習用得最多的就是有監督學習。有監督學習不妨理解成“有參考答案的學習”，它有一個特點，就是數據必須經過標識才能用於訓練。但現在海量的數據是未標識數據，標識成本很高。

以至於針對這個局面，有人調侃道「有多少人工，就有多少智慧」。

很多研究人員，甚至包括有不少的大牛都在反思，琢磨深度學習是不是「錯了」。

於是，強化學習開始崛起了。

強化學習和有監督學習、無監督學習都不太一樣，它是用智能體不斷地試錯，並按試錯結果獎懲AI。這是DeepMind家做各種棋牌AI、遊戲AI的路數。這種路徑的信徒認為，只要獎勵激勵設定對頭，強化學習終將創造出真正AGI。

但強化學習也有問題，用LeCun的話來說，就是「強化學習要用巨量資料才能訓練模型執行最簡單任務」。

於是強化學習與深度學習進行了結合，成為深度強化學習。

深度強化學習，強化學習是骨架，深度學習是靈魂，這是什麼意思呢？深度強化學習的主要運作機制，其實與強化學習是基本一致的，只不過使用了深度神經網路來完成這個過程。

更有甚者，有的深度強化學習演算法，乾脆直接在現成的強化學習演算法上，透過添加深度神經網路來實現一套新的深度強化學習演算法，非常有名的深度強化學習演算法DQN就是典型的例子。

Transformers有什麼神奇之處

Transformers首次亮相於2017年，是Google的論文《Attention is All You Need》中提出的。

在 Transformer出現之前，人工智慧在語言任務上的進展一直落後於其他領域的發展。「在過去10年發生的這場深度學習革命中，自然語言處理在某種程度上是後來者，」馬薩諸塞大學洛厄爾分校的電腦科學家Anna Rumshisky 說，「從某種意義上說，NLP曾落後於電腦視覺，而Transformer改變了這一點。」

近年來，Transformer機器學習模型已成為深度學習和深度神經網路技術進步的主要亮點之一。它主要用於自然語言處理中的高級應用。谷歌正在使用它來增強其搜尋引擎結果。

Transformer很快就成為專注於分析和預測文字的單字辨識等應用程式的領導者。它引發了一波工具浪潮，例如OpenAI的GPT-3可以在數千億個單字上進行訓練並產生連貫的新文字。

目前，Transformer架構不斷發展並擴展到多種不同的變體，從語言任務擴展到其他領域。例如，Transformer已被用於時間序列預測，同時也是DeepMind的蛋白質結構預測模型 AlphaFold背後的關鍵創新。

Transformer最近也進入了電腦視覺領域，在許多複雜任務中它們正在慢慢取代卷積神經網路(CNN)。

世界模式與Transformers聯手，其他人怎麼看

對於康乃爾大學的研究成果，有外國網友評論道：「請注意，這兩個小時是來自環境的鏡頭長度，在GPU上進行訓練需要一週的時間」。

還有人質疑：所以這個系統在一個特別精確的潛在世界模型上學習？該模型不需要預先訓練嗎？

另外，有人覺得，康乃爾大學的文森特·米凱利等人的成果並沒有破天荒的突破：「似乎他們只是訓練了世界模型，vqvae和演員評論家，所有這些都來自那2小時的經驗（和大約600個紀元）的重播緩衝區」。

參考資料：https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

以上是Transformers+世界模型，竟能拯救深度強化學習？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A