12月27日,MetaAI 負責視覺和強化學習領域的A
#截止27日晚間,這篇推文的閱讀量已經達到73.9k。
他表示,僅給出5個演示,MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有具有挑戰性的視覺運動控制任務,大大優於現有的最先進方法。
有多優秀呢?
他們發現MoDem在完成稀疏獎勵任務方面的成功率比低資料機制中的先前方法高出150%-250%。
Lecun也轉發了這項研究,表示MoDem的模型架構類似於JEPA,可在表徵空間做出預測且無需解碼器。
連結小編就放在下面啦,有興趣的夥伴可以看看~
論文連結:https://arxiv.org/abs/2212.05698
Github連結:https: //github.com/facebookresearch/modem
樣本效率低是實際應用部署深度強化學習(RL) 演算法的主要挑戰,尤其是視覺運動控制。
基於模型的RL有可能透過同時學習世界模型並使用合成部署來進行規劃和政策改進,從而實現高樣本效率。
然而在實踐中,基於模型的RL的樣本高效學習受到探索挑戰的瓶頸,這次研究恰恰解決了這些主要挑戰。
首先,MoDem分別透過使用世界模型、模仿RL和自監督視覺預訓練,解決了視覺強化學習/控制領域的三個主要挑戰:
這次的模型架構類似Yann LeCun的JEPA,且無需解碼器。
作者Aravind Rajeswaran表示,相較於Dreamer需要像素級預測的解碼器,架構繁重,無解碼器架構可支援直接插入使用SSL預訓練的視覺表示。
此外基於IL RL,他們提出了一個三階段演算法:
##結果顯示,產生的演算法在21個硬視覺運動控制任務中取得了SOTA結果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。
從數據來看,MoDem在各項任務中的表現遠優於其他模型,結果比之前的SOTA方法提升了150%到250%。
紅色線條為MoDem在各項任務中的表現
在這個過程中,他們也闡明了MoDem中不同階段的重要性、資料增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。
最後,使用凍結的 R3M 功能遠遠優於直接的 E2E 方法。這很令人興奮,表明影片中的視覺預訓練可以支持世界模型。
但8月資料強勁的E2E與凍結的R3M競爭,我們可以透過預訓練做得更好。
#以上是Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發的詳細內容。更多資訊請關注PHP中文網其他相關文章!