首頁  >  文章  >  科技週邊  >  Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

WBOY
WBOY轉載
2023-04-12 20:22:011508瀏覽

12月27日,MetaAI 負責視覺和強化學習領域的A

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

#截止27日晚間,這篇推文的閱讀量已經達到73.9k。

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

他表示,僅給出5個演示,MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有具有挑戰性的視覺運動控制任務,大大優於現有的最先進方法。

有多優秀呢?

他們發現MoDem在完成稀疏獎勵任務方面的成功率比低資料機制中的先前方法高出150%-250%

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

Lecun也轉發了這項研究,表示MoDem的模型架構類似於JEPA,可在表徵空間做出預測且無需解碼器。

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

連結小編就放在下面啦,有興趣的夥伴可以看看~

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

論文連結:https://arxiv.org/abs/2212.05698

Github連結:https: //github.com/facebookresearch/modem

研究創新與模型架構

樣本效率低是實際應用部署深度強化學習(RL) 演算法的主要挑戰,尤其是視覺運動控制。

基於模型的RL有可能透過同時學習世界模型並使用合成部署來進行規劃和政策改進,從而實現高樣本效率。

然而在實踐中,基於模型的RL的樣本高效學習受到探索挑戰的瓶頸,這次研究恰恰解決了這些主要挑戰。

首先,MoDem分別透過使用世界模型、模仿RL和自監督視覺預訓練,解決了視覺強化學習/控制領域的三個主要挑戰:

  • 大樣本複雜性(Large sample complexity)
  • 高維狀態與動作空間探索(Exploration in high-dimensional state and action space)
  • 同步視覺表徵與行為學習(Simultaneous learning of visual representations and behaviors)

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

這次的模型架構類似Yann LeCun的JEPA,且無需解碼器。

作者Aravind Rajeswaran表示,相較於Dreamer需要像素級預測的解碼器,架構繁重,無解碼器架構可支援直接插入使用SSL預訓練的視覺表示。

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

此外基於IL RL,他們提出了一個三階段演算法:

#
  • BC預訓練策略
  • 使用包含演示和探索的種子資料集預先訓練世界模型,此階段對於整體穩定性和效率很重要
  • 透過線上互動微調世界模型

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

#結果顯示,產生的演算法在21個硬視覺運動控制任務中取得了SOTA結果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數據來看,MoDem在各項任務中的表現遠優於其他模型,結果比之前的SOTA方法提升了150%到250%。

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

紅色線條為MoDem在各項任務中的表現

在這個過程中,他們也闡明了MoDem中不同階段的重要性、資料增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。

最後,使用凍結的 R3M 功能遠遠優於直接的 E2E 方法。這很令人興奮,表明影片中的視覺預訓練可以支持世界模型。

但8月資料強勁的E2E與凍結的R3M競爭,我們可以透過預訓練做得更好。

Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

#

以上是Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除