ホームページ >テクノロジー周辺機器 >AI >Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-12 20:22:011607ブラウズ

#12 月 27 日、

#、MetaAI の A

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

## 27日夕方現在、このツイートの読書量は73.9kに達しました。

彼は、わずか 5 つのデモンストレーションで、MoDem は 10 万のインタラクションステップで、報酬がまばらで高次元のアクションスペースの問題を解決できると述べました。困難な視覚的モーション制御タスクに対する最先端の手法。

それはどれほど優れていますか? 彼らは、MoDem が低データ領域での以前の方法よりも、まばらな報酬タスクの完了において 150% ～ 250% 高い成功率を達成したことを発見しました。

## ＃＃＃＃。 Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

Lecun 氏はまた、この研究を転送し、MoDem のモデルアーキテクチャは JEPA に似ており、デコーダを必要とせずに表現空間で予測を行うことができると述べました。。 Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

#編集者が以下にリンクを貼っていますので、ご興味があればご覧ください~

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

紙のリンク: https://arxiv.org/abs/2212.05698

Github リンク: https://arxiv.org/abs/2212.05698 : //github.com/facebookresearch/modem

研究のイノベーションとモデルアーキテクチャ

サンプル効率が低いということは、深層強化学習の導入の実用化です ( RL) アルゴリズム主な課題、特に視覚運動制御。

モデルベースの RL には、ワールドモデルの学習と計画とポリシーの改善のための合成デプロイメントの使用を同時に行うことで、高いサンプル効率を達成できる可能性があります。

しかし、実際には、モデルベースの RL におけるサンプルの効率的な学習は探索の課題によってボトルネックになっており、この研究はこれらの主な課題を正確に解決します。

まず、MoDem は、ワールドモデルを使用し、RL と自己教師あり視覚事前トレーニングをそれぞれ模倣することで、視覚強化学習/制御の分野における 3 つの主要な課題を解決します。

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

#これモデルアーキテクチャは、Yann LeCun の JEPA に似ており、デコーダを必要としません。

著者の Aravind Rajeswaran 氏は、ピクセルレベルの予測にデコーダが必要で重いアーキテクチャを持つ Dreamer と比較して、デコーダのないアーキテクチャは、事前に視覚表現の直接挿入をサポートできると述べました。 -SSLを使用してトレーニングされています。

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

さらに、IL RL に基づいて、次の 3 段階のアルゴリズムを提案しました。

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

##結果は、生成されたアルゴリズムは、Adroit の器用な操作、MetaWorld、DeepMind コントロールスイートを含む、ハードビジュアルモーションコントロールタスクで 21 の SOTA 結果 (最先端の結果) を達成しました。

データの観点から見ると、MoDem はさまざまなタスクにおいて他のモデルよりもはるかに優れたパフォーマンスを発揮し、結果は以前の SOTA 手法よりも 150% ～ 250% 高くなります。

Meta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決

#赤い線は、さまざまなタスクにおける MoDem のパフォーマンスを示しています。

このプロセスでは、MoDem のさまざまな段階の重要性、ビジュアル MBRL のデータ拡張の重要性、事前トレーニングされたビジュアル表現の有用性についても明らかにしています。

最後に、凍結された R3M 機能を使用することは、直接的な E2E アプローチよりもはるかに優れています。これは刺激的であり、ビデオからの視覚的な事前トレーニングが世界モデルをサポートできることを示しています。

しかし、8 月の強力なデータを持つ E2E は凍結された R3M と競合します。事前トレーニングを通じてより良い結果を得ることができます。

以上がMeta が MoDem ワールドモデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

続きを見る

Meta が MoDem ワールド モデルを発表: LeCun が提案した、視覚分野における 3 つの主要な課題を解決