ホームページ > 記事 > テクノロジー周辺機器 > ナンダ・ユー・ヤンの詳細な解釈: 「世界モデル」とは何ですか?
メディアがSoraを熱狂的に宣伝する中、OpenAIの紹介資料ではSoraを「ワールドシミュレーター」と呼んでおり、ワールドモデルという言葉が再び目にするようになりましたが、ワールドモデルを紹介する記事はほとんどありません。
ここでは、ワールド モデルとは何かを確認し、Sora がワールド シミュレーターであるかどうかについて説明します。
AIの分野で世界/世界や環境/環境という言葉が出てくるとき、通常は知的体・エージェントと区別するためである。
ほとんどのエージェントが研究される分野は、強化学習とロボット工学です。
したがって、ワールド モデルとワールド モデリングは、ロボット工学分野の論文で最も早く、最も頻繁に登場していることがわかります。
今日最も影響力のある世界モデルという言葉は、Jurgen が 2018 年に arxiv に投稿した「世界モデル」という名前のこの記事かもしれません。この記事は最終的に「反復世界モデル」というタイトルになりました。タイトル「Facilitate Policy Evolution」がNeurIPS'18で公開されました。
この論文では、ワールド モデルとは何かを定義していませんが、その代わりに、認知科学における人間の脳のメンタル モデルに類推し、以下のことを引用しています。文学の1971年。
メンタル モデルは、人間の脳が周囲の世界を映し出す鏡像です。
導入されたメンタル モデルWikipedia では、認知、推論、意思決定のプロセスに関与している可能性があることが明確に指摘されています。メンタル モデルに関しては、主にメンタル表現とメンタル シミュレーションの 2 つの部分が含まれます。
外部現実の内部表現。認知、推論、意思決定において主要な役割を果たすと仮説が立てられています。この用語は 1943 年にケネス・クレイクによって造られ、心は「
#まだ少しわかりにくいですが、論文の構造図は世界モデルが何であるかを明確に説明しています。
#図の垂直方向の V->z は、VAE で実装された観測の低次元表現であり、水平方向の M- >h->M->h は次の瞬間を予測するシーケンスの表現であり、RNN を使用して実装されます。2 つの部分が合計されてワールド モデルになります。つまり、ワールド モデルには主に状態表現と遷移モデルが含まれており、これは精神的表現と精神的シミュレーションにも対応します。
上の図を見ると、配列予測はすべて世界モデルではないのではないかと思うかもしれません。
実際、強化学習に慣れている学生であれば、この図の構造が間違っている (不完全である) ことが一目でわかり、実際の構造は下の図です。 RNN の特徴は、It's z だけではなく、アクションもあります。これは通常のシーケンス予測ではありません (アクションの追加は大きく異なりますか? はい、アクションを追加するとデータ分布を自由に変更できるため、大きな課題が生じます)。
#Jurgen の論文は強化学習の分野に属します。
それでは、強化学習にはモデルベースの RL がたくさんあるのではないでしょうか? モデルとワールド モデルの違いは何でしょうか?答えは、違いはなく、同じものです。 Jurgen 氏は最初に次の段落を述べました
基本的な意味は、モデルベースの RL がどれだけ機能しても、私は RNN のパイオニアであり、RNN は RNN のパイオニアであるということです。モデルを作る人。発明したもの、ただやりたいだけです。
Jurgen の記事の初期バージョンでは、モデルベースの RL についても多く言及していましたが、モデルを学習しましたが、そのモデルで RL を完全にはトレーニングしていませんでした。
RL はモデル内で完全にはトレーニングされていません。実際、これはモデルベースの RL のモデル間の違いではなく、モデルベースの RL の方向性に対する長年の不満です。精度が十分ではなく、トレーニングは完全にモデル内にあるため、RL 効果は非常に貧弱です。この問題は近年になってやっと解決されました。
賢いサットンは、ずっと前に不正確なモデルの問題に気づきました。 1990 年に、Dyna フレームワークを提案した論文「Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming」(会議となる最初のワークショップである ICML で発表) では、このモデルをアクション モデルと呼び、結果の予測を強調しました。アクションの実行。
RL は、不適切な戦略による不正確なモデル学習を防ぐために、モデル (5 行目) から学習しながら実際のデータ (3 行目) から学習します。
#ご覧のとおり、世界モデルは意思決定にとって非常に重要です。正確な世界モデルが得られれば、その世界モデルの中で試行錯誤することで現実の最適な決定を見つけることができます。
これは世界モデルの中核機能です。反事実推論/反事実推論、つまり、データに表示されていない決定であっても、世界では決定を推論できます。の結果をモデル化します。
因果推論を理解している学生は、反事実推論という用語に精通しているでしょう。チューリング賞を受賞したジューデア パールは、人気のある科学書「なぜ」の中で、最も低いレベルの因果関係のはしごを描いています。それは「関連付け」であり、今日のほとんどの予測モデルが主に行っていることです。中間層は「介入」であり、強化学習での探索は典型的な介入です。最上層は反事実的であり、想像力を通じてもしもの質問に答えます。反事実的推論のためにユダヤ人が描いた模式図は、科学者が脳内で想像したものであり、ユルゲンが論文で使用した模式図に似ています。
#左: ユルゲンの論文の世界モデルの概略図。右: ユダヤの本の原因と結果のはしご。
ここで、AI 研究者による世界モデルの追求は、データを超越し、反事実的な推論を行い、「もしも」の質問に答える能力を追求する試みであると結論付けることができます。これは人間が本来持っている能力ですが、現在のAIはまだ非常に苦手です。ブレークスルーが実現すれば、AIの意思決定能力が大幅に向上し、完全自動運転などのシナリオ応用が可能になる。
#シミュレータという言葉は工学分野でよく使われ、ワールド モデルと同じように機能します。現実の実装では高コスト、高リスクの試行錯誤が必要になります。 OpenAI はフレーズを再構成したいようですが、意味は同じままです。
Sora によって生成されるビデオは、曖昧なプロンプトの言葉によってのみ誘導されるため、正確に制御することが困難です。したがって、これはどちらかというとビデオ ツールであり、「もしも」の質問に正確に答えるための反事実推論ツールとして使用するのは困難です。
デモビデオと訓練データがどの程度異なるのかがまったく不明であるため、ソラの生成能力がどの程度強力であるかを評価することさえ困難です。
さらに残念なことに、これらのデモは、ソラが物理法則を正確に学習していないことを示していることです。 Sora によって生成されたビデオの物理法則との矛盾を指摘している人を見たことがあります [OpenAI、Vincent ビデオ モデル Sora をリリース、AI は動いている物理世界を理解できます。これは世界モデルですか?それはどういう意味ですか? ]
OpenAI は、CG によって生成されたデータも含め、非常に十分なトレーニング データに基づいてこれらのデモをリリースしていると思います。しかし、それでも、変数が少ない方程式で記述できる物理法則はまだ理解されていません。
OpenAI は、Sora が物理世界のシミュレーターへの道を証明すると信じていますが、単にデータを積み重ねるだけでは、より高度なインテリジェント テクノロジーへの道ではないようです。
以上がナンダ・ユー・ヤンの詳細な解釈: 「世界モデル」とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。