AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす-AI-php.cn

ホームページ

テクノロジー周辺機器

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

PHPz

Apr 15, 2023 pm 06:07 PM

一般知能は複数の分野の課題を解決する必要があります。強化学習アルゴリズムにはこの可能性があると考えられていますが、新しいタスクに適応させるために必要なリソースと知識によって妨げられてきました。 DeepMind の新しい研究では、研究者らは、固定ハイパーパラメータを使用した幅広い領域で以前の手法を上回る、一般的でスケーラブルなワールドモデルベースのアルゴリズムである DreamerV3 を実証しています。

DreamerV3 は、連続アクションと離散アクション、視覚的入力と低次元入力、2D と 3D の世界、さまざまなデータ量、報酬頻度、報酬レベルなどのドメインに準拠しています。 DreamerV3 は、人間のデータや積極的な教育を必要とせずに、Minecraft でダイヤモンドをゼロから収集する最初のアルゴリズムであることは言及する価値があります。。研究者らは、このような一般的なアルゴリズムは強化学習の広範な応用を可能にし、難しい意思決定の問題にも拡張できる可能性があると述べている。

ダイヤモンドは、ゲーム「Minecraft」で最も人気のあるアイテムの 1 つです。ゲーム内で最も希少なアイテムの 1 つであり、ゲーム内のほとんどのアイテムの作成に使用できます。 . 最も強力な道具、武器、防具。ダイヤモンドは岩石の最も深い層でのみ発見されるため、産出量は少ないです。

DreamerV3 は、人によるデモやクラスの手動作成を必要とせずに、Minecraft でダイヤモンドを収集する最初のアルゴリズムです。 このビデオでは、ゲーム時間 17 日あたり 3,000 万の環境ステップ内で発生した最初のダイヤモンドの収集を示しています。

AI による Minecraft のプレイについてまったくご存じない方のために、NVIDIA AI 科学者のジムファン氏は、囲碁をプレイする AlphaGo と比較して、Minecraft のタスクの数は無制限であり、環境の変化も無制限であると述べています。、知識にも隠された情報があります。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

人間にとって、Minecraft で探索したり建築したりするのは興味深いものですが、Go は少し複雑に思えますが、AI にとってはその逆です。 AlphaGo は 6 年前に人間のチャンピオンを破りましたが、現在では Minecraft の人間のマスターと競合できるアルゴリズムは存在しません。

すでに 2019 年の夏に、Minecraft の開発会社は、ゲーム内でダイヤモンドを見つけることができる AI アルゴリズムに報酬を提供する「ダイヤモンドチャレンジ」を提案しました。、提出 660 を超えるエントリーのうち、この任務を遂行できた AI は 1 つもありませんでした。

しかし、DreamerV3 の出現により、この状況は変わりました。Diamond は、複雑な探索と計画を必要とする、高度に組み合わされた長期的なタスクです。新しいアルゴリズムは、人工的なデータの支援なしでこれを達成できます。 . ケースのダイヤモンドを集めます。効率には改善の余地があるかもしれませんが、AI エージェントがダイヤモンドを一から収集する方法を学習できるようになったという事実は、重要なマイルストーンです。 DreamerV3 メソッドの概要論文「ワールドモデルによる多様なドメインのマスタリング」:

論文リンク: https://arxiv.org/abs/2301.04104v1

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DreamerV3 アルゴリズムは 3 つのニューラルネットワーク、つまりワールドモデル (ワールドモデル）、評論家、俳優。 3 つのニューラルネットワークは、勾配を共有せずにリプレイエクスペリエンスに基づいて同時にトレーニングされます。下の図 3(a) はワールドモデルの学習を示し、図 (b) は Actor Critic の学習を示します。

クロスドメインの成功を達成するには、これらのコンポーネントがさまざまな信号振幅に適応し、ターゲット全体で項のバランスを確実にとる必要があります。学習は同じドメイン内の同様のタスクだけでなく、固定ハイパーパラメータを使用して異なるドメイン間でも行われるため、これは困難です。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DeepMind では、まず未知の桁数を予測するための単純な変換について説明し、次に世界モデル、批評家、主体、およびそれらの堅牢な学習目標を紹介します。 KL 均衡とフリービットを組み合わせることで、ワールドモデルを調整なしで学習できるようになり、小さなリターンを誇張することなく大きなリターンを縮小することで固定ポリシーのエントロピー正則化を実現できることがわかりました。

シンログ予測

#入力を再構築し、報酬と値を予測することは、そのスケールがドメインごとに異なる可能性があるため、困難です。大きなターゲットを予測するために二乗損失を使用すると発散が生じますが、絶対損失とフーバー損失は学習を停滞させます。一方、運用統計に基づく正規化目標では、最適化に非定常性が導入されます。したがって、DeepMind は、この問題の簡単な解決策として symlog 予測を提案します。

これを行うために、入力 x とパラメーター θ を持つニューラルネットワーク f (x, θ) は、ターゲット y の変換されたバージョンを予測することを学習します。ネットワークの予測 y^ を読み取るために、DeepMind は以下の式 (1) に示すように逆変換を使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

以下の図 4 からわかるように、負の値を持つターゲットは、変換として対数を使用して予測できません。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

したがって、DeepMind は、symlog という名前の対称対数族から関数を変換として選択し、symexp 関数を逆関数として使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

symlog 関数は、大きな正および負の値のサイズを圧縮します。 DreamerV3 は、デコーダ、報酬予測器、およびクリティカルで symlog 予測を使用し、エンコーダの入力を圧縮するために symlog 関数も使用します。

世界モデルの学習

世界モデルは、自動エンコーディングを通じて感覚入力のコンパクトな表現を学習し、表現に対する将来の報酬を予測します。計画を実行するための潜在的な行動。

上の図 3 に示すように、DeepMind はワールドモデルをリカレント状態空間モデル (RSSM) として実装します。まず、エンコーダが感覚入力 x_t をランダム表現 z_t にマッピングし、その後、再発状態 h_t を持つシーケンスモデルが、過去のアクション a_t−1 を考慮したこれらの表現のシーケンスを予測します。 h_t と z_t の連結によりモデル状態が形成され、そこから報酬 r_t とエピソード継続性フラグ c_t ∈ {0, 1} が予測され、以下の式 (3) に示すように、情報表現を保証するために入力が再構築されます。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

# 以下の図 5 は、世界の長期ビデオ予測を視覚化したものです。エンコーダとデコーダは、視覚入力には畳み込みニューラルネットワーク (CNN) を使用し、低次元入力には多層パーセプトロン (MLP) を使用します。動的予測子、報酬予測子、持続性予測子も MLP であり、これらの表現はソフトマックス分布のベクトルからサンプリングされます。 DeepMind は、サンプリングステップでパススルーグラデーションを使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

俳優批評家の学習

俳優批評家のニューラルネットワークは、世界モデル抽象的なシーケンスで学習された行動を予測します。 DeepMind は、環境との対話中に、事前計画を必要とせずに、アクターネットワークからサンプリングすることによってアクションを選択します。

アクターと批評家はモデル状態 AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらすで動作し、ワールドモデルによって学習されたマルコフ表現の恩恵を受けることができます。アクターの目標は、モデル状態ごとに割引係数 γ = 0.997 で期待収益 AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす # を最大化することです。予測範囲 T = 16 を超える報酬を考慮するために、批評家は現在のアクターの行動を考慮して各状態の報酬を予測する方法を学習します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

再生された入力の表現から開始して、動的予測子とアクターは予期されるモデル状態のシーケンス s_1 を生成します。 :T 、アクション a_1:T 、報酬 r_1:T 、および継続フラグ c_1:T 。予測期間外の報酬のリターンを推定するために、DeepMind は期待されるリターンと価値を統合するブートストラップされた λ リターンを計算します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

実験結果

DeepMind は、固定ハイパーパラメーターの下でさまざまなドメイン (150 以上のタスク) にわたる DreamerV3 の汎用性とスケーラビリティを評価するために広範な実証研究を実施し、既存の SOTA メソッドと比較しました。比較のための文献。 DreamerV3 は、挑戦的なビデオゲーム Minecraft にも適用されました。

DreamerV3 の場合、DeepMind は確率的トレーニング戦略のパフォーマンスを直接レポートし、決定論的戦略による個別の評価実行を回避することでセットアップを簡素化します。すべての DreamerV3 エージェントは Nvidia V100 GPU でトレーニングされます。以下の表 1 は、ベンチマークの概要を示しています。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DreamerV3 の汎用性を評価するために、DeepMind は、連続および離散アクション、ビジョン、低次元入力を含む 7 つのドメインで広範な実証評価を実施しました。、密な報酬と疎な報酬、さまざまな報酬スケール、2D 世界と 3D 世界、手続き型生成。以下の図 1 の結果では、すべてのベンチマークで固定ハイパーパラメーターを使用しながら、DreamerV3 がすべてのドメインで強力なパフォーマンスを達成し、そのうち 4 つで以前のすべてのアルゴリズムを上回っていることがわかります。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす