ホームページ >テクノロジー周辺機器 >AI >ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

PHPzオリジナル: 2024-06-13 10:12:24457ブラウズ

ワールドモデルは、安全かつサンプル効率の高い方法で強化学習エージェントをトレーニングする方法を提供します。最近、世界モデルは主に環境力学をシミュレートするために離散的な潜在変数シーケンスで動作しています。

ただし、コンパクトな離散表現に圧縮するこの方法では、強化学習にとって重要な視覚的な詳細が無視される可能性があります。一方で、拡散モデルは画像生成の主流の方法となっており、離散潜在モデルに課題をもたらしています。

このパラダイムシフトによって促進され、ジュネーブ大学、エディンバラ大学、Microsoft Research の研究者は共同で、拡散世界モデル - DIAMOND (環境の夢のモデルとしての拡散) で訓練された強化学習エージェントを提案しました。

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

論文アドレス: https://arxiv.org/abs/2405.12399
プロジェクトアドレス: https://github.com/eloialonso/ダイヤモンド
論文のタイトル: ワールドモデリングの普及: Atari におけるビジュアルの詳細が重要

Atari 100k ベンチマークでは、DIAMOND+ は平均 1.46 の Human Normalized Score (HNS) を達成しました。これは、ワールドモデルでトレーニングされたエージェントは、ワールドモデルでトレーニングされたエージェントの SOTA レベルで完全にトレーニングできることを意味します。この研究は、拡散世界モデルの長期にわたる効率的な安定性を確保するには、DIAMOND 設計の選択が必要であることを示す安定性分析を提供します。

画像空間で動作する利点に加えて、拡散ワールドモデルが環境を直接表現できるようになり、ワールドモデルとエージェントの動作についてのより深い理解が得られます。特に、この研究では、特定のゲームのパフォーマンス向上は、主要なビジュアル詳細のモデリングを改善することによってもたらされることがわかりました。

手法の紹介

次に、この記事では、拡散世界モデルで訓練された強化学習エージェントである DIAMOND を紹介します。具体的には、セクション 2.2 で導入したドリフト係数 f と拡散係数 g に基づいてこれを作成します。これらは拡散パラダイムの特定の選択に対応します。さらに、この研究では Karras らの論文に基づいた EDM 配合も選択しました。

まず、摂動カーネルワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明を定義します。ここでは、ノイズスケジュールと呼ばれる、拡散時間に関連する実数値関数です。これは、ドリフト係数と拡散係数をワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明とに設定することに対応します。

次に、Karras et al. (2022) によって導入されたネットワーク前処理を使用し、式 (5) のワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明をノイズのある観測値とニューラルネットワークの予測値の加重和としてパラメータ化します。 (6)

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

ここで、簡潔に定義するために、にはすべての条件変数が含まれます。

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

プリプロセッサの選択。プリプロセッサワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明とは、あらゆるノイズレベルでネットワーク入出力の単位分散を維持するために選択されます。はノイズレベルの経験的変換であり、ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明はとデータ分布の標準偏差によって与えられ、式は

式5と6を組み合わせると、ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明のトレーニングターゲットが得られます:

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

この研究では、標準の U-Net 2D を使用してベクトル場ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明を構築し、過去の L 個の観測とアクションを含むバッファーを保持することでモデルを条件付けします。次に、これらの過去の観測値をチャネルごとに次のノイズのある観測値と連結し、適応グループ正規化層を通じてアクションを U-Net の残差ブロックに入力しました。セクション 2.3 と付録 A で説明したように、トレーニングされた拡散モデルから次の観測値を生成するためのサンプリング方法は数多くあります。研究によって公開されたコードベースは複数のサンプリングスキームをサポートしていますが、オイラー法は追加の NFE (関数評価の数) を必要とせず、高次サンプラーやランダムサンプリングの不必要な複雑さを回避することが効果的であることがわかりました。

実験

DIAMOND を完全に評価するために、調査では確立された Atari 100k ベンチマークを使用しました。このベンチマークには、エージェントの幅広い機能をテストするための 26 のゲームが含まれています。各ゲームについて、エージェントには、評価される前にゲームのプレイ方法を学習するために、環境内で 100,000 回のアクションのみが許可されました。これは、人間のゲーム時間の約 2 時間に相当します。参考までに、制約のない Atari エージェントは通常、5,000 万ステップのトレーニングを受けます。これは、経験の 500 倍の増加に相当します。研究者たちは、5 つのランダムなシードを使用して、各ゲームで DIAMOND をゼロからトレーニングしました。各実行には約 12 GB の VRAM が使用され、単一の Nvidia RTX 4090 で約 2.9 日かかりました (合計 1.03 GPU 年)。

表 1 は、世界モデルでエージェントをトレーニングするためのさまざまなスコアを比較しています。

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

平均と IQM (四分位平均) 信頼区間を図 2 に示します。

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

結果は、DIAMOND がベンチマークで優れたパフォーマンスを示し、11 試合で人間のプレイヤーを上回り、HNS スコア 1.46 を達成しました。これは、完全に世界モデルでトレーニングされたエージェントの新記録です。この調査では、DIAMOND が、Asterix、Breakout、Road Runner など、細部のキャプチャが重要な環境で特に優れたパフォーマンスを発揮することもわかりました。

拡散変数の安定性を研究するために、この研究では、以下の図 3 に示すように、自己回帰によって生成された想像上の軌跡を分析しました。

調査では、図 4 に示すボクシングゲームなど、サンプリングプロセスを特定のモードにするには反復ソルバーが必要な状況があることがわかりました。 IRIS によって想像された軌道と比較して、DIAMOND によって想像された軌道は、一般に視覚的な品質が高く、実際の環境との一貫性が高くなります。

ワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

以上がワールドモデルも広がります！訓練を受けたエージェントはかなり優秀であることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for 预处理器 github https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：2024 Zhiyuan Conference の議題が明らかに丨人工知能人材育成交流会次の記事：2024 Zhiyuan Conference の議題が明らかに丨人工知能人材育成交流会

続きを見る