検索
ホームページテクノロジー周辺機器AIAI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

一般知能は複数の分野の課題を解決する必要があります。強化学習アルゴリズムにはこの可能性があると考えられていますが、新しいタスクに適応させるために必要なリソースと知識によって妨げられてきました。 DeepMind の新しい研究では、研究者らは、固定ハイパーパラメータを使用した幅広い領域で以前の手法を上回る、一般的でスケーラブルなワールド モデル ベースのアルゴリズムである DreamerV3 を実証しています。

DreamerV3 は、連続アクションと離散アクション、視覚的入力と低次元入力、2D と 3D の世界、さまざまなデータ量、報酬頻度、報酬レベルなどのドメインに準拠しています。 DreamerV3 は、人間のデータや積極的な教育を必要とせずに、Minecraft でダイヤモンドをゼロから収集する最初のアルゴリズムであることは言及する価値があります。 。研究者らは、このような一般的なアルゴリズムは強化学習の広範な応用を可能にし、難しい意思決定の問題にも拡張できる可能性があると述べている。

ダイヤモンドは、ゲーム「Minecraft」で最も人気のあるアイテムの 1 つです。ゲーム内で最も希少なアイテムの 1 つであり、ゲーム内のほとんどのアイテムの作成に使用できます。 . 最も強力な道具、武器、防具。ダイヤモンドは岩石の最も深い層でのみ発見されるため、産出量は少ないです。

DreamerV3 は、人によるデモやクラスの手動作成を必要とせずに、Minecraft でダイヤモンドを収集する最初のアルゴリズムです。 このビデオでは、ゲーム時間 17 日あたり 3,000 万の環境ステップ内で発生した最初のダイヤモンドの収集を示しています。

AI による Minecraft のプレイについてまったくご存じない方のために、NVIDIA AI 科学者のジム ファン氏は、囲碁をプレイする AlphaGo と比較して、Minecraft のタスクの数は無制限であり、環境の変化も無制限であると述べています。 、知識にも隠された情報があります。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

人間にとって、Minecraft で探索したり建築したりするのは興味深いものですが、Go は少し複雑に思えますが、AI にとってはその逆です。 AlphaGo は 6 年前に人間のチャンピオンを破りましたが、現在では Minecraft の人間のマスターと競合できるアルゴリズムは存在しません。

すでに 2019 年の夏に、Minecraft の開発会社は、ゲーム内でダイヤモンドを見つけることができる AI アルゴリズムに報酬を提供する「ダイヤモンド チャレンジ」を提案しました。 、提出 660 を超えるエントリーのうち、この任務を遂行できた AI は 1 つもありませんでした。

しかし、DreamerV3 の出現により、この状況は変わりました。Diamond は、複雑な探索と計画を必要とする、高度に組み合わされた長期的なタスクです。新しいアルゴリズムは、人工的なデータの支援なしでこれを達成できます。 . ケースのダイヤモンドを集めます。効率には改善の余地があるかもしれませんが、AI エージェントがダイヤモンドを一から収集する方法を学習できるようになったという事実は、重要なマイルストーンです。 DreamerV3 メソッドの概要論文「ワールド モデルによる多様なドメインのマスタリング」:

論文リンク: https://arxiv.org/abs/2301.04104v1

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DreamerV3 アルゴリズムは 3 つのニューラル ネットワーク、つまりワールド モデル (ワールドモデル)、評論家、俳優。 3 つのニューラル ネットワークは、勾配を共有せずにリプレイ エクスペリエンスに基づいて同時にトレーニングされます。下の図 3(a) はワールド モデルの学習を示し、図 (b) は Actor Critic の学習を示します。

クロスドメインの成功を達成するには、これらのコンポーネントがさまざまな信号振幅に適応し、ターゲット全体で項のバランスを確実にとる必要があります。学習は同じドメイン内の同様のタスクだけでなく、固定ハイパーパラメータを使用して異なるドメイン間でも行われるため、これは困難です。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DeepMind では、まず未知の桁数を予測するための単純な変換について説明し、次に世界モデル、批評家、主体、およびそれらの堅牢な学習目標を紹介します。 KL 均衡とフリー ビットを組み合わせることで、ワールド モデルを調整なしで学習できるようになり、小さなリターンを誇張することなく大きなリターンを縮小することで固定ポリシーのエントロピー正則化を実現できることがわかりました。

シンログ予測

#入力を再構築し、報酬と値を予測することは、そのスケールがドメインごとに異なる可能性があるため、困難です。大きなターゲットを予測するために二乗損失を使用すると発散が生じますが、絶対損失とフーバー損失は学習を停滞させます。一方、運用統計に基づく正規化目標では、最適化に非定常性が導入されます。したがって、DeepMind は、この問題の簡単な解決策として symlog 予測を提案します。

これを行うために、入力 x とパラメーター θ を持つニューラル ネットワーク f (x, θ) は、ターゲット y の変換されたバージョンを予測することを学習します。ネットワークの予測 y^ を読み取るために、DeepMind は以下の式 (1) に示すように逆変換を使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

以下の図 4 からわかるように、負の値を持つターゲットは、変換として対数を使用して予測できません。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

したがって、DeepMind は、symlog という名前の対称対数族から関数を変換として選択し、symexp 関数を逆関数として使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

symlog 関数は、大きな正および負の値のサイズを圧縮します。 DreamerV3 は、デコーダ、報酬予測器、およびクリティカルで symlog 予測を使用し、エンコーダの入力を圧縮するために symlog 関数も使用します。

世界モデルの学習

世界モデルは、自動エンコーディングを通じて感覚入力のコンパクトな表現を学習し、表現に対する将来の報酬を予測します。計画を実行するための潜在的な行動。

上の図 3 に示すように、DeepMind はワールド モデルをリカレント状態空間モデル (RSSM) として実装します。まず、エンコーダが感覚入力 x_t をランダム表現 z_t にマッピングし、その後、再発状態 h_t を持つシーケンス モデルが、過去のアクション a_t−1 を考慮したこれらの表現のシーケンスを予測します。 h_t と z_t の連結によりモデル状態が形成され、そこから報酬 r_t とエピソード継続性フラグ c_t ∈ {0, 1} が予測され、以下の式 (3) に示すように、情報表現を保証するために入力が再構築されます。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

# 以下の図 5 は、世界の長期ビデオ予測を視覚化したものです。エンコーダとデコーダは、視覚入力には畳み込みニューラル ネットワーク (CNN) を使用し、低次元入力には多層パーセプトロン (MLP) を使用します。動的予測子、報酬予測子、持続性予測子も MLP であり、これらの表現はソフトマックス分布のベクトルからサンプリングされます。 DeepMind は、サンプリング ステップでパススルー グラデーションを使用します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

俳優批評家の学習

俳優批評家のニューラル ネットワークは、世界モデル 抽象的なシーケンスで学習された行動を予測します。 DeepMind は、環境との対話中に、事前計画を必要とせずに、アクター ネットワークからサンプリングすることによってアクションを選択します。

アクターと批評家はモデル状態 AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす で動作し、ワールド モデルによって学習されたマルコフ表現の恩恵を受けることができます。アクターの目標は、モデル状態ごとに割引係数 γ = 0.997 で期待収益 AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす# を最大化することです。予測範囲 T = 16 を超える報酬を考慮するために、批評家は現在のアクターの行動を考慮して各状態の報酬を予測する方法を学習します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

再生された入力の表現から開始して、動的予測子とアクターは予期されるモデル状態のシーケンス s_1 を生成します。 :T 、アクション a_1:T 、報酬 r_1:T 、および継続フラグ c_1:T 。予測期間外の報酬のリターンを推定するために、DeepMind は期待されるリターンと価値を統合するブートストラップされた λ リターンを計算します。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

実験結果

DeepMind は、固定ハイパーパラメーターの下でさまざまなドメイン (150 以上のタスク) にわたる DreamerV3 の汎用性とスケーラビリティを評価するために広範な実証研究を実施し、既存の SOTA メソッドと比較しました。比較のための文献。 DreamerV3 は、挑戦的なビデオ ゲーム Minecraft にも適用されました。

DreamerV3 の場合、DeepMind は確率的トレーニング戦略のパフォーマンスを直接レポートし、決定論的戦略による個別の評価実行を回避することでセットアップを簡素化します。すべての DreamerV3 エージェントは Nvidia V100 GPU でトレーニングされます。以下の表 1 は、ベンチマークの概要を示しています。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

DreamerV3 の汎用性を評価するために、DeepMind は、連続および離散アクション、ビジョン、低次元入力を含む 7 つのドメインで広範な実証評価を実施しました。 、密な報酬と疎な報酬、さまざまな報酬スケール、2D 世界と 3D 世界、手続き型生成。以下の図 1 の結果では、すべてのベンチマークで固定ハイパーパラメーターを使用しながら、DreamerV3 がすべてのドメインで強力なパフォーマンスを達成し、そのうち 4 つで以前のすべてのアルゴリズムを上回っていることがわかります。

AI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらす

#技術的な詳細と実験結果については、元の論文を参照してください。

以上がAI が「Minecraft」のプレイをゼロから学習、DeepMind AI の一般化が画期的な進歩をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい