ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました-AI-php.cn

ホームページ

テクノロジー周辺機器

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 05:01 PM

aiモデル

最近、GPT を置き去りにしたように見える OpenAI が新たな人生を歩み始めました。

大量のラベルなしビデオと少量のラベル付きデータでトレーニングした後、AI はついに Minecraft でダイヤモンドのつるはしの作り方を学習しました。

このプロセス全体は、ハードコアプレイヤーであれば完了するまでに少なくとも 20 分かかり、合計 24,000 回の操作が必要になります。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

#これは簡単なようですが、AI にとっては非常に難しいことです。

#7 歳の子供は 10 分間見れば学習できます

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

#最も単純な木製のつるはしの場合、人間のプレイヤーにプロセスを一から学ばせるそれほど難しくありません。

1 人のオタクは、1 つのビデオで 3 分以内に次のオタクに教えることができます。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

#デモビデオの長さは 2 分 52 秒です。

ただし、 , ダイヤモンドつるはしの作成はさらに複雑です。

それでも、7 歳の子供は 10 分間のデモンストレーションビデオを見るだけで学習できます。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました #このミッションの難しさは主にダイヤモンド鉱山を掘る方法です。

プロセスは大まかに 12 のステップに要約できます。まず、ピクセルブロックの「木」を素手で計画し、次に丸太から木のブロックを合成し、木の棒から木の棒を作ります。ベンチ、木のつるはしを作る作業台、石をたたくための木のつるはし、石と棒を使って石のつるはしを作る、石のつるはしで炉を作る、鉄鉱石を加工する炉、鉄鉱石を溶かして鋳造する鉄のインゴット、鉄のツルハシを作るための鉄のインゴット、ダイヤモンドを掘るための鉄のツルハシ。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました現在、プレッシャーは AI 側にあります。

偶然にも、CMU、OpenAI、DeepMind、Microsoft Research およびその他の機関は、2019 年から関連コンペティション、MineRL を立ち上げています。

出場者は、「ゼロから独立してツールを作成し、自動的にダイヤモンド鉱山を見つけて採掘する」ことができる人工知能エージェントを開発する必要があります。勝利条件も非常にシンプルで、最も速い人が勝ちです。。

結果はどうですか?

最初の MineRL コンテストの後、「7 歳の子供は 10 分間のビデオを見て学習しましたが、AI は 8 分間経っても理解できませんでした」 100万歩」しかし、それはNature誌に掲載されました。

データが大量にあるのに使いこなせない

「Minecraft」はサンドボックス建築ゲームとして、プレイヤーの戦略と自由度が非常に高く、ゲーム仮想環境は、さまざまな AI モデルの学習および意思決定機能のテストの場および試金石として特に適しています。

そして、「国家レベル」のゲームであるため、「Minecraft」に関連するビデオをオンラインで簡単に見つけることができます。

ただし、チュートリアルを構築する場合でも、自分の作品を披露する場合でも、ある程度は画面に表示される結果にすぎません。

言い換えれば、ビデオを見ている人々は、アップリーダーが何をどのように行ったかを知ることしかできず、彼がどのようにそれを行ったかを知る方法はありません。

具体的に言うと、コンピュータの画面に表示されているのは単なる結果であり、操作手順はアップ主がキーボードを押し続けることと、マウスを動かし続けることです。この部分は以下を参照してください。

このプロセスさえも編集されており、AIはおろか、誰が見ても覚えられるはずがありません。

さらに悪いことに、多くのプレイヤーは、ゲーム内で木を削るのは宿題をしたりタスクを完了したりするのと同じで退屈だと不満を抱いています。その結果、更新の波が続いた後、無料で入手できるツールがたくさんありました...今では、データさえ見つけるのが困難です。

OpenAI が AI に「Minecraft」のプレイを学習させたい場合は、これらのラベルのない大量のビデオデータを使用する方法を見つけなければなりません。

ビデオ事前トレーニングモデル—VPT

そこで、VPT が誕生しました。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

#紙のアドレス: https://cdn.openai.com/vpt/Paper.pdf

これは新しいものですが、複雑ではなく、半教師あり模倣学習法です。

まず、データの波を収集して、ゲームをプレイしているアウトソーサーのデータに注釈を付けます。これには、キーボードやマウスの操作のビデオや記録が含まれます。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

VPT 法の概要

研究者らはデータを使用しました。逆ダイナミクスモデル (IDM) を使用すると、ビデオの各ステップでキーボードとマウスがどのように動くかを推測できます。

このようにして、タスク全体がはるかに単純になり、目標を達成するために必要なデータははるかに少なくなります。

少量のアウトソーシングデータで IDM を完了した後、IDM を使用して、より大きなラベルのないデータセットにラベルを付けることができます。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

基本モデルのトレーニングデータが微調整に及ぼす影響

トレーニング中 70,000 時間後、OpenAI の動作クローンモデルは、他のモデルでは不可能なさまざまなタスクを達成できるようになりました。

モデルは、木を伐採して木材を集める方法、木を使って木簡を作る方法、木簡を使ってテーブルを作る方法を学びました。この一連の作業は、比較的熟練したプレイヤーであれば 50 秒以内に操作できる必要があります。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

テーブルを作ることに加えて、モデルは泳いだり、狩りをしたり、食事をしたりすることもできます。

「走ってジャンプして建てる」というかっこいい操作もあり、ジャンプするときに足元にレンガや木のブロックを置き、ジャンプしながら柱を建てることができます。。ハードコアプレイヤーには必須のコースです。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

テーブルの作成 (0 ショット)

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

ハンティング (0 ショット)

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

「走ったり跳んだり」簡易版（0ショット）

モデルがより正確なタスクを完了できるようにするために、データセットは通常、より小さいサイズに微調整され、小さな方向が区別されます。

OpenAI は、VPT でトレーニングされたモデルが微調整後に下流のデータセットにどの程度適応できるかを示す研究を実施しました。

研究者らは、人々に「Minecraft」を 10 分間プレイしてもらい、基本的な材料を使って家を建ててもらいました。彼らは、この方法で、ワークベンチの構築など、ゲーム初期のタスクを実行するモデルの能力を強化できることを期待しています。

データセットを微調整した後、研究者らは、モデルが初期タスクをより効率的に実行できることを発見しただけでなく、モデル自体がデータセットの作成方法を理解していることも発見しました。石製の作業台と石製の道具台。

研究者は、モデルが粗末な避難所を建設し、村を探索し、箱を略奪しているのを目にすることがあります。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

石のつるはしを作る全プロセス (以下にマークされている時間は、熟練したプレイヤーが同じ作業を行うのにかかる時間です) task)

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

石のつるはしを作る

それでは、やってみましょうOpenAI の専門家がどのように微調整したかをご覧ください。

彼らが使用する手法は強化学習 (RL) です。

ほとんどの RL 手法は、事前確率を確率的に探索することでこれらの課題に対処します。つまり、モデルは多くの場合、エントロピーを通じてランダムなアクションに報酬を与えるようインセンティブが与えられます。人間の行動をシミュレートする方がランダムなアクションを実行するよりも役立つ可能性があるため、VPT モデルは RL にとってより優れた事前モデルであるはずです。

研究者らは、ダイヤモンドのつるはしを収集するという困難なタスクのモデルをセットアップしましたが、これは、タスク全体がネイティブのヒューマンマシンインターフェイスを使用して実行されるため、これまで Minecraft では見られなかった機能です。はさらに難しくなります。

ダイヤモンドのつるはしの作成には、長く複雑な一連のサブタスクが必要です。このタスクを扱いやすくするために、研究者らはシーケンス内の項目ごとにエージェントに報酬を与えました。

ショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しました

彼らは、ランダム初期化 (標準的な RL メソッド) からトレーニングされた RL ポリシーはほとんど報酬を獲得せず、ログの収集方法をまったく学習せず、収集能力が非常に高いことを発見しました。スティックが少なくなります。

まったく対照的に、VPT モデルは、ダイヤモンドのつるはしの作り方を学習するだけでなく、すべてのアイテムを収集するという人間レベルの成功も達成できるように微調整されました。

誰かが Minecraft でダイヤモンドツールを作成できるコンピューターモデルをデモンストレーションしたのはこれが初めてです。

以上がショックを受けた！ 70,000 時間のトレーニングを経て、OpenAI のモデルは「Minecraft」で木材を計画する方法を学習しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35