AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します-AI-php.cn

ホームページ

テクノロジー周辺機器

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 11, 2023 am 08:34 AM

プロジェクトタコモデル

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

ビデオゲームは現実世界をシミュレートする舞台となり、無限の可能性を示しています。「グランド・セフト・オート」（GTA）を例に挙げると、このゲームではプレイヤーは仮想都市ロスサントスでの多彩な生活を一人称視点で体験することができます。しかし、人間のプレイヤーはロスサントスでのプレイを楽しみ、タスクを完了することができるので、AI ビジュアルモデルを使用して GTA のキャラクターを制御し、タスクを実行する「プレイヤー」になることもできるでしょうか? GTA の AI プレイヤーは、交通ルールを守り、警察の犯罪者逮捕を手伝い、あるいはホームレスの人々が適切な住居を見つけるのを手伝う親切な通行人になる、五つ星の善良な市民の役割を果たすことができるでしょうか?

現在の視覚言語モデル (VLM) は、マルチモーダルな知覚と推論において大幅な進歩を遂げていますが、通常は、より単純な視覚的質問応答 (VQA) または視覚的注釈 (キャプション) タスクに基づいています。ただし、これらのタスク設定では、VLM が実際に現実世界でタスクを完了できるようにすることはできません。実際のタスクでは視覚情報を理解する必要があるだけでなく、モデルが推論を計画し、リアルタイムで更新される環境情報に基づいてフィードバックを提供する能力も必要とされるためです。同時に、生成された計画は、タスクを現実的に完了するために環境内のエンティティを操作できる必要もあります。

既存の言語モデル (LLM) は、提供された情報に基づいてタスク計画を実行できますが、理解することはできません。視覚的な入力. これにより、特定の実世界のタスク、特に一部の身体化された知能タスクを実行するときの言語モデルの適用範囲が大幅に制限されます. テキストベースの入力は、多くの場合、複雑すぎるか精緻化するのが難しいため、言語モデルは効率的に情報を抽出できませんそこからタスクを完了します。現在、プログラム生成において言語モデルが検討されていますが、視覚入力に基づいて構造化され、実行可能で堅牢なコードを生成することについてはまだ深く検討されていません。

インテリジェンスを体現した大規模なモデルを作成する正確に計画を立て、コマンドを実行できる自律的で状況認識型のシステムを作成するという問題を解決するために、シンガポールの南洋理工大学や清華大学などの学者らがオクトパスを提案しました。 Octopus は、視覚的な入力を通じて学習し、現実世界を理解し、実行可能コードを生成することによってさまざまな実践的なタスクを完了することを目的とした、ビジョンベースのプログラム可能なエージェントです。オクトパスは、ビジュアル入力と実行可能コードの大量のデータペアでトレーニングすることにより、ビデオゲームのキャラクターを制御してゲームのタスクや複雑な家事を完了する方法を学習しました。

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

論文リンク: https://arxiv.org/abs/2310.08588
プロジェクト Web ページ: https://choiszt.github.io/Octopus/
オープンソースコードリンク: https://github.com/dongyh20/Octopus

書き直す必要がある内容は、データ収集とトレーニングです。書き換えられた内容: データ収集とトレーニング

身体化された知能タスクを完了できる視覚言語モデルをトレーニングするために、研究者らはトレーニングデータとテスト環境を提供するための 2 つのシミュレーションシステムを含む OctoVerse も開発しました。タコのトレーニングに。これら 2 つのシミュレーション環境は、VLM の具体化されたインテリジェンスに利用可能なトレーニングおよびテストシナリオを提供し、モデルの推論およびタスク計画機能に対してより高い要件を提示します。詳細は次のとおりです:

1. OctoGibson: スタンフォード大学が開発した OmniGibson をベースに開発されており、実生活と一致した合計 476 の家事アクティビティが含まれています。シミュレーション環境全体には 16 の異なるカテゴリの住宅シナリオが含まれており、実際の住宅環境の 155 のインスタンスをカバーしています。モデルは、モデル内に存在する多数の対話型オブジェクトを操作して、最終タスクを完了できます。

2. OctoGTA: 「グランドセフトオート」(GTA) ゲームに基づいて開発され、合計 20 のタスクが構築され、5 つの異なるシナリオに一般化されました。プレイヤーはあらかじめ設定されたプログラムによって固定の場所に配置され、ミッションを達成するために必要なアイテムやNPCが用意されているため、ミッションをスムーズに進めることができる。

下の図は、OctoGibson のタスク分類と、OctoGibson と OctoGTA のいくつかの統計結果を示しています。

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

構築された 2 つのシミュレーション環境でトレーニングデータを効率的に収集するために、研究者は完全なデータ収集システムを確立しました。タスク実行プログラムとして GPT-4 を導入することにより、研究者は、事前に実装された関数を使用して、シミュレーション環境から取得した視覚入力をテキスト情報に変換し、GPT-4 に提供します。 GPT-4 は、現在のステップのタスクプランと実行可能コードを返した後、シミュレーション環境でコードを実行し、現在のステップのタスクが完了したかどうかを判断します。成功した場合は、次のステップの視覚的入力の収集を続けます。失敗した場合は、前のステップの開始位置に戻り、再度データを収集します

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

上の図は、データ収集の完全なプロセスを示す例として、OctoGibson 環境でのベーコンの調理タスクを示しています。データ収集の過程で、研究者らはタスク実行中の視覚情報や GPT-4 から返された実行可能コードなどを記録しただけでなく、各サブタスクの成功も記録したことを指摘しておく必要があります。強化学習は、より効率的な VLM の基礎を構築するために導入されます。 GPT-4 は強力ですが、完璧ではありません。エラーは、構文エラーやシミュレーターでの物理的な問題など、さまざまな形で現れる可能性があります。たとえば、図 3 に示すように、状態 #5 と状態 #6 の間では、エージェントが持つベーコンと鍋の間の距離が遠すぎたため、「鍋にベーコンを置く」アクションは失敗しました。このような後退により、タスクは以前の状態にリセットされます。タスクが 10 ステップ経っても完了しない場合、そのタスクは失敗とみなされ、予算の問題によりタスクは終了し、このタスクのすべてのサブタスクのデータペアは失敗とみなされます。

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

研究者らは、一定規模のトレーニングデータを収集した後、そのデータを使用してインテリジェントな視覚言語モデル Octopus をトレーニングしました。以下の図は、完全なデータ収集とトレーニングのプロセスを示しています。第 1 段階では、収集したデータを教師付き微調整に使用することで、研究者らは視覚情報を固定フォーマットで入出力として受け取ることができる VLM モデルを構築しました。この段階で、モデルは視覚的な入力情報をミッション計画と実行可能コードにマッピングできます。第 2 段階では、研究者らは RLEF

を導入しました。これは環境フィードバックの強化学習を使用し、以前に収集されたサブタスクの成功を報酬信号として使用して VLM のタスク計画機能をさらに強化し、タスク全体の成功を向上させます。評価

実験結果

研究者らは、構築された OctoGibson 環境で現在の主流の VLM と LLM をテストしました。次の表は、主な実験結果を示しています。さまざまなテストモデルについて、ビジョンモデルにはさまざまなモデルで使用される視覚モデルがリストされています。LLM の場合、研究者は視覚情報を LLM の入力としてテキストに処理します。このうち、O はシーン内のインタラクティブなオブジェクトに関する情報を提供することを表し、R はシーン内のオブジェクトの相対関係に関する情報を提供することを表し、GT は検出のための追加の視覚モデルを導入せずに実際の正確な情報を使用することを表します。

研究者らは、すべてのテストタスクについて、完全なテスト統合能力を報告し、さらにそれを 4 つのカテゴリに分類し、それぞれトレーニングセットに存在するシナリオと存在しないシナリオでの新しいタスクの完了を記録しました。さまざまなシナリオで新しいタスクを完了する一般化能力、および単純な後続タスクと複雑な推論タスクの一般化能力。統計の各カテゴリについて、研究者らは 2 つの評価指標を報告しました。1 つ目は、身体化された知能タスクを完了する際のモデルの成功率を測定するためのタスク完了率であり、2 つ目は、タスク計画の精度であり、身体化されたインテリジェンスタスクを完了する際のモデルの成功率。タスク計画を実行するモデルの能力を反映します。

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

さらに、研究者らは、OctoGibson シミュレーション環境で収集された視覚データに対するさまざまなモデルの応答の例も実証しました。以下の図は、TAPA CodeLLaMA、Octopus、GPT-4V の 3 つのモデルを使用して OctoGibson でビジュアル入力を生成した後の応答を示しています。教師あり微調整のみを受ける Octopus モデルと TAPA CodeLLaMA と比較して、RLEF によってトレーニングされた Octopus モデルのタスク計画がより合理的であることがわかります。より漠然としたミッションコマンド「大きなボトルを見つける」でも、より完全な計画が提供されます。これらのパフォーマンスは、モデルのタスク計画能力と推論能力の向上における RLEF トレーニング戦略の有効性をさらに示しています。

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

全体的に、既存のモデルはシミュレーション環境で良好なパフォーマンスを示しました。実際のタスクの完了とタスク計画の能力には改善の余地がたくさんあります。研究者らは、いくつかの重要な発見を要約しました:

1.CodeLLaMA はモデルのコード生成機能を向上させることができますが、タスク計画機能を向上させることはできません。

研究者らは、実験結果は CodeLLaMA がモデルのコード生成能力を大幅に向上できることを示していると指摘しました。従来の LLM と比較して、CodeLLaMA を使用すると、より優れた実行可能なコードを取得できます。ただし、一部のモデルは CodeLLaMA を使用してコードを生成しますが、全体的なミッションの成功率は依然としてミッション計画機能によって制限されます。タスク計画機能が弱いモデルの場合、生成されたコードの実行可能性は高くなりますが、最終的なタスクの成功率は依然として低くなります。 Octopus を振り返ると、CodeLLaMA は使用されておらず、コードの実行可能性は若干低下していますが、その強力なタスク計画機能により、全体的なタスクの成功率は依然として他のモデルより優れています。

大量のテキスト情報を入力するとLLM処理が比較的困難になる

実際のテストプロセス中に、研究者たちはTAPAとCodeLLaMAの実験結果を比較し、言語モデルが長いテキスト入力を適切に処理するのは難しいという結論に達しました。研究者は TAPA 手法に従って実際のオブジェクトの情報をタスク計画に使用しますが、CodeLLaMA はより完全な情報を提供するためにオブジェクトとオブジェクト間の相対的な位置関係を使用します。しかし、実験中に研究者らは、環境内に大量の冗長な情報があるため、環境がより複雑になるとテキスト入力が大幅に増加し、LLM が大量の情報から貴重な手がかりを抽出することが困難であることを発見しました。冗長な情報が含まれるため、ミッションの成功率が低下します。これは、LLM の制限も反映しています。つまり、テキスト情報を使用して複雑なシーンを表現すると、大量の冗長で価値のない入力情報が生成されます。

3.Octopus は優れたタスクの汎化能力を示します。

Octopus には強力なタスク一般化機能があり、それは実験結果からもわかります。トレーニングセットに含まれていない新しいシナリオでは、Octopus はタスク完了成功率とタスク計画成功率の両方で既存のモデルを上回りました。これは、同じカテゴリのタスクにおいて視覚言語モデルには固有の利点があり、その一般化パフォーマンスが従来の LLM

4 よりも優れていることも示しています。RLEF はモデルのタスク計画能力を強化できます。

研究者らは、実験結果で 2 つのモデルのパフォーマンス比較を提供しています。1 つは教師あり微調整の最初の段階を経たモデルで、もう 1 つは次の方法でトレーニングされたモデルです。 RLEF。この結果から、RLEF トレーニング後、モデルの全体的な成功率と計画能力が、強力な推論とタスク計画能力を必要とするタスクで大幅に向上したことがわかります。既存の VLM トレーニング戦略と比較して、RLEF はより効率的です。プロット例は、RLEF でトレーニングされたモデルがタスク計画において向上していることを示しています。複雑なタスクに直面した場合、モデルは環境を探索する方法を学習できます。さらに、モデルはタスク計画の点でシミュレーション環境の実際の要件により一致します (たとえば、モデルは目的のオブジェクトに移動する必要があります)。相互作用を開始する前に相互作用するため)、タスクの計画失敗のリスクが軽減されます。

ディスカッション

書き直す必要がある内容は次のとおりです: 溶融テスト

モデルの実際の機能のテスト評価後、研究者はモデルのパフォーマンスに影響を与える考えられる要因をさらに調査しました。以下の図に示すように、研究者は 3 つの側面から実験を行いました。

書き直す必要がある内容は次のとおりです。 1. トレーニングパラメータの割合

研究者は比較実験を行い、トレーニングを比較しました。 -only ビジュアルモデルと言語モデルの連結レイヤー、トレーニング連結レイヤーと言語モデル、および完全にトレーニングされたモデルのパフォーマンス。結果は、トレーニングパラメーターが増加するにつれて、モデルのパフォーマンスが徐々に向上することを示しています。これは、モデルがいくつかの固定シナリオでタスクを完了できるかどうかにトレーニングパラメーターの数が重要であることを示しています

2. モデルサイズ

研究者らは、より小さい 3B パラメーターモデルをベースラインパフォーマンスと比較しました。 2 つのトレーニング段階における 7B モデルの違い。比較結果は、モデルの全体的なパラメーター量が大きいほど、モデルのパフォーマンスも大幅に向上することを示しています。 VLM の分野における将来の研究では、モデルが対応するタスクを完了する能力を備えていると同時に、モデルの軽量かつ高速な推論速度を確保できるように、適切なモデルトレーニングパラメーターを選択する方法が非常に重要な問題になります。

書き直す必要があるのは: 3. 視覚的入力の連続性。書き換えられた内容: 3. 視覚入力の一貫性

実際の VLM パフォーマンスに対するさまざまな視覚入力の影響を研究するために、研究者たちは実験を実施しました。テスト中、モデルはシミュレーション環境内で順次回転し、ファーストビュー画像と 2 つの鳥瞰図を収集し、これらのビジュアル画像を VLM に順番に入力します。実験では、研究者が視覚画像の順序をランダムに混乱させて VLM に入力すると、VLM のパフォーマンスが大幅に低下します。これは、一方では、VLM にとって完全で構造化された視覚情報の重要性を示していますが、他方では、VLM が視覚入力に応答するときに視覚イメージ間の本質的なつながりに依存する必要があることも反映しています。このつながりがいったん破壊されると、 VLM

AI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場します

GPT-4

さらに、研究者らは GPT-4 と GPT もテストしましたシミュレーション環境では -4V 性能はテストされ、統計的に分析されています。

書き直す必要があるのは次のとおりです: 1. GPT-4

GPT-4 の場合、テストプロセス中に、研究者はトレーニングを収集するために使用するときに、入力としてまったく同じテキスト情報を提供します。データ。テストタスクでは、GPT-4 はタスクの半分を完了できますが、これは一方で、既存の VLM には GPT-4 などの言語モデルと比較してパフォーマンス向上の余地がまだ多くあることを示しています。また、GPT-4 のような強力なパフォーマンスを備えた言語モデルであっても、身体化されたインテリジェンスタスクに直面した場合、そのタスク計画能力とタスク実行能力をさらに向上させる必要があることも示しています。

書き換えが必要な内容は、2. GPT-4V

です。

GPT-4V は直接呼び出すことができる API をリリースしたばかりなので、研究者にはまだそれを試す時間がありませんが、研究者は GPT-4V のパフォーマンスを実証するためにいくつかの例を手動でテストしました。研究者らは、いくつかの例を通じて、GPT-4V にはシミュレーション環境のタスクに対する強力なゼロサンプル汎化機能があり、視覚入力に基づいて対応する実行可能コードを生成することもできるが、一部のタスク計画よりは若干劣ると考えています。 -シミュレーション環境で収集されたデータに基づいて調整されます。

概要

研究者らは、現在の研究のいくつかの制限を指摘しました:

現在の Octopus モデルは、複雑なタスクを処理する際にうまく機能しません。複雑なタスクに直面すると、Octopus はしばしば間違った計画を立て、環境からのフィードバック情報に大きく依存するため、タスク全体を完了することが困難になります

2. Octopus モデルはシミュレーション環境でのみトレーニングされますが、その方法は現実世界に移行すると、一連の問題に直面することになります。たとえば、現実の環境では、モデルがオブジェクトのより正確な相対位置情報を取得することが困難になり、オブジェクトによるシーンの理解を構築することがさらに困難になります。

3. 現時点では、octopus の視覚入力は離散的な静止画像であり、連続的なビデオを処理できるようにすることが将来の課題となります。連続ビデオは、タスクを完了する際のモデルのパフォーマンスをさらに向上させることができますが、連続視覚入力をどのように効率的に処理して理解するかが、VLM のパフォーマンスを向上させる鍵となります

以上がAI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェントエージェント、オクトパスが登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです

モデル市民、なぜAI価値が次のビジネスヤードスティックであるのかMay 02, 2025 am 11:09 AM

企業のAIモデルの有効性は、現在、重要なパフォーマンス指標になっています。 AIブーム以来、生成AIは、誕生日の招待状の作成からソフトウェアコードの作成まで、すべてに使用されてきました。これにより、言語modが急増しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、