検索
ホームページテクノロジー周辺機器AI冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

ロボットにとって、タスク計画は避けられない問題です。

現実世界のタスクを完了したい場合は、まず冷蔵庫に象を設置するのに何ステップかかるかを知る必要があります。

比較的単純な

リンゴを投げる タスクでも 複数のサブステップ が含まれており、ロボットは リンゴの位置を観察する必要があります。 apple、もし がリンゴ を見つけられない場合、我々は を探し続け、それから リンゴに近づいて 、リンゴをつかむ必要があります # #,ゴミ箱の近くのを見つけてください。 ゴミ箱

閉じている 場合は、まず 開いてから ゴミ箱を捨ててください。アップルインゴミ箱を閉じますしかし、各タスクの 具体的な実装の詳細は人間が設計することはできず、コマンドによって

アクション シーケンス

を生成する方法で十分です。問題。 コマンドを使用してシーケンス を生成しますか?これはまさに

言語モデル

の仕事ではないでしょうか? これまで、研究者は大規模言語モデル (LLM) を使用して、入力されたタスク指示に基づいて潜在的な次のアクション スペースをスコア化し、アクション シーケンスを生成してきました。 命令は自然言語 で記述されており、追加のドメイン情報は含まれません。

しかし、そのようなメソッドでは、スコアリングのために考えられる次のアクションをすべて列挙する必要があるか、生成されるテキストの形式に制限がなく、現在の環境内の特定のロボットが含まれる可能性がありますimpossibleaction

最近、南カリフォルニア大学と NVIDIA が共同で新しいモデル ProgPrompt を立ち上げました。このモデルでは、言語モデルも使用して、入力命令に対するタスク計画を実行します。これには、以下が含まれます。

プログラムされたプロンプト構造

により、生成された計画は、さまざまな環境、さまざまな能力を持つロボット、およびさまざまなタスクで機能することができます。

タスクの標準化を確実にするために、研究者らは

生成された Python スタイル コード 冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に を使用して言語モデルにプロンプ​​トを出しました。アクションが使用可能か、環境内にどのようなオブジェクトがあるか、およびどのプログラムが実行可能であるか。

たとえば、「リンゴを投げる」コマンドを入力すると、次のプログラムが生成されます。

ProgPrompt モデルは、

仮想ホーム タスクで優れたパフォーマンス 冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に を達成し、研究者はまた、## にもモデルをデプロイしました。 #デスクトップ タスク用の物理ロボット アーム

魔法の言語モデル毎日の家事を完了するには、世界についての常識的な理解と現在の環境の状況知識の両方が必要です。

「夕食を作る」というタスクプランを作成するために、エージェントが知っておく必要がある最低限の知識は次のとおりです。

オブジェクトの機能 (コンロやコンロなど)電子レンジは加熱して使用できます。アクションの論理的シーケンス

、食品を追加する前にオーブンを予熱する必要があります。および

オブジェクトとアクションのタスクの関連性 (加熱と材料の検索など) 「ディナー」アクションへ。 しかし、状態フィードバック (状態フィードバック) がなければ、この種の推論は実行できません。

エージェントは、冷蔵庫に魚があるかどうか、冷蔵庫に鶏肉があるかどうかなど、現在の環境で どこに食べ物があるか を知る必要があります。 。

大規模なコーパスでトレーニングされた自己回帰大規模言語モデルは、入力プロンプトの条件下でテキスト シーケンスを生成でき、重要なマルチタスク一般化機能を備えています。

たとえば、「夕食を作る」と入力すると、言語モデルは、冷蔵庫を開ける、鶏肉を取り出す、ソーダを取り出す、冷蔵庫を閉じるなどの後続のシーケンスを生成できます。 、照明のスイッチを入れるなど。

生成されたテキスト シーケンスは、エージェントのアクション スペースにマッピングする必要があります。たとえば、生成された指示が「手を伸ばしてピクルスの瓶を拾う」である場合、対応する実行可能なアクションが「瓶を拾う」である場合、モデルはアクションの確率スコアを計算します。

しかし、環境フィードバックがない場合、冷蔵庫に鶏肉がないにもかかわらず「鶏肉を取り出す」ことを選択した場合、「夕食を作る」というタスクは失敗します。世界情勢に関する情報は含まれません。

ProgPrompt モデルは、タスク計画においてプログラミング言語構造を巧みに利用しています。これは、 既存の大規模言語モデルは、通常、プログラミング チュートリアルとコード ドキュメントの事前トレーニングのコーパスで実施されるためです

ProgPrompt は、プロンプトとして Python プログラム ヘッダーを備えた言語モデルを提供し、利用可能なアクション スペース、予期されるパラメーター、環境内の利用可能なオブジェクトをインポートします。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

次に、make_dinner、throw_away_banana、その他の 関数 を定義します。その本体は次のとおりです。オブジェクトを操作するための アクション シーケンス は、計画された前提条件 をアサートする によって組み込まれます (冷蔵庫を開けようとする前に冷蔵庫に近づく、アサーションの失敗に回復アクションで応答するなど)。ステータスフィードバック最も重要なことは、ProgPrompt プログラムにはアクションの目標を説明するための自然言語で書かれた

コメント

も含まれており、それによって生成された計画の実行が改善されることです。プログラムのミッション成功率。 ProgPrompt

完全なアイデアにより、ProgPrompt の全体的なワークフローが明確になります。これには、主に

3 つの部分

Python 関数の構築が含まれます。 , プログラミング言語プロンプトの構築 , タスク プランの生成と実行

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

#1. ロボット プランを Python 関数として表現します

プランニング関数には、 アクション プリミティブ

への API 呼び出し、アクションの要約とコメントの追加、実行を追跡するためのアサーションが含まれます。

各アクション プリミティブにはパラメータとしてオブジェクトが必要です。たとえば、「サーモンを電子レンジに入れる」タスクには find(salmon) の呼び出しが含まれており、find はアクション プリミティブです。 。

コード内でコメントを使用して、後続のアクション シーケンスに自然言語による概要を提供します。コメントは、高レベルのタスクを適切なレベルに分割するのに役立ちます。論理的なサブタスクは次のとおりです。 「鮭を捕まえる」「鮭を電子レンジに入れる」。 冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

アノテーションを使用すると、言語モデルが現在の目標を理解できるようになり、思考の連鎖と同様に、一貫性のない、一貫性のない、または繰り返しの出力の可能性を減らすことができます。結果。

アサーション (アサーション) 前提条件が真であることを確認し、前提条件が真でない場合 (クロール アクションの前など) にエラー回復を実装するための環境フィードバック メカニズムを提供します。この計画では、エージェントがサケの近くにいることを主張しており、そうでない場合、エージェントは最初に検索アクションを実行する必要があります。

2. プログラミング言語プロンプトの構築

プロンプトは環境に関する情報を提供する必要があります言語モデルと主要なアクション情報 (観察、アクション プリミティブ、例など) に関連付けられ、言語モデルを完了するための Python プロンプトが生成されます。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

次に、言語モデルは を実行可能な関数、つまりマイクロ波サーモンの microwave_salmon()

として予測します。タスクの場合、LLM が生成できる合理的な最初のステップはサケを取り除くことですが、計画の実行を担当するエージェントにはそのようなアクション プリミティブがない可能性があります。

言語モデルがエージェントのアクション プリミティブを理解できるようにするには、プロンプトのインポート ステートメントを介してアクション プリミティブをインポートします。これにより、出力が現在の環境で利用可能な関数に制限されます。

エージェントの動作空間を変更するには、インポート関数リストを更新するだけです

変数オブジェクトは、環境内で使用可能なすべてのオブジェクトを文字列のリストとして提供します。

#プロンプトには、サンプルとして完全に実行可能なプログラム プランも多数含まれています。各サンプル タスクでは、特定の環境で利用可能なアクションと目標を使用して特定のタスクを完了する方法を示します。 throw_away_lime

3、タスクプランの生成と実行

指定されたタスク その後、プランは ProgPrompt プロンプトに基づいた言語モデルによって完全に推論され、生成されたプランは仮想エージェントまたは物理ロボット システム上で実行できます。環境に応じて各アクション コマンドを実行するにはインタプリタが必要です。

実行中、アサーション チェックが閉ループ方式で実行され、現在の環境状態に基づいてフィードバックが提供されます。

実験部分では、研究者は Virtual Home (VH) シミュレーション プラットフォーム で方法を評価しました。

VH のステータスには、電子レンジの中のサケ (in)、または近く (agent_close_to) など、一連のオブジェクトと対応する属性が含まれます。

アクション スペースには、つかむ、置く、戻す、歩く、見つける、開く、閉じる、閉じるなどの操作が含まれます。

最後に、3 つの VH 環境が実験され、各環境には 115 の異なるオブジェクトが含まれていました。研究者は、高度な抽象化とコマンドを備えた、70 の家事タスクを含むデータセットを作成しました。それはすべて「」に関するものです。マイクロ波サーモン」を作成し、そのためのグラウンドトゥルースのアクション シーケンスを作成しました。

生成されたプログラムを仮想ファミリ上で評価した後、評価指標には成功率 (SR)、目標条件付き再現率 (GCR)、実行可能性 (Exec) が含まれます。 ProgPrompt がベースラインや LangPrompt よりも大幅に優れていることがわかります。この表には、各機能がどのようにパフォーマンスを向上させるかも示されています。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

研究者らは、平行爪を持つフランカ・エミカ・パンダ・ロボットを使用して、現実世界でも実験を実施しました。ピックアンドプレイス戦略が得られるということです。

この戦略は、ターゲット オブジェクトとターゲット コンテナの 2 つの点群を入力として受け取り、ピック アンド プレイス操作を実行してコンテナ上またはコンテナ内にオブジェクトを配置します。

システム実装では、オープンボキャブラリーオブジェクト検出モデル ViLD を導入して、シーン内のオブジェクトを識別してセグメント化し、プロンプト内で使用可能なオブジェクトのリストを作成します。

仮想環境とは異なり、ここでのオブジェクト リストは各計画関数のローカル変数であるため、新しいオブジェクトに柔軟に適応できます。

言語モデルによって出力されたプランには、grab と putin の形式の関数呼び出しが含まれています。

現実世界の不確実性のため、アサーション ベースの閉ループ オプション は実験設定では実装されませんでした。

冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に

分類タスクでは、ロボットがバナナとイチゴを果物として識別し、それらを配置するための計画ステップを生成できたことがわかります。プレートを中に入れ、ボトルを箱に入れます。

以上が冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
外挿の包括的なガイド外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークAIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

3つの方法生成AIは起業家を増幅します:平均に注意してください!3つの方法生成AIは起業家を増幅します:平均に注意してください!Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースAndrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLMS)の幻覚は避けられませんか?大規模な言語モデル(LLMS)の幻覚は避けられませんか?Apr 15, 2025 am 11:31 AM

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

60%の問題 -  AI検索がトラフィックを排出す​​る方法60%の問題 - AI検索がトラフィックを排出す​​る方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

AI R&Dの中心に人間が繁栄するようにするMITメディアラボAI R&Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール