ホームページ  >  記事  >  テクノロジー周辺機器  >  私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

PHPz
PHPz転載
2023-04-12 23:55:011636ブラウズ

人間と同じように、自分の言葉でロボットに何をすべきかを伝えたいと思ったことはありますか?

たとえば、ホームアシスタントロボットに「お弁当を温めてください」と言うだけで、ロボットは自動的に電子レンジを見つけます。すごいですよね?

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

言語は人間が自分の意図を表現する最も直観的な方法ですが、長い間、人々はロボットを実装するために依然として手書きのコードに大きく依存していました。 。 コントロール。しかし、ChatGPTが登場するとこの状況は変わります。

最近の研究では、Microsoft チームは OpenAI の新しい AI 言語モデル ChatGPT を使用して人間とコンピューターの自然な対話を可能にする方法を研究しています。

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

紙のリンク: https://www.microsoft.com/en-us/research/uploads/prod/ 2023/02/ChatGPT___Robotics.pdf

ChatGPT は、テキストと人間の対話の大規模なコーパスに基づいてトレーニングされた言語モデルであるため、幅広いプロンプトやプロンプトに対して一貫した文法的な応答を生成できます。質問に対する正しい回答。この研究の目的は、ChatGPT がテキストを超えて考え、現実世界について推論して、ロボットがタスクを完了できるかどうかを確認することです。研究者らは、これにより人々が複雑なプログラミング言語やロボットシステムの詳細を学ばなくても、ロボットとの対話が容易になることを期待している。

研究の主な課題は、物理法則、動作環境、ロボットが体の動きを変更するために使用する方法を考慮して問題を解決する方法を ChatGPT に教えることです。周囲。

ChatGPT は単独で多くのことができることがわかりましたが、それでもまだ支援が必要です。論文の中でチームは、ロボットタスクを解決する際に言語モデルを導くために使用できる一連の設計原則について説明しています。これには、アドホックプロンプト構造、高レベル API、ヒューマンテキストによるフィードバックが含まれますが、これらに限定されません。研究者らは、この研究はロボットシステム開発における変革の始まりに過ぎないと信じており、この研究が他の研究者にこの興味深い研究分野への参加を促すきっかけになればと期待している。

今日のロボット技術が直面する課題と ChatGPT が提供できる支援

現在のロボット操作プロセスは、開始から始まります。エンジニアまたは技術ユーザーは、タスク要件をシステム コードに変換する必要があります。エンジニアはワークフローのループに加わり、ロボットの動作を修正するために常に新しいコードと仕様を作成します。全体として、このプロセスは遅く(ユーザーは低レベルのコードを記述する必要がある)、費用がかかり(ロボット工学に関する深い知識を持つ高度なスキルを持つユーザーが必要)、非効率的です(適切に機能するには複数の対話が必要です)。

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

しかし、ChatGPT は新しいボット パラダイムを切り開き、技術者ではない可能性のあるユーザーの参加を可能にします。ループ内でロボットのパフォーマンスを監視しながら、大規模言語モデル (LLM) に高レベルのフィードバックを提供します。研究された設計原則に従うことで、ChatGPT はロボット シナリオのコードを生成できます。この研究では、微調整を行わずに、LLM の知識を活用して、さまざまなタスクに合わせてさまざまなロボットの形状を制御します。研究者らは、その研究の中で、ロボットの課題を解決する ChatGPT の複数の例と、運用、航空、ナビゲーションの各ドメインにおける複雑なロボットの展開を実証しました。

ボットと ChatGPT: 設計原則

LLM のプロンプトは、非常に経験に基づいた科学です。この研究では、試行錯誤を通じてロボット タスクのプロンプトを作成するための一連の方法と設計原則を確立しました。

#まず、調査では一連の高レベルのロボット API または関数ライブラリを定義します。このライブラリは、特定のロボットに固有であり、ロボットの制御スタックまたは認識ライブラリ内の既存の低レベル実装にマップできます。 ChatGPT がその動作を推測できるように、高レベル API にわかりやすい名前を使用することが重要です。

次に、研究者たちは、利用可能な機能を明示的に示しながらタスクの目標を説明する ChatGPT 用のテキスト プロンプトを作成しました。プロンプトには、タスクの制約に関する情報や、ChatGPT がその回答を形成する方法 (補助的な解析要素を使用した特定のエンコード言語) に関する情報も含めることができます。私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

ユーザーは、ループ内で ChatGPT のコード出力を直接検査するか、またはエミュレータを使用します。必要に応じて、ユーザーは自然言語を使用して回答の品質と安全性に関するフィードバックを ChatGPT に提供できます。

  • ユーザーがソリューションに満足したら、最終的にコードをロボットにデプロイできます。
  • 理論はこれくらいにして、ChatGPT では具体的に何ができるのでしょうか?

    いくつかの例を見てみましょう。コード リポジトリでさらに多くのケース スタディを見つけることができます。

    ゼロサンプル ミッション プラン

    研究者らは ChatGPT で実際のドローンを制御できるようにし、技術者以外のユーザーやユーザーにとって最適であることが証明されました。ロボット 非常に直感的な言語ベースのインターフェイス。ユーザーの指示があいまいな場合、ChatGPT は明確な質問をし、ドローンがジグザグ パターンなどのアーキテクチャを視覚的に検査できるように複雑なコード構造を作成します。セルフィーの撮り方も学びました!

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    研究者チャットGPT Microsoft AirSim シミュレーターを使用した模擬産業検査シナリオでも使用されました。このモデルは、ユーザーの高レベルの意図と幾何学的な手がかりを効果的に解析して、ドローンを正確に制御することができます。 ###############################################ループの中ユーザー: 複雑なタスクに対話が必要な場合

    #次に、研究者らはロボット アーム操作シナリオに ChatGPT を使用し、会話型フィードバックを使用して、最初に提供された API 構成をより多くの API 構成に変換する方法をモデルに教えました。複雑な高レベル関数: ChatGPT 自動プログラミング。このモデルは、ブロックを積み上げるなどのアクションを実行するためのカリキュラムベースの戦略を使用して、学習したスキルを論理的にリンクできます。 私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    さらに、このモックアップは、木のブロックから Microsoft ロゴを作成するときに、テキスト領域と物理領域を接続する完璧な例を示しています。内部のナレッジ ベースからロゴを呼び出すことができるだけでなく、ロゴを (SVG コードとして) 「描画」し、上で学習したスキルを使用して、既存のロボットの動作のどれがそのロボットの動作を構成できるかを判断することもできます。外観。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    次に、研究者らは ChatGPT に、ドローンが到達できるようにするアルゴリズムを書くように依頼しました。障害物に当たらないように空中で狙いを定めましょう。彼らは、ドローンが前向きの距離センサーを備えていることをモデルに伝え、ChatGPT がアルゴリズムの主要な構成要素のほとんどを即座にプログラムしました。このタスクには人間との会話が必要ですが、言語的なフィードバックのみを使用してローカライズされたコードを改善できる ChatGPT の機能は印象的です。

    知覚-行動ループ: ロボットは行動する前に世界を認識します

    何かをする (行動する) 前に世界を認識する (知覚) 能力) これはあらゆるロボット システムの基礎です。そこで研究者らは、この概念に対する ChatGPT の理解をテストすることにし、ユーザーが指定したオブジェクトが見つかるまで環境を探索するよう ChatGPT に依頼しました。この調査では、モデルに物体検出や物体距離 API などの機能を提供し、生成されるコードがセンスとアクションのループを正常に実装していることを検証します。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    実験段階で、研究者らは、ChatGPT が (ChatGPT にコードを生成させるのではなく) センサーのフィードバックに基づいてロボットがどこに行くべきかをリアルタイムで決定できるかどうかを評価するために追加の実験を実施しました。決定を行うループ) これらの決定)。興味深いことに、カメラ画像のテキストによる説明を会話の各ステップに入力できることが偶然にも検証され、モデルは特定のオブジェクトに到達するまでロボットを制御する方法を理解できました。

    PromptCraft、LLM ロボット工学研究のための共同オープンソース ツール

    ChatGPT などの大規模な言語モデルの成功には、優れたプロンプト エンジニアリングが不可欠ですロボットタスク用。残念ながら、Prompt は実証科学であり、この分野の研究者や愛好家を助けるさまざまな例を含む、包括的でアクセスしやすいリソースが不足しています。このギャップを埋めるために、研究者らは、誰もがさまざまなロボット カテゴリのプロンプト戦略の例を共有できる共同オープンソース プラットフォームである「プロンプトクラフト」を導入し、この研究で使用されたすべてのツールを公開しました。

    プロンプトの設計に加えて、研究では、ユーザーが ChatGPT で生成されたアルゴリズムをテストできるようにする複数のボット シミュレーターとインターフェイスを含めたいと考えています。研究の手始めとして、誰でもこれらのアイデアを開発するために使用できる ChatGPT と統合された AirSim 環境もリリースされました。

    #

    ChatGPT-AirSim インターフェイス

    ロボットを研究室から世界へ出動させましょう

    これらのテクノロジーのリリースには価値がありますこれはロボット工学の聴衆を広げることになるからです。マイクロソフトの研究者らは、言語ベースのロボット制御が科学研究室のロボットを日常ユーザーの生活に導入するための基盤となると考えている。

    この記事では、ChatGPT の出力は、注意深く分析せずにロボットに直接デプロイすることを意図したものではないことを強調したいと思います。研究者らはユーザーに対し、現実の展開の可能性がある前にこれらのアルゴリズムを評価するためにシミュレーションの力を活用し、常に必要な安全対策を講じることを推奨しています。この記事で説明した研究は、ロボット工学の分野で動作する大規模な言語モデルの交差点で可能なことのほんの一部にすぎず、さらなる研究へのインスピレーションを提供することを願っています。

    元のリンク: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

以上が私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。