検索
ホームページテクノロジー周辺機器AI私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

人間と同じように、自分の言葉でロボットに何をすべきかを伝えたいと思ったことはありますか?

たとえば、ホームアシスタントロボットに「お弁当を温めてください」と言うだけで、ロボットは自動的に電子レンジを見つけます。すごいですよね?

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

言語は人間が自分の意図を表現する最も直観的な方法ですが、長い間、人々はロボットを実装するために依然として手書きのコードに大きく依存していました。 。 コントロール。しかし、ChatGPTが登場するとこの状況は変わります。

最近の研究では、Microsoft チームは OpenAI の新しい AI 言語モデル ChatGPT を使用して人間とコンピューターの自然な対話を可能にする方法を研究しています。

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

紙のリンク: https://www.microsoft.com/en-us/research/uploads/prod/ 2023/02/ChatGPT___Robotics.pdf

ChatGPT は、テキストと人間の対話の大規模なコーパスに基づいてトレーニングされた言語モデルであるため、幅広いプロンプトやプロンプトに対して一貫した文法的な応答を生成できます。質問に対する正しい回答。この研究の目的は、ChatGPT がテキストを超えて考え、現実世界について推論して、ロボットがタスクを完了できるかどうかを確認することです。研究者らは、これにより人々が複雑なプログラミング言語やロボットシステムの詳細を学ばなくても、ロボットとの対話が容易になることを期待している。

研究の主な課題は、物理法則、動作環境、ロボットが体の動きを変更するために使用する方法を考慮して問題を解決する方法を ChatGPT に教えることです。周囲。

ChatGPT は単独で多くのことができることがわかりましたが、それでもまだ支援が必要です。論文の中でチームは、ロボットタスクを解決する際に言語モデルを導くために使用できる一連の設計原則について説明しています。これには、アドホックプロンプト構造、高レベル API、ヒューマンテキストによるフィードバックが含まれますが、これらに限定されません。研究者らは、この研究はロボットシステム開発における変革の始まりに過ぎないと信じており、この研究が他の研究者にこの興味深い研究分野への参加を促すきっかけになればと期待している。

今日のロボット技術が直面する課題と ChatGPT が提供できる支援

現在のロボット操作プロセスは、開始から始まります。エンジニアまたは技術ユーザーは、タスク要件をシステム コードに変換する必要があります。エンジニアはワークフローのループに加わり、ロボットの動作を修正するために常に新しいコードと仕様を作成します。全体として、このプロセスは遅く(ユーザーは低レベルのコードを記述する必要がある)、費用がかかり(ロボット工学に関する深い知識を持つ高度なスキルを持つユーザーが必要)、非効率的です(適切に機能するには複数の対話が必要です)。

私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

しかし、ChatGPT は新しいボット パラダイムを切り開き、技術者ではない可能性のあるユーザーの参加を可能にします。ループ内でロボットのパフォーマンスを監視しながら、大規模言語モデル (LLM) に高レベルのフィードバックを提供します。研究された設計原則に従うことで、ChatGPT はロボット シナリオのコードを生成できます。この研究では、微調整を行わずに、LLM の知識を活用して、さまざまなタスクに合わせてさまざまなロボットの形状を制御します。研究者らは、その研究の中で、ロボットの課題を解決する ChatGPT の複数の例と、運用、航空、ナビゲーションの各ドメインにおける複雑なロボットの展開を実証しました。

ボットと ChatGPT: 設計原則

LLM のプロンプトは、非常に経験に基づいた科学です。この研究では、試行錯誤を通じてロボット タスクのプロンプトを作成するための一連の方法と設計原則を確立しました。

#まず、調査では一連の高レベルのロボット API または関数ライブラリを定義します。このライブラリは、特定のロボットに固有であり、ロボットの制御スタックまたは認識ライブラリ内の既存の低レベル実装にマップできます。 ChatGPT がその動作を推測できるように、高レベル API にわかりやすい名前を使用することが重要です。

次に、研究者たちは、利用可能な機能を明示的に示しながらタスクの目標を説明する ChatGPT 用のテキスト プロンプトを作成しました。プロンプトには、タスクの制約に関する情報や、ChatGPT がその回答を形成する方法 (補助的な解析要素を使用した特定のエンコード言語) に関する情報も含めることができます。私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

ユーザーは、ループ内で ChatGPT のコード出力を直接検査するか、またはエミュレータを使用します。必要に応じて、ユーザーは自然言語を使用して回答の品質と安全性に関するフィードバックを ChatGPT に提供できます。

  • ユーザーがソリューションに満足したら、最終的にコードをロボットにデプロイできます。
  • 理論はこれくらいにして、ChatGPT では具体的に何ができるのでしょうか?

    いくつかの例を見てみましょう。コード リポジトリでさらに多くのケース スタディを見つけることができます。

    ゼロサンプル ミッション プラン

    研究者らは ChatGPT で実際のドローンを制御できるようにし、技術者以外のユーザーやユーザーにとって最適であることが証明されました。ロボット 非常に直感的な言語ベースのインターフェイス。ユーザーの指示があいまいな場合、ChatGPT は明確な質問をし、ドローンがジグザグ パターンなどのアーキテクチャを視覚的に検査できるように複雑なコード構造を作成します。セルフィーの撮り方も学びました!

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    研究者チャットGPT Microsoft AirSim シミュレーターを使用した模擬産業検査シナリオでも使用されました。このモデルは、ユーザーの高レベルの意図と幾何学的な手がかりを効果的に解析して、ドローンを正確に制御することができます。 ###############################################ループの中ユーザー: 複雑なタスクに対話が必要な場合

    #次に、研究者らはロボット アーム操作シナリオに ChatGPT を使用し、会話型フィードバックを使用して、最初に提供された API 構成をより多くの API 構成に変換する方法をモデルに教えました。複雑な高レベル関数: ChatGPT 自動プログラミング。このモデルは、ブロックを積み上げるなどのアクションを実行するためのカリキュラムベースの戦略を使用して、学習したスキルを論理的にリンクできます。 私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    さらに、このモックアップは、木のブロックから Microsoft ロゴを作成するときに、テキスト領域と物理領域を接続する完璧な例を示しています。内部のナレッジ ベースからロゴを呼び出すことができるだけでなく、ロゴを (SVG コードとして) 「描画」し、上で学習したスキルを使用して、既存のロボットの動作のどれがそのロボットの動作を構成できるかを判断することもできます。外観。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    次に、研究者らは ChatGPT に、ドローンが到達できるようにするアルゴリズムを書くように依頼しました。障害物に当たらないように空中で狙いを定めましょう。彼らは、ドローンが前向きの距離センサーを備えていることをモデルに伝え、ChatGPT がアルゴリズムの主要な構成要素のほとんどを即座にプログラムしました。このタスクには人間との会話が必要ですが、言語的なフィードバックのみを使用してローカライズされたコードを改善できる ChatGPT の機能は印象的です。

    知覚-行動ループ: ロボットは行動する前に世界を認識します

    何かをする (行動する) 前に世界を認識する (知覚) 能力) これはあらゆるロボット システムの基礎です。そこで研究者らは、この概念に対する ChatGPT の理解をテストすることにし、ユーザーが指定したオブジェクトが見つかるまで環境を探索するよう ChatGPT に依頼しました。この調査では、モデルに物体検出や物体距離 API などの機能を提供し、生成されるコードがセンスとアクションのループを正常に実装していることを検証します。

    私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。

    実験段階で、研究者らは、ChatGPT が (ChatGPT にコードを生成させるのではなく) センサーのフィードバックに基づいてロボットがどこに行くべきかをリアルタイムで決定できるかどうかを評価するために追加の実験を実施しました。決定を行うループ) これらの決定)。興味深いことに、カメラ画像のテキストによる説明を会話の各ステップに入力できることが偶然にも検証され、モデルは特定のオブジェクトに到達するまでロボットを制御する方法を理解できました。

    PromptCraft、LLM ロボット工学研究のための共同オープンソース ツール

    ChatGPT などの大規模な言語モデルの成功には、優れたプロンプト エンジニアリングが不可欠ですロボットタスク用。残念ながら、Prompt は実証科学であり、この分野の研究者や愛好家を助けるさまざまな例を含む、包括的でアクセスしやすいリソースが不足しています。このギャップを埋めるために、研究者らは、誰もがさまざまなロボット カテゴリのプロンプト戦略の例を共有できる共同オープンソース プラットフォームである「プロンプトクラフト」を導入し、この研究で使用されたすべてのツールを公開しました。

    プロンプトの設計に加えて、研究では、ユーザーが ChatGPT で生成されたアルゴリズムをテストできるようにする複数のボット シミュレーターとインターフェイスを含めたいと考えています。研究の手始めとして、誰でもこれらのアイデアを開発するために使用できる ChatGPT と統合された AirSim 環境もリリースされました。

    #

    ChatGPT-AirSim インターフェイス

    ロボットを研究室から世界へ出動させましょう

    これらのテクノロジーのリリースには価値がありますこれはロボット工学の聴衆を広げることになるからです。マイクロソフトの研究者らは、言語ベースのロボット制御が科学研究室のロボットを日常ユーザーの生活に導入するための基盤となると考えている。

    この記事では、ChatGPT の出力は、注意深く分析せずにロボットに直接デプロイすることを意図したものではないことを強調したいと思います。研究者らはユーザーに対し、現実の展開の可能性がある前にこれらのアルゴリズムを評価するためにシミュレーションの力を活用し、常に必要な安全対策を講じることを推奨しています。この記事で説明した研究は、ロボット工学の分野で動作する大規模な言語モデルの交差点で可能なことのほんの一部にすぎず、さらなる研究へのインスピレーションを提供することを願っています。

    元のリンク: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

以上が私がまだ ChatGPT でチャットしている間に、誰かがすでに ChatGPT を使用してロボットの動作を制御し始めていました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
効果的な加速主義または向社会的AI。 AIの未来は何ですか?効果的な加速主義または向社会的AI。 AIの未来は何ですか?Apr 16, 2025 am 11:09 AM

アクセラレーション主義者のビジョン:フルスピード先 略してE/ACCとして知られる効果的な加速主義は、2022年頃に、シリコンバレー以降で、その中核で著しく大幅な牽引力を獲得している技術的な最適主義運動として出現しました。

Excelの相対的、絶対的、混合参照とは何ですか?Excelの相対的、絶対的、混合参照とは何ですか?Apr 16, 2025 am 11:03 AM

導入 私の最初のスプレッドシートの経験は、コピーしたときにフォーミュラの予測不可能な動作のためにイライラしていました。 私はその時のセルの参照を理解していませんでしたが、相対的、絶対的、混合された参照をマスターすることは私のスプレッドに革命をもたらしました

Word2vecを使用したスマートサブジェクトの電子メールラインの生成Word2vecを使用したスマートサブジェクトの電子メールラインの生成Apr 16, 2025 am 11:01 AM

この記事では、Word2VECエンボードを使用して効果的な電子メールの件名を生成する方法を示しています。 セマンティックな類似性を活用して、コンテキストに関連する件名を作成し、電子メールマーケティングを改善するシステムを構築することでガイドします。

データアナリストの将来データアナリストの将来Apr 16, 2025 am 11:00 AM

データ分析:進化する風景のナビゲート データが数字だけでなく、すべての経営陣の決定の礎石を想像してください。 この動的環境では、データアナリストは不可欠であり、生データを実行可能に変換します

Excelの等式機能は何ですか? - 分析VidhyaExcelの等式機能は何ですか? - 分析VidhyaApr 16, 2025 am 10:55 AM

Excelの等式関数:データ分析パワーハウス 合理化されたデータ分析のためのExcelの等式関数の力のロックを解除します。この汎用性のある関数は、合計と乗算機能を簡単に組み合わせて、追加に拡張し、減算

データスクラビングとは何ですか?データスクラビングとは何ですか?Apr 16, 2025 am 10:53 AM

データクレンジング:情報に基づいた意思決定のためのデータの正確性と信頼性を確保する 不正確なゲストリストで大家族の再会を計画していると想像してください。 準備が不十分なリストは、イベントを台無しにする可能性があります。 同様に

chattts:テキストをスピーチに変えますchattts:テキストをスピーチに変えますApr 16, 2025 am 10:51 AM

Chattts:リアルな会話でテキストからスピーチに革命をもたらす 会話的に自然なオーディオでポッドキャストまたは仮想アシスタントを作成することを想像してください。 最先端のテキストからスピーチ(TTS)ツールであるChatttsは、書かれたテキストを著しくrに変換します

データサイエンス分析Vidhyaにおけるキャンパス配置のためのヒントデータサイエンス分析Vidhyaにおけるキャンパス配置のためのヒントApr 16, 2025 am 10:40 AM

あなたの夢のデータ科学の仕事を着陸:キャンパスプレースメントガイド 毎年恒例の配置シーズンはこちらです! ジョブハントに圧倒されたと感じていますか?心配しないでください、あなたは一人ではありません。 完璧なデータサイエンスの役割を見つけるのは気が遠くなる可能性がありますが、戦略的アプローチc

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。