ロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加-AI-php.cn

ホームページ

テクノロジー周辺機器

ロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加

王林

Apr 12, 2023 pm 08:22 PM

ロボットアマゾンチャレンジ

ロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

2022年5月23日、ロボット工学分野の年次トップ国際会議であるICRA 2022 (IEEE International Conference on Robotics and Automation)が米国フィラデルフィアで予定通り開催されました。

ICRA は今年で 39 年目になります。 ICRA は、IEEE ロボット工学およびオートメーション協会の主力会議であり、ロボット研究者が研究成果を発表し議論するための主要な国際フォーラムです。

今年の ICRA では、Amazon のロボット工学の主任専門家である Sidd Srinivasa、Tye Brady、Philipp Michel の 3 人が、現実世界での人間と機械の相互作用のためのロボットシステムを構築する際の課題について簡単に議論しました。

ロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加

注: 左から右へ、Amazon Robotics の人工知能担当ディレクターである Sidd Srinivasa 氏、Amazon Robotics (グローバル) のチーフテクニカルエキスパート、およびシニアマネージャーの Tye Brady 氏です。 Amazon の応用科学スカウト Philipp MichelSidd

Srinivasa は世界的に有名なロボット工学の専門家であり、IEEE フェローであり、現在はワシントン大学ボーイング社の特別教授であり、Amazon ロボット人工知能プロジェクトのリーダーです。アマゾン物流センターの従業員を支援する自律型ロボットのアルゴリズム管理を担当し、商品の梱包・梱包を行うロボットや、自律的に商品の持ち上げ・降ろし・搬送を行うカート型ロボットの研究を行っています。

Tye Brady は、Amazon Robotics (グローバル) の主任技術専門家であり、MIT で航空宇宙工学の修士号を取得しています。 Philipp Michel と Sidd Srinivasa はどちらも CMU Robotics Institute の博士課程の卒業生であり、Amazon の Scout ロボットプロジェクトの上級マネージャーです。

彼らは、ロボット着陸の課題の解決について独自の見解を発表しました。 AI テクノロジーのレビューは、その本来の意味を変えることなく次のようにまとめられています:

Q: ロボット工学の分野におけるあなたの研究は、さまざまな問題を解決していますが、これらの問題の類似点は何ですか?

シッドスリニヴァーサ: ロボット研究における重要な困難は、私たちがオープンワールドに住んでいることです。「入力」が何に直面しようとしているのかさえわかりません。当社のフルフィルメントセンターでは 2,000 万点を超える商品を管理しており、その数は毎日数百点ずつ増加しています。ほとんどの場合、私たちのロボットは拾う品物が何であるかを知りませんが、慎重に品物を拾い上げ、損傷することなく迅速に梱包する必要があります。

フィリップ・ミシェル: スカウトにとって、困難なのは歩道で遭遇する物体と交通環境です。当社は全米 4 つの州に民間の配送施設を展開しています。気象条件、照明条件...ロボットが複雑な環境に適応できるようにするには、多数の変数に対処する必要があることは最初から明らかでした。

Tye Brady: 実行ロボットの開発プロセスにおいて、私たちは半構造化された環境で動作するという大きな利点を持っています。私たちはロボットのための独自の交通ルールを作ることができ、環境を理解することは、科学者やエンジニアが注文を満たすために移動、操作、分類、識別したい物体を深く理解するのに非常に役立ちます。つまり、現実世界でのテクノロジーの追求を実現できるのです。

フィリップ・ミシェル: 私たちにもう 1 つ共通しているのは、問題を解決するためにデータからの学習に大きく依存していることです。 Scout はタスクを実行する際に現実世界のデータを受け取り、知覚、位置特定、ナビゲーションのための機械学習ソリューションを反復的に開発します。

Sidd Srinivasa: 私も完全に同意します（データから問題を解決する方法を学ぶ）。機械学習と適応制御が超線形スケーリングの鍵だと思います。数千台のロボットを導入する場合、何千人もの科学者やエンジニアがロボットに取り組むことはできず、超直線的な成長を達成するには実世界のデータに依存する必要があります。

また、オープンワールドでは「学び続ける」ということをどうやって考えていくかということも考えざるを得ないと思います。私たちの機械学習モデルは多くの場合、いくつかの入力データの分布に基づいてトレーニングされますが、これはオープンワールドであるため、「共変量シフト」、つまり、表示されるデータが分布と一致しないという問題に遭遇することになります。学習モデルは理由もなく自信過剰になることがよくあります。

したがって、私たちが行う作業の多くは、入力データの分布がトレーニングに使用された分布から逸脱する時期を特定するために「ウォッチドッグ」(ウォッチドッグ、監視デバイス) を作成することです。次に、変更されたデータを抽出して機械学習モデルを再トレーニングできるように、「重要度サンプリング」を実行します。

Philipp Michel: これが、ロボットが遭遇する可能性のある実際のデータを早い段階で知ることができるように、さまざまな場所でロボットをトレーニングしたい理由の 1 つです。そのため、新しいデータに対応するソリューションを開発する必要があります。

シッド・スリニヴァーサ: これは確かに良いアイデアです。複数のロボットを使用する利点の 1 つは、システムが変更されたコンテンツを認識し、再トレーニングし、この知識を他のロボットと共有できることです。

仕分けロボットに関するストーリーを考えてみましょう: 世界の片隅で、ロボットが新しいタイプの包装に遭遇します。最初はこんなもの見たことがなく認識できずに困っていました。そこで、新しいソリューションが登場しました。それは、新しい包装タイプを世界中のすべてのロボットに送信できるロボットです。そうすれば、この新しい包装タイプが他の場所に現れたとき、他のロボットはそれをどう扱うべきかを知ることができます。これは、「バックアップ」を持つことと同じであり、ある時点で新しいデータが出現すると、システムが再学習して情報を共有できるため、他のポイントもそれを知ることができます。

フィリップ・ミシェル: 私たちのロボットも同様のことをしています。ロボットがこれまでに遭遇したことのない新しい障害物に遭遇した場合、それらの障害物を認識して対処するようにモデルを調整し、新しいモデルをすべてのロボットに展開しようとします。

私が夜も眠れなくなることの 1 つは、ロボットが歩道で次のような新しい物体に遭遇し、今後 3 年間は二度と遭遇しないだろうという考えです。歩道にいる人々ガーゴイルハロウィーンの芝生を飾るために使用されたり、「ピクニックテーブル」のように見えないようにするためにピクニックテーブルに傘を置いたりします。この場合、すべての機械学習アルゴリズムは、これがピクニックテーブルであることを認識できません。

つまり、私たちの研究の一部は、特定のカテゴリの物事と絡める必要のない一般的な物事のバランスをとる方法に関するものです。これが開いたマンホールの蓋の場合、ロボットはそれを識別するのが上手でなければなりません。そうしないと、蓋が落ちてしまいます。しかし、それが単なるランダムなボックスの場合は、おそらくボックスの階層を知る必要はなく、これが歩き回りたいオブジェクトであることだけを知る必要があります。

Sidd Srinivasa: もう 1 つの課題は、モデルを変更すると、意図しない結果が生じる可能性があることです。変更されたモデルはロボットの知覚には影響しないかもしれませんが、ロボットの「ブレーキ」の方法が変更され、2 か月後にボールベアリングが摩耗する可能性があります。エンドツーエンドシステムでは、将来の興味深い研究の多くは、「システムの一部の変更がシステム全体のパフォーマンスに及ぼす影響を理解する」ことに関するものです。

Philipp Michel: 私たちは、ロボットスタックのさまざまな部分を分割する必要があるかどうかについて、多くの時間を費やして検討しました。両者を統合すると多くのメリットがもたらされますが、限界もあります。極端な例としては、カメラからモーター、トルクへの学習が挙げられますが、これは現実世界のロボット工学アプリケーションでは非常に困難です。次に、従来のロボットスタックがあります。これは、位置特定、認識、計画、制御などの部分にうまく分割されています。

私たちはまた、スタックが時間の経過とともにどのように進化すべきか、そしてこれらの部分を近づけるとどのようなパフォーマンスの向上があるのかについて考えることに多くの時間を費やしました。同時に、できる限り解釈可能なシステムを構築したいと考えています。私たちは、解釈可能性と安全機能の数を維持しながら、スタック全体を活用して学習コンポーネントの統合を最大限に高めることを試みます。

シッドスリニヴァーサ: これは素晴らしい点です。私はフィリップの見解に完全に同意します。1 つのモデルを使用してすべてのモデルを支配するのは正しくないかもしれません。しかし、多くの場合、複数の適用ヘッドとバックボーンを共有する機械学習モデルを構築することになります。オブジェクトとは何ですか?また、オブジェクトをセグメント化するとはどういう意味ですか?それはピッキング、積み上げ、梱包のようなものかもしれませんが、それぞれの作業に特化したバックボーンに乗っている専門的な頭が必要です。

Philipp Michel: 私たちが考慮する要素には、バッテリー、航続距離、温度、スペース、コンピューティングの制約などがあります。したがって、モデルを効率的に使用し、モデルを最適化し、シッドが述べたように、異なるタスクに異なるヘッドを配置するなど、共有されたバックボーンを可能な限り活用する必要があります。

ロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加

キャプション: Amazon Scout は、公共の歩道を歩く速度で移動できる自律型配送ロボットで、現在米国の 4 つの州でフィールドテストが行われています。

Q: あなたのプロジェクトの共通点について尋ねたとき、あなたのロボットがすべて人間と同じ環境で動作するということが頭に浮かびました。なぜこれが問題を複雑にするのでしょうか?

シッドスリニヴァーサ: ロボットは人間の生活に近づいており、私たちは人間の世界で起こるすべての複雑な相互作用を尊重する必要があります。歩いたり、運転したり、タスクを実行したりすることに加えて、複雑な社会的相互作用もあります。ロボットにとって重要なことは、第一に意識を持つこと、第二に関与することです。

運転中、他の人が何を考えているかを理解し、彼らの考えに基づいてどのように行動するかを決めるのが難しい場合があります。問題について推論するだけでも困難ですが、ループを閉じるのはさらに困難です。

ロボットがチェスをしたり、人間と対戦したりする場合、ルールがすでに明確に定められているため、ロボットが何をするかを予測するのははるかに簡単です。対戦相手が最適であると仮定すれば、たとえ相手が最適ではなかったとしても、自分はうまくいくでしょう。一部の 2 人用ゲームではこれが保証されています。

しかし、実際の状況はそうではなく、このようにwin-winの状況を保証する協力ゲームをプレイすると、協力者がたとえ協力者に能力を持っていたとしても、ゲーム中に正確に予測することは実際には困難であることがわかります。善意。

フィリップ・ミシェル: そして、人間世界の行動は大きく変わります。ペットによってはロボットを完全に無視したり、ロボットに向かって歩いてきたりするペットもいます。歩行者も同様で、ロボットを見て見ぬふりをする人もいれば、ロボットのすぐ近くまで歩いてくる人もいる。特に子供たちは非常に好奇心旺盛で、非常にインタラクティブであるため、私たちはあらゆる状況に安全に対処できる必要があり、こうした変化は興味深いものです。

以上がロボット実装の「秘密」: 継続的な学習、知識の伝達、自律的な参加の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。