バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない-AI-php.cn

ホームページ

テクノロジー周辺機器

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

王林

Feb 01, 2024 am 09:48 AM

業界ロボット技術fmb機能制御

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

#人工知能とロボット技術の急速な発展に伴い、ロボット工学における機能操作の重要性がますます顕著になってきています。従来のベンチマークテストでは、複雑な操作タスクに対するロボットの現在のニーズを満たすことができなくなり、新しい操作ベンチマーク (機能操作ベンチマーク) の出現が求められています。

概要

ロボット制御は 2 つの主要な課題に直面しています: ロボットがどのようにインテリジェントに複雑に対処するか接触のダイナミクスと、環境や物の多様性にどのように対応するか。これらの課題に対して、ロボット学習技術が重要な解決策として注目されています。したがって、この分野には、困難な現実世界のタスク、高品質のデータ、簡単に複製可能な設定、およびベースライン結果を統合する関連手法を提供する、包括的でアクセスしやすいフレームワークが必要です。このフレームワークに基づいて、研究者は提案されたタスクについて実験を行うことができます。徹底的な分析。

カリフォルニア大学バークレー校のロボティクスインテリジェント研究所 (RAIL) の研究チームは、FMB (Functional Manipulation Benchmark for Generalizable) と呼ばれる、前述のような現実世界のベンチマークを提案しました。ロボット学習)。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

プロジェクトのホームページ: https://function-manipulation-benchmark.github.io/
論文アドレス: https://arxiv.org/abs/2401.08553
論文タイトル: FMB: 一般化可能なロボット学習のための関数操作ベンチマーク
共同筆頭著者のホームページ: https://people.eecs.berkeley.edu/~jianlanluo/
https://charlesxu0124.github.io/

FMB には次の特徴があります。

革新的なデザイン: 3D プリンティング技術を使用して製造タスク内のオブジェクトはロボットの汎化能力をテストするために使用され、この方法は他の研究者も簡単に再現できます。
多様なタスク: 単一オブジェクトおよび複数オブジェクトの多段階操作タスクを含み、日常環境における課題を真にシミュレートします。
大規模なデータセット: 多数の人によるデモンストレーションを通じて、ロボットには豊富なデータセットが提供されます。
模倣学習ベースライン: 最先端の機械学習手法を使用して、ベースライン結果とモジュール式コンポーネントが他の研究者による使用のために提供されます。

#オブジェクトとタスク

FMB のタスクは次のとおりです。単一オブジェクトのマルチステップ操作タスクと、複数オブジェクトのマルチステップ操作タスクの 2 つのカテゴリに大別されます。これらのタスクは、タスク全体を完了するために必要な、把握、位置変更、組み立てなどのロボットの基本スキルをテストするように設計されています。 FMB のタスクでは、ロボットが単一の制御スキルを完了するだけでなく、ロボットがこれらのスキルを組み合わせて、より複雑な複数ステップのタスクを完了することも要求されます。

FMB のタスク設計は柔軟で変更可能です。研究者は、必要に応じて 1 つのスキルに焦点を当てることも、ロボットの制御機能を詳しく研究することも、複数ステップのタスク全体を研究することもできます。これには、ロボット側での長期的な計画と、障害から回復する能力が必要です。より複雑なマルチステップタスクでは、適切なオブジェクトを選択し、それらを操作する順序について推論する必要があるため、ロボットは複雑なリアルタイムの決定を行う必要があります。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

大規模なデータセット

ロボット学習のプロセスにおいて、データの役割を過小評価することはできません。ロボットが複雑なタスクをよりよく理解して習得できるようにするために、研究チームは、上記のタスクをカバーする、20,000 以上の操作軌跡を含む大規模な専門家による人間によるデモンストレーションデータセットを収集しました。研究チームはこれらのデモンストレーションデータを記録するために4台の異なるカメラを使用し、そのうちの2台はロボットの手首に取り付けられ、そのうちの2台は全体的な視点を提供しました。これらのカメラは、ロボットがタスクを解決する方法を学習するために重要な RGB カラー画像情報、深度情報などのデータをキャプチャします。

さらに、データセットにはロボットのエンドエフェクターの力/トルク情報も記録されます。これは、多数の物体との接触が必要な組み立てなどの作業にとって非常に重要です。。この豊富なデータを通じて、ロボットはタスクのあらゆる詳細を深く理解し、人間の操作スキルをより正確に模倣することができます。データの深さと広さこそが、ロボット学習の強固な基盤となるのです。これにより、ロボットは複雑なタスクを実行する際に、より人間らしく、器用にタスクに応答できるようになります。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

#模倣学習ベースライン

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

ベースライン戦略のアーキテクチャ図。

Transformer と ResNet に基づく両方のモデルは、共有重みを持つ ResNet エンコーダーを使用して各画像ビューをエンコードし、それを固有受容情報と組み合わせて選択可能ですオブジェクトは、対応するロボットスキルのエンコーディング機能と組み合わされて、7 自由度のアクションを予測します。

#FMB の実験部分では、模倣学習システムのパフォーマンスに関する一連のテストを実施し、さまざまな学習方法を比較し、さまざまな入力モードと設計上の決定の影響を調査します。実験の結果、深さ情報を使用すると把握戦略の有効性が向上し、力/トルク情報は組み立て作業にとって非常に重要であることがわかりました。マルチステップタスクの場合、従来の ResNet、Transformer、および Diffusion 手法は失敗しましたが、この論文で提案された階層制御手法は可能性を示しています。

#クロールタスク

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない実験結果は、深さ情報を組み込んだ ResNet 戦略が有効であることを示しています。クロールタスクのパフォーマンスは、RGB 情報のみを使用する戦略よりも一貫して優れています。データ削減の研究を通じて、研究チームは、さまざまな量のトレーニングデータがクローリングタスクのパフォーマンスに与える影響を調査しました。この結果は、認識されたオブジェクトを処理するときに深度情報を組み込む ResNet 戦略のパフォーマンスが、トレーニングデータの量が増加するにつれて向上することを示しています。特に、この戦略は、目に見えないオブジェクトに対して、見えているオブジェクトと同様のパフォーマンスを示し、トレーニングオブジェクトの多様性がロボットの汎化能力に大きく寄与していることを示しています。

組立作業

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない組立作業における力/トルク情報の重要性確認済み。力/トルク情報は、物体がターゲット表面に接触したかどうかを判断し、探索などのアクションを効果的に実行するためにロボットが採用する戦略にとって非常に重要です。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない #ただし、ポリシーがすべてのオブジェクトに対してトレーニングされている場合、ロボットが常に組み立てタスクを正常に完了できるとは限りません。これは、戦略ではまずオブジェクトをどの穴にはめ込むかを決定し、次に対応するアクションを生成する必要があり、タスクの複雑さが大幅に増加するためです。この問題を解決するために、研究チームは、戦略が組み立てる必要があるオブジェクトの形状を決定できるようにするオブジェクト選択メカニズムを戦略に追加し、それによって正しい組み立てアクションを生成することに重点を置きました。

#複数ステップのタスク

FMB のフレームワークには 2 つの複雑なタスクが含まれています。これらの複雑なタスクでは、ロボットが人間と同じように複数のステップを連続して完了できる必要があります。以前の方法はロボットにプロセス全体を学習させることでしたが、この方法では単一のリンクでのエラーによりエラーが蓄積し、最終的にはタスク全体の失敗につながる傾向がありました。このアプローチの成功率は、単一オブジェクト操作タスクと複数オブジェクト操作タスクの両方で 0/10 です。

累積エラーの問題に対処するために、研究チームは階層型制御戦略を採用しました。階層戦略により、タスクがいくつかの小さな部分に分解されます。完成した各部分は、決定点を通過することに相当します。エラーが発生した場合でも、後続のリンクへの影響を回避するために、すぐに修正できます。たとえば、ロボットが物体を掴む際に確実に掴むことができなかった場合、成功するまで試行を続けます。

研究チームは 2 つの階層的アプローチをテストしました。1 つ目は単一ポリシーのタスクタイプを示す有効なベクトルを提供し、2 つ目はそれぞれのポリシーを提供します。制御スキルは個別にトレーニングされます。どちらもオペレーターの指示を上位レベルの戦略として使用し、異なる戦略を使用してテストを行ったところ、研究チームは両方の方法が良好に機能したことを発見しました。

テスト結果は、複雑なロボットタスクの処理における階層的アプローチの有効性を示し、将来の研究に新たな方向性を提供します。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

#上の図に示すように、ロボットは学習後、自律的に機能制御を実行できます。

バークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくない

全体として、上記の実験は、ロボット学習分野における研究チームの技術革新を実証し、FMB が高度なロボット学習方法の開発に適したベンチマークであることも検証しました。。研究チームは、FMBに基づくロボット学習の限界をさらに押し上げることができる将来の研究を楽しみにしています。

以上がバークレーのオープンソース高品質大規模ロボット制御ベンチマーク、複雑な自律制御タスクに直面するのはもはや難しくないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、