ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。-AI-php.cn

ホームページ

テクノロジー周辺機器

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 18, 2023 pm 08:53 PM

ロボットai

複雑な環境における透明な物体の認識と把握は、ロボット工学とコンピュータービジョンの分野で認識されている問題です。最近、清華大学深セン国際大学院のチームと共同研究者は、RGBカメラと触覚センシング機能を備えた機械爪TaTaに基づいた視覚と触覚の融合透明物体把握フレームワークを提案し、sim2realを使用して把握位置検出を実現しました。透明なオブジェクトの。このフレームワークは、ガラスの破片などの不規則な透明物体を把握する問題を解決できるだけでなく、重なり、積み重ねられ、不均一な砂の山、さらには非常にダイナミックな水中の透明物体を把握する問題も解決できます。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

透明な物体は、その美しさ、シンプルさなどの特徴により、生活の中で広く使用されています。たとえば、厨房、店舗、工場などで見られます。透明な物体は一般的ですが、透明な物体を掴むことはロボットにとって非常に難しい問題です。主な理由は 3 つあります:

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。 Picture

1. 独自のテクスチャ属性がありません。透明物体の表面の情報は環境の変化とともに変化し、生成されるテクスチャは主に光の屈折と反射によって引き起こされるため、透明物体の検出は非常に困難になります。

2. 透明なデータセットのアノテーションは、通常のオブジェクトのアノテーションよりも困難です。実際のシーンでは、人間がガラスなどの透明物体を区別することが難しい場合があり、ましてや透明物体の画像にラベルを付けることは困難です。

3. 透明な物体の表面は滑らかなので、掴む位置が少しでもずれると掴み作業が失敗する可能性があります。

したがって、さまざまな複雑なシーンにおける透明物体を把握するという問題を、できるだけ少ないコストでどのように解決するかが、透明物体研究の分野において非常に重要な課題となっています。最近、清華大学深セン国際大学院のインテリジェント知覚ロボット工学チームは、透明物体の検出と掴みを実現するために、視覚と触覚の融合に基づいた透明物体掴みフレームワークを提案した。この方法は、掴み成功率が非常に高いだけでなく、さまざまな複雑なシーンでの透明なオブジェクトの掴みにも適応できます。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

次の論文リンクをご覧ください: https://ieeexplore.ieee.org/document/10175024

この論文の責任著者である清華大学深セン国際大学院の丁文波准教授は次のように述べています。「ロボットは在宅サービスの分野で大きな応用価値を示していますが、現在のロボットは単一分野に焦点を当てた汎用的なものである｡提案されたロボット把持モデルはロボット技術の推進と応用に大きな推進力をもたらす｡研究対象として透明物体を使用しているが､この枠組みは把持分野にも容易に拡張できる｡「

論文の責任著者であり、清華大学深セン国際大学院の研究者であるLiu Houde氏は、次のように述べています。「家庭内の構造化されていない環境は、ロボットの実用化に大きな課題をもたらしましたが、私たちは知覚のために視覚と触覚を統合し、人間が外界と対話するときの知覚プロセスをさらにシミュレートし、複雑なシナリオにおけるロボットアプリケーションの安定性に対するさまざまな保証を提供します。私たちが提案する視覚と触覚のフレームワークは、聴覚などのより多くのモダリティにも拡張できます。」

研究状況

透明な物体の把握このタスクでは、掴みのプロセス中に物体の位置を検出することに加えて、掴む位置と角度も考慮する必要があります。現在、透明なオブジェクトを把握する作業のほとんどは、単純な背景を持つ平面上で実行されますが、実際には、ほとんどのシーンが実験環境ほど理想的ではありません。ガラスの破片、山、重なり、起伏、砂、水中のシーンなどの一部の特別なシーンは、より困難です。

###

まず第一に、ガラス片は固定モデルのない物体であり、形状がランダムで変化しやすいため、把握ネットワークや把握ツールの汎用性が高く求められます。
第二に、起伏のある平面上の透明なオブジェクトをつかむことも困難です。下図に示すように、透明なオブジェクトの奥行き情報を正確に取得するのは難しい一方で、起伏のあるシーンには影、重なり、反射領域が存在するため、検出がより困難になります。透明なオブジェクトの。
第三に、水と透明な物体は光学的性質が似ているため、水中シーンで透明な物体を把握することも課題です。深度カメラを使用しても、水中で透明な物体を正確に検出することはできず、さまざまな方向からの光に照らされると状況はさらに悪化します。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

アルゴリズム設計

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

把持アルゴリズムの設計を図に示す. 透明物体の把持を実現するために, 透明物体の把持位置検出アルゴリズム, 触覚情報抽出アルゴリズム, をそれぞれ提案した。視覚と触覚の融合分類アルゴリズム。データセットのラベル付けのコストを削減するために、Blender を使用して合成データセット SimTrans12K を取得するマルチ背景の透明オブジェクトを作成しました。これには 12,000 枚の合成画像と 160 枚の実際の画像が含まれています。データセットに加えて、透明な物体の固有の光学特性に対するガウスマスクアノテーション方法も提案します。実行者としてジャミンググリッパーを使用するため、合成データセットでのトレーニング後に良好な検出結果を達成できる、それに特化した把握ネットワーク TGCNN を提案します。

把握フレームワーク

上記のアルゴリズムを統合して、さまざまなシナリオで透明なオブジェクトのキャプチャを完了しました。、これは、ビジュアルタッチ融合フレームワークの上位レベルのグラブ戦略を構成します。把持タスクを物体分類，把持位置検出，把持高さ検出の 3 つのサブタスクに分解する。各サブタスクは、視覚、触覚、または視覚と触覚の組み合わせによって達成できます。

人間の掴み動作と同様に、視覚が物体の正確な位置を直接取得できる場合、図に示すように、手を制御して物体に直接到達し、掴みを完了することができます。以下（A）を示します。視覚では物体の位置情報が正確に得られない場合、視覚で物体の位置を推定した後、手の触覚センシング機能を利用して物体が接触し、適切な把持位置が得られるまでゆっくりと把持位置を調整します。以下に示すように、(B) に示すように到達します。限られた視野条件下で物体を掴む場合、下図(C)に示すように、非常に非効率ではありますが、手の豊かな触覚神経を使って対象物の可能な範囲を探索します。 , ただし、これは、これらの特殊なシナリオでオブジェクトの取得を解決する効果的な方法です。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

人間の把握戦略にヒントを得て、透明オブジェクトの把握タスクを 3 つのタイプに分類します。複雑な背景を持つ平面、下図に示すように、不規則なシーンや視覚的に検出できないシーンが含まれます。 1 つ目のタイプでは視覚が重要な役割を果たしており、このシナリオでの把握方法を視覚優先の把握方法と定義します。 2 番目のタイプでは、視覚と触覚が連携することができ、このシナリオの把握方法を視覚触覚把握と定義します。最後のタイプでは、視覚が失われ、触覚が支配的に作業が行われる可能性があり、このシナリオの把握方法をタッチファースト把握方法と定義します。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。写真

視覚先行把握法のフローを下図に示します。掴んだ位置と高さを取得し、次に触覚情報を使用して位置キャリブレーションを取得し、最後に視覚触覚融合アルゴリズムを使用して分類します。視覚触覚把握は以前のものに基づいており、タッチを使用してオブジェクトの高さを取得できる THS モジュールが追加されています。触覚優先の把握アプローチに、触覚を使用して透明なオブジェクトの位置を取得する TPE モジュールが加わりました。

実験検証

提案したフレームワークとアルゴリズムの有効性を検証するために、多数の検証実験を実施しました。

まず、提案した透明物体データセット、アノテーション手法、および把握位置検出ネットワークの有効性をテストするために、異なる背景と明るさの下で合成データ検出実験を実施しました。位置検出実験。次に、視覚触覚融合把握フレームワークの有効性を検証するために、透明物体分類把握実験と透明断片把握実験を設計した。第三に、THS モジュールと TPE モジュールを追加した後のフレームワークの有効性をテストするために、不規則で視覚的に制限されたシーンでの透明物体把握実験を設計しました。

#概要

透明な物体の検出、把握、分類という困難な問題に対処するために、この研究では合成データセットベースの A フレームワークを提案します。視覚と触覚の融合のために。まず、手動で注釈を付けたデータセットの代わりに、Blender シミュレーションエンジンを使用して合成データセットをレンダリングします。

さらに、従来のバイナリアノテーションメソッドの代わりにガウスマスクが使用され、グラブ位置の生成がより正確になります。透明物体の掴み位置を検出するために、著者はTGCNNと呼ばれるアルゴリズムを提案し、複数の比較実験を行った結果、合成データセットのみを学習に使用した場合でも、このアルゴリズムはさまざまな背景や照明に対して良好なパフォーマンスを発揮できることがわかりました。良好な検出を達成するための条件。

視覚検出の限界による掴みにくさを考慮し、本研究ではソフトグリッパーTaTaを組み合わせた触覚キャリブレーション手法を提案する。クロールの成功率。この方法は、純粋な目視による把握と比較して、把握成功率が 36.7% 向上します。

#複雑なシーンにおける透明物体を分類する問題を解決するために、本研究では視覚と触覚の融合に基づく透明物体分類法を提案し、視覚に基づく分類と比較する。単独では、精度が 39.1% 向上しました。

さらに、不規則で視覚的に検出できないシーンで透明オブジェクトの捕捉を実現するために、この研究では視覚情報の欠如を補うことができるTHSおよびTPEモジュールを提案します。以下の掴み問題。研究者らは、さまざまな重ね合わせ、重なり、起伏、砂地、水中シーンなどの複雑なシーンにおける提案されたフレームワークの有効性を検証するために、多数の実験を体系的に設計しました。この研究では、提案されたフレームワークは、煙や濁った水などの視認性の低い環境での物体検出にも適用でき、触覚が視覚検出の不足を補い、視覚と触覚の融合を通じて分類精度を向上できると考えています。

#作者について

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。視覚と触覚の融合透明物体把握プロジェクトの講師は丁さんですWenbo 氏は現在、清華大学深セン国際大学院の准教授として、インテリジェント知覚およびロボット工学の研究グループを率いています。彼の研究対象は主に、信号処理、機械学習、ウェアラブルデバイス、柔軟な人間とコンピュータの相互作用、および機械の知覚などです。彼は以前、清華大学電子工学部で学士号と博士号を取得して卒業し、ジョージア工科大学で博士研究員として勤務し、そこで学者の王忠林氏に師事しました。清華大学特別賞、第47回ジュネーブ国際発明博覧会金メダル、IEEEスコット・ヘルト記念賞、中国電子学会自然科学賞二等賞などを受賞。 Nature Communications、Science Advances、エネルギーと環境科学、Advanced Energy で働いてきました。材料、IEEE TRO/RAL、その他の分野の権威ある学術誌に 70 以上の論文を発表しており、Google によって 6,000 回以上引用されています。学者であり、中国と米国で 10 件以上の特許を承認しています。彼は、権威ある国際信号処理ジャーナル Digital Signal Processing の副編集長、ロボット知覚に関する IEEE JSTSP 特別号の主任ゲスト編集者、および IEEE Signal Processing Society の応用信号処理システム技術委員会のメンバーを務めています。

研究グループのホームページ：http://ssr-group.net/。

ガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。左から右へ: Shoujie Li、Haixin Yu、Houde Liu

この論文の共著者は、Shojie Li (清華大学博士課程学生) と Haixin Yu (清華大学修士課程学生)、責任著者は Wenbo Ding と Houde Liu です。その他の著者は次のとおりです。 Linqi Ye (上海大学)、Chongkun Xia (清華大学)、Xueqian Wang (清華大学)、Xiao-Ping Zhang (清華大学)。その中で、Shojie Li 氏の主な研究方向はロボットの把握、触覚知覚、深層学習であり、筆頭著者として、Soft Robotics、TRO、RAL、ICRA、IROS などの権威あるロボット工学および制御の学術誌や会議で多くの論文を発表しています。 ., 10件の発明特許を認可している. 残りのプロジェクトは10の州および大臣のコンテスト賞を受賞している. 関連する研究成果は、「ICRA 2022 Outstanding Mechanisms and Design Paper Finalists」の筆頭著者に選ばれています. などの栄誉を獲得しています。清華大学将来奨学金奨学金および国家奨学金。

以上がガラスの破片や水中の透明な物体を掴むことができ、清華社は非常に高い成功率で普遍的な透明な物体を掴むフレームワークを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。