Byte AI Lab のコアテクノロジーは、従来の手法と模倣学習を組み合わせた Habitat Challenge 2022 アクティブナビゲーションチャンピオンシップで優勝しました。

Byte AI Lab のコアテクノロジーは、従来の手法と模倣学習を組み合わせた Habitat Challenge 2022 アクティブナビゲーションチャンピオンシップで優勝しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2023 pm 11:37 PM

ロボットai lab

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

オブジェクトのナビゲーションは、インテリジェントロボットの基本的なタスクの 1 つです。このタスクでは、知能ロボットは未知の新しい環境で人間が指定した特定の種類のオブジェクトを積極的に探索して見つけます。オブジェクトターゲットナビゲーションタスクは、将来のホームサービスロボットのアプリケーションニーズを指向しています。水を一杯飲むなど、人間がロボットに特定のタスクを完了させる必要がある場合、ロボットはまず水カップの位置を見つけて移動する必要があります。、そして人々が水のカップを手に入れるのを手伝います。

ハビタットチャレンジは、Meta AI などが共催するオブジェクトナビゲーション分野の著名なコンテストの 1 つで、2022 年現在 4 年連続で開催されています。この大会には54チームが参加しました。コンテストでは、ByteDance AI Lab-Research チームの研究者が、既存の方法の欠点に対処するための新しいオブジェクトターゲットナビゲーションフレームワークを提案しました。このフレームワークは、模倣学習と従来の手法を巧みに組み合わせて、群衆から抜きん出てチャンピオンシップに勝ちます。主要指標であるSPLにおいて、2位以下の参加チームの成績を大きく上回る成績。歴史的に、このイベントの優勝チームは、CMU、UC Berkerly、Facebook などの一般的に有名な研究機関です。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

テスト標準リスト

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

テストチャレンジリスト

ハビタットチャレンジ公式ウェブサイト: https ://aihaveat.org/challenge/2022/

ハビタットチャレンジコンペティションリーダーボード: https://eval.ai/web/challenges/challenge-page/1615/leaderboard

1 . 研究動機

現在のオブジェクトターゲットナビゲーション方法は、エンドツーエンド方法とマップベース方法の 2 つのカテゴリに大別できます。エンドツーエンド手法では、入力センサーデータの特徴を抽出し、それを深層学習モデルに送信してアクションを取得します。このような手法は、一般に強化学習または模倣学習に基づいています (図 1 マップレス手法)。ベースの手法は一般に、明示的または暗黙的なマップを構築し、強化学習やその他の手法を通じてマップ上のターゲットポイントを選択し、最後に経路を計画してアクションを取得します (図 1 マップベースの手法)。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

図 1 エンドツーエンド方式 (上) とマップベース方式 (下) のフローチャート

After多くの実験 2 種類の方法を比較した結果、研究者らは 2 種類の方法にそれぞれ長所と短所があることを発見しました。エンドツーエンドの方法は環境のマップを構築する必要がないため、より簡潔です。さまざまなシナリオでより強力な汎化能力を備えています。ただし、ネットワークは環境の空間情報をエンコードすることを学習する必要があるため、大量のトレーニングデータに依存し、ターゲットオブジェクトの近くで停止するなど、いくつかの単純な動作を同時に学習することは困難です。マップベースの方法では、ラスターを使用してフィーチャまたはセマンティクスを保存し、明示的な空間情報を持っているため、このタイプの動作の学習しきい値は低くなります。ただし、正確な測位結果に大きく依存しており、階段などの一部の環境では、知覚と経路計画戦略の人為的な設計が必要になります。

上記の結論に基づいて、ByteDance AI Lab-Research チームの研究者は、2 つの方法の利点を組み合わせたいと考えています。ただし、これら 2 つの手法のアルゴリズムプロセスは大きく異なるため、これらを直接組み合わせることが困難であり、また、2 つの手法の出力を直接統合する戦略を設計することも困難です。そこで研究者らは、ロボットの状態に応じて2種類の方法で能動的な探索と物体の探索を交互に実行し、それぞれの利点を最大化するシンプルかつ効果的な戦略を設計した。

2. 競争方法

アルゴリズムは主に、確率マップベースの分岐とエンドツーエンド分岐の 2 つの分岐で構成されます。アルゴリズムの入力は、ファーストビューの RGB-D 画像とロボットのポーズ、および検索対象のオブジェクトカテゴリであり、出力は次のアクション (アクション) です。 RGB 画像は最初にセグメント化され、他の生の入力データとともに両方のブランチに渡されます。 2 つのブランチはそれぞれ独自のアクションを出力し、切り替え戦略によって最終的な出力アクションが決まります。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

図 2 アルゴリズムフローの概略図

確率マップベースのブランチ

確率マップベースのブランチは、セマンティックリンクマップ[2]のアイデアに基づいており、 IROS Robot Conference[3]の手法が簡略化されました。このブランチは、入力インスタンスのセグメンテーション結果、深度マップ、およびロボットのポーズに基づいて 2D セマンティックマップを構築しますが、一方で、オブジェクト間の事前学習された関連付け確率に基づいて確率マップを更新します。

確率マップの更新方法には、次のような方法があります。ターゲットオブジェクトが検出されたものの、十分な確信が持てない場合 (信頼スコアがしきい値より低い場合)、この時点ではさらに近づいて観察を続ける必要があるため、対応するエリアは確率マップ上の確率値は増加する必要があります (図 3 の上部に示すように)。同様に、ターゲットオブジェクトに関連するオブジェクトが検出された場合 (たとえば、テーブルと椅子が一緒に配置されている確率が比較的高い)、対応する領域の確率値も増加します (以下の図 3 を参照)。最も確率の高い領域をターゲットポイントとして選択することで、アルゴリズムは、ロボットがしきい値よりも高い信頼確率でターゲットオブジェクトを見つけるまで、さらなる観察のために潜在的なターゲットオブジェクトおよび関連オブジェクトに近づくことを奨励します。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

#図 3 確率マップ更新方法の概略図

エンドツーエンド分岐

エンドツーエンドブランチの入力には、RGB-D 画像、インスタンスセグメンテーション結果、ロボットのポーズ、ターゲットオブジェクトカテゴリが含まれ、アクションは直接出力されます。エンドツーエンドブランチの主な機能は、ロボットが人間のような物体を見つけられるようにガイドすることであるため、Habitat-Web[4] メソッドのモデルとトレーニングプロセスが採用されています。この方法は模倣学習に基づいており、トレーニングセット内のオブジェクトを探している人間の例を収集することによってネットワークがトレーニングされます。

スイッチング戦略

スイッチング戦略は主に確率マップとパス計画の結果に基づいており、確率マップ分岐によって出力される 2 つのアクションのうち 1 つを選択し、最終出力としてのエンドツーエンドブランチ。確率マップにしきい値を超える確率を持つラスターがない場合、ロボットは環境を探索する必要があります。マップ上で実行可能な経路を計画できない場合、ロボットは特殊な環境 (階段など) にいる可能性があります。どちらの場合もエンドツーエンド方式が使用され、エンドツーエンドの分岐によりロボットは十分な環境適応性を得ることができます。他の場合には、ターゲットオブジェクトを見つける際の利点を最大限に活用するために、確率マップブランチが選択されます。

この切り替え戦略の効果はビデオで示されています。ロボットは通常、環境を効率的に探索するためにエンドツーエンドブランチを使用します。ターゲットオブジェクトまたは関連オブジェクトの可能性が見つかると、詳細な観察のための確率マップ分岐。ターゲットオブジェクトの信頼確率がしきい値より大きい場合、ターゲットオブジェクトで停止します。そうでない場合は、より高い確率を持つグリッドがなくなるまで、エリア内の確率値は減少し続けます。しきい値を超えると、ロボットはエンドツーエンドに切り替えて探索を続行します。

ビデオからわかるように、この方法は、エンドツーエンドのアプローチとマップベースのアプローチの両方の利点を組み合わせています。 2 つのブランチはそれぞれ独自の役割を果たし、エンドツーエンド手法は主に環境の探索を担当し、確率マップブランチは関心領域の近くの観察を担当します。したがって、この方法では、複雑なシーン (階段など) を探索できるだけでなく、エンドツーエンドブランチのトレーニング要件も軽減できます。

3. 概要

オブジェクトアクティブターゲットナビゲーションタスクに関して、ByteDance AI Lab-Research チームは、古典的な確率マップと最新の模倣学習を組み合わせたフレームワークを提案しました。このフレームワークは、従来の手法とエンドツーエンドのアプローチを組み合わせるという成功した試みです。 Habitat コンテストでは、ByteDance AI Lab-Research チームが提案した手法が 2 位や他の参加チームの結果を大幅に上回り、アルゴリズムの進歩を証明しました。現在主流のEmbedded AIのエンドツーエンド手法に従来の手法を導入することで、エンドツーエンド手法のいくつかの欠点をさらに補うことができ、それによってインテリジェントロボットが人々を助け、奉仕する道をさらに前進させることができます。

最近、ロボット工学分野における ByteDance AI Lab-Research チームの研究は、CoRL、IROS、ICRA などの主要なロボット工学カンファレンスにも参加しています。これには、オブジェクトの姿勢推定、オブジェクトの掴み、ターゲットナビゲーション、自動制御などが含まれます。組み立て、人間とコンピューターの対話、およびロボットのその他の中心的なタスク。

【CoRL 2022】セマンティックプリミティブを使用した生成カテゴリレベルの形状と姿勢の推定

【IROS 2022】インスタンスエンコードトランスフォーマーを使用した 3D パーツアセンブリの生成

【IROS 2022 】距離予測による目に見えない環境の物体へのナビゲーション

論文アドレス: https://arxiv.org/abs/2202.03735

[EMNLP 2022] 参照式の生成と理解の統合に向けて

論文アドレス: https://arxiv.org/pdf/2210.13076

[ICRA 2022] 優先メモリリセットによるさまざまなサイズの材料を使用した設計と構築の学習

論文アドレス：https://arxiv.org/abs/2204.05509

【IROS 2021】6-DoF 把握ポーズ推定のためのセマンティック学習と衝突学習の同時学習

論文アドレス：https ://arxiv.org/abs/2108.02425

[IROS 2021] ブループリントを使用しない橋の設計と建設の学習

論文アドレス: https://arxiv.org /abs/2108.02439

4. 参考文献

[1] Yadav、Karmesh、他「Habitat-Matterport 3D Semantics Dataset」arXiv プレプリント arXiv:2210.05633 (2022) 。

[2] Zeng、Zhen、Adrian Röfer、Odest Chadwicke Jenkins「アクティブなビジュアルオブジェクト検索のためのセマンティックリンクマップ」2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE、2020.

[3] Minzhao Zhu、Binglei Zhao、Tao Kong「距離予測による目に見えない環境のオブジェクトへの移動」 arXiv プレプリント arXiv:2202.03735 (2022).

[4] Ramrakhya、Ram、他「Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstration at Scale」、コンピュータビジョンとパターン認識に関する IEEE/CVF 会議議事録、2022.

5. 私たちについて

Bytedance AI Lab NLP&Research は、人工知能分野の最先端技術研究に焦点を当てており、自然言語処理やロボット工学などの複数の技術研究分野をカバーしており、研究成果を社会に還元することにも尽力しています。同社の既存の製品とビジネスは、中核となる技術サポートとサービスを提供します。チームの技術力は Volcano Engine を通じて外部に公開され、AI イノベーションを促進します。

Bytedance AI-Lab NLP&Research 連絡先情報

採用相談: fankaijing@bytedance.com
学術協力: luomanping@bytedance.com

以上がByte AI Lab のコアテクノロジーは、従来の手法と模倣学習を組み合わせた Habitat Challenge 2022 アクティブナビゲーションチャンピオンシップで優勝しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。