近年、大規模な実世界データに対する視覚的な事前トレーニングが大幅に進歩し、ピクセル観察に基づくロボット学習に大きな可能性が示されています。ただし、これらの研究は、トレーニング前のデータ、方法、モデルの点で異なります。したがって、どのタイプのデータ、事前トレーニング方法、モデルがロボット制御をより効果的に支援できるかはまだ未解決の問題です。
これに基づいて、ByteDance 研究チームの研究者は次のことから始めました事前トレーニング データセット、モデル アーキテクチャ、トレーニング方法の 3 つの基本的な視点 視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボット学習に有益ないくつかの重要な実験結果を提供しました。さらに、自己教師あり学習と教師あり学習を組み合わせた、 Vi-PRoMと呼ばれるロボット操作のための視覚事前学習スキームを提案しました。 前者は対照学習を使用して大規模なラベルなしデータから潜在的なパターンを取得し、後者は視覚的な意味論と時間的な動的変化を学習することを目的としています。さまざまなシミュレーション環境や実際のロボットで行われた多数のロボット動作実験により、このソリューションの優位性が証明されています。
- 論文アドレス: https://arxiv.org/pdf/2308.03620.pdf
- #プロジェクト アドレス: https://explore-pretrain-robot.github.io/
EgoNet は ImageNet よりも強力です。対照的な学習方法を通じてさまざまなデータセット (つまり、ImageNet と EgoNet) でビジュアル エンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。以下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクで優れたパフォーマンスを達成しました。明らかに、ロボットは操作タスクに関してビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には世界に関するよりグローバルなコンテキストがあり、より豊富な視覚的特徴を学習できることを意味します
ResNet-50 のパフォーマンスが向上します。以下の表 2 からわかるように、ResNet-50 と ResNet-101 はロボット操作タスクにおいて ResNet-34 よりも優れたパフォーマンスを発揮します。さらに、モデルが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しません。
#事前トレーニング方法
に従って書き直す必要があります。原文の意味 内容は「事前学習法には対照学習が好ましい。以下の表3に示すように、MoCo-v3はImageNetとEgoNetデータセットの両方でMAEを上回っており、マスクと比較して対照学習の方が効果的であることが証明されている」さらに、ロボットの動作には、マスク画像モデリングを通じて学習した構造情報よりも、対照学習を通じて得られた視覚的意味論の方が重要です。」 書き直された内容: 対照学習は、推奨される事前トレーニング方法です。表 3 からわかるように、MoCo-v3 は ImageNet と EgoNet データセットの両方で MAE よりも優れたパフォーマンスを示し、対照学習がマスク画像モデリングよりも効果的であることを示しています。さらに、マスク画像モデリングによって学習された構造情報よりも、対照学習によって得られた視覚的意味論の方がロボットの動作にとって重要です。
アルゴリズムの紹介
上記の調査に基づいて、本研究ではロボット操作のための視覚的事前訓練ソリューション (Vi-PRoM) を提案します。このソリューションは、EgoNet データセット上で ResNet-50 を事前トレーニングすることにより、ロボット動作の包括的な視覚表現を抽出します。具体的には、まず対照学習を使用して、自己監視を通じて EgoNet データセットから人と物体の相互作用パターンを取得します。次に、エンコーダの表現をさらに強化するために、2 つの追加の学習目標、つまり視覚的意味予測と時間的動的予測が提案されています。以下の図は、Vi-PRoM の基本的なプロセスを示しています。注目すべきことに、この研究では視覚的な意味論と時間的ダイナミクスを学ぶために手動のラベル付けを必要としません。
実験結果
この研究作業では、2 つのシミュレーション環境 (Franka Kitchen と MetaWorld) で広範な実験が行われました。実験結果は、提案された事前トレーニングスキームがロボット操作においてこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は以下の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明できます。さらに、両方の学習ターゲットが存在しない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的動的学習の連携の有効性が実証されました。


この研究では、Vi-PRoM のスケーラビリティも調査します。以下の左図に示すように、Franka Kitchen および MetaWorld のシミュレーション環境では、デモ データのサイズが大きくなるにつれて Vi-PRoM の成功率が着実に向上しています。大規模なエキスパートのデモンストレーション データセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。


# Vi-PRoM の強力なビジュアル表現機能により、本物のロボット引き出しやキャビネットのドアを開けることができます
フランカ キッチンでの実験結果では、Vi-PRoM の成功率が高く、5 つのタスクにおいて R3M よりも効率的であることが示されています。 。
R3M:





##Vi-PRoM:




##Vi-PRoM のビジュアルにより、MetaWorld 上で表現は、アクションの予測に効果的に使用できる優れたセマンティックおよび動的特徴を学習するため、R3M と比較して、Vi-PRoM は操作を完了するために必要なステップが少なくなります。
R3M:

#Vi-PRoM:




















以上がタイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニング プログラムを開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール
