メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場-AI-php.cn

ホームページ

テクノロジー周辺機器

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 pm 08:15 PM

aiデータ

家族環境では、家族がテレビキャビネットのリモコンを入手するように求められることがよくあります。場合によっては、ペットの犬でさえ免疫を持たないことがあります。しかし、人は他人をコントロールできない状況に陥ることが常にあります。また、愛犬はその指示を理解できない場合があります。人間がロボットに期待するのは、これらの家事を手助けしてくれることであり、これがロボットに対する私たちの究極の夢です。

最近、ニューヨーク大学とメタは、自律的に行動する能力を備えたロボットを開発するために協力しました。「コーンフレークをベッドサイドテーブルの上に置いてください」と指示すると、コーンフレークを独自に見つけて最適なルートとそれに対応するアクションを計画し、タスクを正常に完了します。さらに、ロボットはアイテムを整理したり、ゴミを処理したりする機能も備えており、利便性を提供します。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

##このロボットは OK-Robot と呼ばれ、ニューヨーク大学と Meta の研究者によって構築されました。彼らは、視覚言語モデル、ナビゲーション、把握の基本モジュールをオープンな知識ベースのフレームワークに統合し、ロボットの効率的なピックアンドプレイス操作のためのソリューションを提供しました。これは、私たちが年をとったら、お茶を出したり水を注いだりするのを手伝ってくれるロボットの購入が現実になるかもしれないことを意味します。

OK-Robot の「オープンナレッジ」の位置付けは、大規模な公開データセットでトレーニングされた学習モデルを指します。 OK-Robot が新しい家庭環境に置かれると、iPhone からスキャン結果を取得します。これらのスキャンに基づいて、LangSam と CLIP を使用して高密度の視覚言語表現を計算し、セマンティックメモリに保存します。次に、ピックアップされるオブジェクトに対する言語クエリが与えられると、クエリの言語表現が意味記憶と照合されます。次に、OK-Robot はナビゲーションとピッキングモジュールを徐々に適用し、必要なオブジェクトに移動してそれを拾います。同様のプロセスをオブジェクトの破棄にも使用できます。

OK-Robot を研究するために、研究者は 10 の実際の家庭環境でそれをテストしました。実験を通じて、目に見えない自然の家庭環境では、システムのゼロサンプル導入成功率が平均 58.5% であることがわかりました。ただし、この成功率は環境の「自然さ」に大きく依存します。また、クエリを改善し、スペースを整理し、明らかに敵対的なオブジェクト (大きすぎる、半透明すぎる、滑りやすいなど) を除外することで、この成功率が約 82.4% に向上する可能性があることもわかりました。

OK-Robot は、ニューヨーク市の 10 の家庭環境で 171 のピックアップタスクを試みました。

つまり、実験を通じて、彼らは次の結論に達しました:

オープンナレッジロボット工学の分野における他の研究者の研究を奨励しサポートするために、著者はOK-Robotのコードとモジュールを共有すると述べました。詳細については、https://ok-robot.github.io を参照してください。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

論文のタイトル: OK-Robot: ロボティクスのためのオープンナレッジモデルの統合において本当に重要なこと

技術構成と手法

研究は主にこの問題を解決します。B から A を取り出し、それを C に配置します。ここで、A はオブジェクト、B と C は現実世界の環境内の場所です。これを達成するために、提案されたシステムは、オープンボキャブラリーオブジェクトナビゲーションモジュール、オープンボキャブラリーRGB-Dグラブモジュール、およびオブジェクトを解放または配置するためのヒューリスティックモジュール（ドロップヒューリスティック）のモジュールを含む必要があります。

ボキャブラリーオブジェクトナビゲーションを開く

部屋をスキャンすることから始めます。 Open Vocabulary Object Navigation は、CLIP-Fields アプローチに従い、iPhone を使用して家庭環境を手動でスキャンする事前マッピング段階を想定しています。この手動スキャンでは、iPhone の Record3D アプリを使用してホームビデオをキャプチャするだけで、位置を含む一連の RGB-D 画像が生成されます。

各部屋のスキャンには 1 分もかかりません。情報が収集されると、カメラのポーズと位置とともに RGB-D 画像がマップ構築用のプロジェクトライブラリにエクスポートされます。記録では、地表面だけでなく、環境内の物体やコンテナもキャプチャする必要があります。

#次のステップはオブジェクトの検出です。スキャンされる各フレームで、オープンボキャブラリーオブジェクト検出器がスキャンされたコンテンツを処理します。この記事では、OWL-ViT オブジェクト検出器を選択します。これは、この方法の方が事前クエリでより優れたパフォーマンスを発揮するためです。各フレームに検出器を適用し、各オブジェクト境界ボックス、CLIP 埋め込み、および検出器の信頼度を抽出し、それらをナビゲーションモジュールのオブジェクトストレージモジュールに渡します。

次に、オブジェクト中心のセマンティックストレージを実行します。この論文では、VoxelMap を使用してこのステップを実行します。具体的には、カメラによって収集された深度画像と姿勢を使用して、オブジェクトマスクを現実世界の座標に逆投影します。この方法により、各点が関連付けられた点群を提供できます。 CLIP からのセマンティックベクトル。

クエリメモリモジュールが続きます。言語クエリが与えられた場合、この記事では CLIP 言語エンコーダーを使用して、それをセマンティックベクトルに変換します。各ボクセルは家の実際の場所に関連付けられているため、図 2 (a) と同様に、クエリオブジェクトが見つかる可能性が最も高い場所を見つけることができます。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場必要に応じて、この記事では「A on B」を「A close B」として実装します。これを行うには、クエリ A で最初の 10 ポイントを選択し、クエリ B で最初の 50 ポイントを選択します。次に、10×50 ペアごとのユークリッド距離を計算し、最短 (A, B) 距離に関連付けられた点 A を選択します。

上記のプロセスを完了したら、次のステップは現実世界のオブジェクトに移動することです。現実世界の 3D 位置座標が取得されたら、それらを座標として使用できます。ロボットのナビゲーションターゲットを指定して操作ステージを初期化します。ナビゲーションモジュールは、ロボットがターゲットオブジェクトを操作できるように、ロボットを腕の届く範囲に配置する必要があります。

#実世界の物体のロボットによる把握

オープンボキャブラリーナビゲーションとは異なり、把握タスクを完了するために, このアルゴリズムでは、現実世界の任意のオブジェクトとの物理的な相互作用が必要となるため、この部分はさらに難しくなります。したがって、この論文では、事前にトレーニングされた把握モデルを使用して現実世界の把握ジェスチャを生成し、言語条件フィルタリングに VLM を使用することを選択しました。

この記事で使用する把握生成モジュールは AnyGrasp です。これは、単一の RGB イメージと点群が与えられたシーンで平行ジョーグリッパーを使用して衝突のない把握を生成します。

AnyGrasp は、シーン内の可能な把握 (図 3 の列 2) を提供します。これには、把握ポイント、幅、高さ、深さ、および可能な把握の数を表す把握スコアが含まれます。未校正のモデルは手に自信を持ちます。

言語クエリを使用して把握をフィルター処理する: AnyGrasp から取得した把握の提案について、この記事では LangSam を使用して把握をフィルター処理します。この論文では、提案されたすべてのグリップポイントを画像上に投影し、オブジェクトマスク内に収まるグリップポイントを見つけます (図 3、列 4)。メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

実行を把握する。最適な把握が決定されると (図 3、列 5)、簡単な事前把握方法を使用して対象物体を把握できます。

#オブジェクトを解放または配置するためのヒューリスティックモジュール

オブジェクトを掴んだ後、次のステップは、オブジェクトをどこに配置するかです。オブジェクトがドロップされる場所が平面であることを前提とする HomeRobot のベースライン実装とは異なり、この論文ではそれを拡張して、シンク、ゴミ箱、箱、バッグなどの凹面オブジェクトもカバーします。

ナビゲーション、取得、配置がすべて揃ったので、それらを組み合わせるのは簡単で、この方法は新しいホームに直接適用できます。新しい家庭環境の場合、この調査では 1 分以内に部屋をスキャンできます。それを VoxelMap に処理するのに 5 分もかかりません。完成したら、ロボットは選択した現場にすぐに設置され、作業を開始できます。新しい環境に到着してからその中で自律的に動作を開始するまで、システムは最初のピックアンドプレースタスクを完了するまでに平均 10 分未満かかります。

実験

10を超える家庭での実験において、OK-Robotはピックアンドプレイスタスクで58.5%の成功率を達成しました。

この調査では、OK-Robot の故障モードをより深く理解するために、OK-Robot の詳細な調査も実施されました。研究の結果、失敗の主な原因は運用上の失敗であることが判明しましたが、注意深く観察した結果、失敗の原因はロングテールにあることがわかりました。図4に示すように、失敗の3大原因には回収の失敗が含まれていました。正しいオブジェクトのセマンティックメモリからのナビゲーション先の位置 (9.3%)、操作モジュールから取得したポーズを完了するのが難しい (8.0%)、およびハードウェア上の理由 (7.5%)。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

図 5 からわかるように、OK-Robot で使用される VoxelMap は、他のセマンティックメモリモジュールよりもわずかに優れています。スクレイピングモジュールに関しては、AnyGrasp は他のスクレイピング方法よりも大幅に優れており、相対スケールで最適な候補 (トップダウンスクレイピング) をほぼ 50% 上回っています。しかし、ヒューリスティックに基づいた HomeRobot のトップダウンクロールが、オープンソースの AnyGrasp ベースラインや Contact-GraspNet を上回ったという事実は、真にユニバーサルなクロールモデルの構築が依然として難しいことを示しています。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

図 6 は、さまざまな段階での OK-Robot の障害の完全な分析を示しています。分析によると、研究者が環境をクリーンアップしてぼやけたオブジェクトを削除すると、ナビゲーションの精度が向上し、合計エラー率が 15% から 12% に低下し、最終的には 4% に低下しました。同様に、研究者が乱雑な環境を取り除くと精度が向上し、エラー率は 25 パーセントから 16 パーセント、そして最終的には 13 パーセントに低下しました。

メタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場

詳細については、元の論文を参照してください。

以上がメタとニューヨーク大学が開発したOK-Robot：お茶を注ぐロボットが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

解读CRISP-ML（Q）：机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前，没有用于构建和管理机器学习（ML）应用程序的标准实践。机器学习项目组织得不好，缺乏可重复性，而且从长远来看容易彻底失败。因此，我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程（CRISP-ML（Q））是CRISP-DM的升级版，以确保机器学习产品的质量。CRISP-ML（Q）有六个单独的阶段：1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键，要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注，掩盖了人工智能可能加剧环境退化的方式，通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术，同时承认其大量消耗能源，引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量，根据数量的多少画成长短不同的直条，然后把这些直条按一定的顺序排列起来；从条形统计图中很容易看出各种数量的多少。条形统计图分为：单式条形统计图和复式条形统计图，前者只表示1个项目的数据，后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“，2022年5月，加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集，但光照真实模拟环境生成的合成数据推动的无监督域适应（UDA，Unsupervised Domain Adaptation）方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成（adversarial d

数据通信中的信道传输速率单位是bps，它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps，它表示“位/秒”或“比特/秒”，即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数，也称“比特率”。比特率表示单位时间内传送比特的数目，用于衡量数字信息的传送速度；根据每帧图像存储时所占的比特数和传输比特率，可以计算数字图像信息传输的速度。

数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种，分别是：1、趋势分析，趋势分析一般用于核心指标的长期跟踪；2、象限分析，可依据数据的不同，将各个比较主体划分到四个象限中；3、对比分析，分为横向对比和纵向对比；4、交叉分析，主要作用就是从多个维度细分数据。

聊一聊Python 实现数据的序列化操作Apr 12, 2023 am 09:31 AM

在日常开发中，对数据进行序列化和反序列化是常见的数据操作，Python提供了两个模块方便开发者实现数据的序列化操作，即 json 模块和 pickle 模块。这两个模块主要区别如下：json 是一个文本序列化格式，而 pickle 是一个二进制序列化格式；json 是我们可以直观阅读的，而 pickle 不可以；json 是可互操作的，在 Python 系统之外广泛使用，而 pickle 则是 Python 专用的；默认情况下，json 只能表示 Python 内置类型的子集，不能表示自定义的

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。