メタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教える-AI-php.cn

ホームページ

テクノロジー周辺機器

メタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教える

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 08:31 PM

AIAIモデルmeta

Meta Platforms 社の人工知能部門は最近、少量のトレーニングデータのサポートを利用して AI モデルに物理世界の歩き方を学習させ、急速な進歩を遂げたと発表しました。

この研究により、AI モデルが視覚的なナビゲーション機能を獲得するまでの時間を大幅に短縮できます。以前は、このような目標を達成するには、大規模なデータセットを使用した「強化学習」を繰り返す必要がありました。

メタ AI 研究者らは、この AI ビジュアルナビゲーションの探求は仮想世界に大きな影響を与えるだろうと述べています。このプロジェクトの基本的なアイデアは複雑ではありません。単純に観察と探索を通じて、AI が人間と同じように物理空間を移動できるようにするというものです。

メタ AI 部門は次のように説明しました。「たとえば、AR メガネに鍵を見つけるようガイドしてもらいたい場合、AI が不慣れで変化する環境のレイアウトを理解できるようにする方法を見つけなければなりません。結局のところ、これは非常に詳細で小規模な要件であるため、大量の計算能力を消費する高精度のプリセットマップに永久に依存することは不可能です。人間はコーヒーテーブルの正確な位置や長さを知る必要がなく、コーヒーテーブルの隅を簡単に移動できます。

この目的を達成するために、Meta は「身体化 AI」、つまり 3D シミュレーションのインタラクティブなメカニズムを通じて AI システムをトレーニングすることに注力することにしました。この分野でメタ社は、地図やGPSセンサーなしで新しい環境をナビゲートできる有望な「ポイントターゲットナビゲーションモデル」を確立したと述べた。

このモデルは視覚計測と呼ばれる技術を使用しており、AI が視覚入力に基づいて現在位置を追跡することができます。メタ氏は、このデータ拡張技術により、手動でデータに注釈を付ける必要がなく、効果的なニューラルモデルを迅速にトレーニングできると述べました。 Meta 氏はまた、自社の Habitat 2.0 を組み込んだ AI トレーニングプラットフォーム (Realistic PointNav ベンチマークタスクを使用して仮想空間シミュレーションを実行する) でのテストを完了し、成功率は 94% であると述べました。

メタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教える

Meta 氏は次のように説明しました。「私たちの手法はデータセット内のすべてのシナリオを完全に解決したわけではありませんが、この研究は、現実世界の環境でナビゲートする能力が十分ではないことを最初に証明しました。必ず明示的なマッピングを実装する必要があります。」

マップに依存せずに AI ナビゲーショントレーニングをさらに改善するために、Meta は Habitat-Web と呼ばれるトレーニングデータセットを確立しました。これには、100,000 を超える異なるオブジェクトとゴールのナビゲーションが含まれています。人間が実証した手法。 Webブラウザ上で動作するHabitatシミュレーターはAmazon.comのMechanical Turkサービスにスムーズに接続でき、ユーザーは仮想ロボットを遠隔地から安全に操作できる。メタ氏は、得られたデータはAIエージェントが「最先端の結果」を達成するためのトレーニング資料として使用されると述べた。全体的な空間特性を理解するために部屋をスキャンしたり、隅に障害物があるかどうかを確認したりすることは、すべて AI が人間から学習できる効率的なオブジェクト検索動作です。

さらに、メタ AI チームは、ロボットが独自の「ゼロサンプルセット」を通じてさまざまなセマンティックナビゲーションタスクや目標モードをナビゲートできるようにする、いわゆる「プラグアンドプレイ」モジュール式アプローチも開発しました。体験学習フレームワーク」の一般化を実現。このようにして、AI エージェントはリソースを大量に消費するマップやトレーニングを必要とせずに基本的なナビゲーションスキルを習得でき、追加の調整を行わずに 3D 環境でさまざまなタスクを実行できます。

メタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教える

#メタは、これらのエージェントは画像ターゲットを継続的に検索するように訓練されていると説明しています。彼らは環境内のランダムな場所で撮影された写真を受け取り、自律ナビゲーションを使用してその場所を見つけようとします。メタ研究者らは、「我々の手法はトレーニングデータを1/12.5に削減し、最新の転移学習技術よりも成功率が14％高い」と述べた

Constellation Researchのアナリスト、ホルガー・ミュラー氏はインタビューでZhong氏は次のように述べた。メタのこの最新の開発は、メタバース開発計画において重要な役割を果たすことが期待されています。彼は、将来的に仮想世界が標準になるのであれば、AI はこの新しい空間を理解できる必要があり、理解するためのコストはそれほど高くないと考えています。

Mueller 氏はさらに、「AI の物理世界を理解する能力は、ソフトウェアベースの方法によって拡張する必要があります。Meta は現在この道を進んでおり、トレーニングを必要としない AI を開発するなど、身体化された AI において進歩を遂げています。」と付け加えました。「周囲の環境を自律的に理解できるソフトウェア。これが早期に実用化されるのを楽しみにしています。」

これらの実際の使用例は、私たちからそう遠くないかもしれません。メタ氏は、次のステップは、これらの結果をナビゲーションからモバイル操作に発展させ、特定のタスク（ウォレットを識別して所有者に返すなど）を実行できるAIエージェントを開発することだと述べた。

以上がメタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

Openai GPT-IMAGE-1 APIを使用して画像を生成および編集する方法Apr 27, 2025 am 09:16 AM

Openaiの最新のマルチモーダルモデルであるGPT-Image-1は、ChatGPT内およびAPIを介して画像生成に革命をもたらします。この記事では、その機能、使用法、アプリケーションについて説明します。目次 GPT-Image-1の理解 GPT-Image-1の重要な機能

CleanLabを使用してデータの前処理を実行する方法は？ - 分析VidhyaApr 27, 2025 am 09:15 AM

データの前処理は、機械学習を成功させるために最も重要ですが、実際のデータセットにはエラーが含まれることがよくあります。 CleanLabは、Pythonパッケージを使用して自信のある学習アルゴリズムを実装する効率的なソリューションを提供します。検出を自動化します

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。