ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成

ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 25, 2024 pm 04:10 PM

ai3d

最近の研究では、ビジョン言語アクション (VLA、ビジョン言語アクション) モデルへの入力これは基本的に 2D データであり、より一般的な 3D 物理世界は統合されていません。
さらに、既存のモデルは、世界のダイナミクスやアクションとダイナミクスの関係を無視し、「知覚されたアクションの直接マッピング」を学習することによってアクション予測を実行します。
対照的に、人間が考えるとき、将来のシナリオの想像力を記述し、次の行動を計画できる世界モデルを導入します。
この目的のために、マサチューセッツ大学アマースト校、MIT およびその他の機関の研究者は、3D-VLA モデルを提案しました。新しいクラスの具体化された基盤モデルを導入することにより、生成された世界は、3D 認識、推論、および 3D をシームレスに接続するモデルになります。アクション。
ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成

#プロジェクトのホームページ: https://vis-www.cs.umass .edu/3dvla/

論文アドレス: https://arxiv.org/abs/2403.09631

具体的には、3D-VLA に基づいて構築されています3D ベースの大規模言語モデル (LLM) と、具体化された環境に参加するための一連の対話トークンの導入です。

Ganchuang チームは、一連の具現化拡散モデルをトレーニングし、生成機能をモデルに注入し、LLM に調整してターゲット画像と点群を予測しました。

3D-VLA モデルをトレーニングするために、既存のロボットデータセットから大量の 3D 関連情報を抽出し、巨大な 3D 具現化命令データセットを構築しました。

研究結果は、3D-VLA が、具体化された環境での推論、マルチモーダル生成、および計画タスクの処理において優れたパフォーマンスを発揮することを示しており、これは現実世界のシナリオにおける潜在的なアプリケーションの価値を強調しています。

3D エンボディド命令チューニングデータセット

インターネット上に数十億のデータセットがあるため、VLM は複数のタスクを実行します。優れたパフォーマンスと 100 万レベルのビデオを実現します。アクションデータセットは、ロボット制御用の特定の VLM の基礎も築きます。

しかし、現在のデータセットのほとんどは、十分な深度や 3D アノテーション、ロボット動作の正確な制御を提供できません。これには、3D 空間推論とインタラクションのコンテンツがデータセットに含まれている必要があります。 3D 情報が不足しているため、「一番奥のカップを真ん中の引き出しに入れる」など、3D 空間推論を必要とする命令をロボットが理解して実行することが困難になります。

このギャップを埋めるために、研究者らは、モデルをトレーニングするために十分な「3D 関連情報」と「対応するテキスト命令」を提供する大規模な 3D 命令調整データセットを構築しました。

研究者らは、既存の具体化されたデータセットから 3D 言語アクションのペアを抽出し、点群、深度マップ、3D 境界ボックス、ロボットの 7D アクション、およびテキスト説明ラベルを取得するパイプラインを設計しました。

3D-VLA ベースモデル

3D-VLA は、具体化された環境における 3 次元の推論、目標生成、および意思決定のための世界モデルです。

まず 3D-LLM 上にバックボーンネットワークを構築し、一連のインタラクティブトークン; 次に、拡散モデルを事前トレーニングし、射影を使用して LLM モデルと拡散モデルを調整することにより、ターゲット生成機能が 3D-VLA

バックボーンネットワークに注入されます。

第一段階では、研究者らは 3D-LLM 手法に従って 3D-VLA ベースモデルを開発しました。収集されたデータセットが必要な 10 億レベルのスケールに達していなかったためです。マルチモーダル LLM を最初からトレーニングするには、マルチビュー機能を使用して 3D シーンの特徴を生成する必要があります。これにより、視覚的特徴を調整せずに事前トレーニングされた VLM にシームレスに統合できます。

同時に、3D-LLM のトレーニングデータセットには主にオブジェクトと屋内シーンが含まれており、これらは特定の設定と直接一致しないため、研究者は BLIP2- を使用することを選択しました。 PlanT5XL を事前トレーニングモデルとして使用します。

トレーニングプロセス中に、トークンの入力および出力の埋め込みと Q-Former の重みを解凍します。

インタラクショントークン

3D シーンと環境内のインタラクションに対するモデルの理解を強化するために、研究者らは、新しいインタラクティブトークンのセットを導入しました。

まず、解析された文内のオブジェクト名詞 ( チョコレートバーなど) を含むオブジェクトトークンが入力に追加されます。 obj> [loc tokens] on the table) を使用して、モデルが操作または言及されているオブジェクトをより適切にキャプチャできるようにします。

第 2 に、空間情報を言語でより適切に表現するために、研究者らは、AABB 形式の 6 つのマークを使用して位置トークンのセットを設計しました。 3次元の境界フレーム。

3 番目に、動的エンコーディングをより適切に実行するために、がフレームワークに導入され、静的シーンの埋め込みが含まれます: シーントークンを組み合わせることで、3D-VLA は動的シーンを理解できます。、インターレース 3D シーンとテキストの入力を管理します。

このアーキテクチャは、ロボットの動作を表す特殊なタグのセットを拡張することによってさらに強化されています。ロボットの動作には 7 つの自由度があり、、、などの個別のトークンを使用して、アームの事前に設定された絶対位置、回転、およびグリッパーの開きを表現します。各アクションはトークンで区切られます。

目標生成機能の導入

人間はシーンの最終状態を事前に視覚化し、目標生成の精度を向上させることができます。行動の予測や意思決定も世界モデル構築の重要な側面であり、研究者らは予備実験で現実的な最終状態を提供することでモデルの推論能力と計画能力を強化できることも発見した。

しかし、MLLM をトレーニングして画像、深度、点群を生成するのは簡単ではありません:

第一に、ビデオ拡散モデルは具体化されたシーン用に設計されていません。オーダーメイドの場合、たとえば、Runway が今後の「引き出しを開いた」フレームを生成すると、ビューの変更、オブジェクトの変形、奇妙なテクスチャの置き換え、レイアウトの歪みなどの問題がシーン内で発生します。

さらに、さまざまなモードの拡散モデルを単一の基本モデルに統合する方法は依然として難しい問題です。

したがって、研究者によって提案された新しいフレームワークは、まず画像、深度、点群などのさまざまな形式に基づいて特定の拡散モデルを事前トレーニングし、次に拡散モデルのデコーダを使用します。アライメント段階で、3D-VLAの埋め込み空間に合わせてアライメントします。

#実験結果

3D-VLA は、3D 世界で使用できる多機能の 3D ベースの生成世界モデルです。研究者らは、推論と位置特定、マルチモーダルターゲットの内容の想像、およびロボット操作のためのアクションの生成を実行する際に、主に 3D 推論と位置特定、マルチモーダルターゲットの生成、具現化されたアクション計画の 3 つの側面から 3D-VLA を評価しました。

3D 推論とローカリゼーション

3D-VLA は、言語推論タスクにおいてすべての 2D VLM メソッドよりも優れています。研究担当者によるこれは、推論のためにより正確な空間情報を提供する 3D 情報の活用につながります。

さらに、データセットには 3D 位置決めアノテーションのセットが含まれているため、3D-VLA は関連するオブジェクトの位置を学習し、モデルが推論のために主要なオブジェクトにさらに焦点を当てるのに役立ちます。

研究者らは、3D-LLM がこれらのロボット推論タスクのパフォーマンスが低いことを発見し、ロボット関連の 3D データセットの収集とトレーニングの必要性を示しました。

そして、3D-VLA は、位置決めパフォーマンスにおいて 2D ベースライン手法よりも大幅に優れたパフォーマンスを示しました。この発見は、アノテーションプロセスの有効性の証拠でもあります。説得力のある証拠は、モデルが強力な 3D 位置決め機能を獲得するのに役立ちます。

マルチモーダルターゲット生成

ロボット工学分野への移行のための既存のゼロショット生成方法と比較して、3D-VLA はほとんどの指標でより良い結果を達成します。このパフォーマンスは、ワールドモデルをトレーニングするために「ロボットアプリケーション用に特別に設計されたデータセット」を使用することの重要性を裏付けています。

Instruct-P2P* と直接比較しても、3D-VLA は一貫して優れたパフォーマンスを示しており、その結果は、大規模な言語モデルを 3D に統合することができることを示しています。 VLA、ロボットの動作命令をより包括的かつ深く理解できるようになり、ターゲット画像の生成パフォーマンスが向上します。

さらに、入力プロンプトから予測境界ボックスを除外すると、わずかなパフォーマンスの低下が観察され、モデルの理解を助けるために中間の予測境界ボックスを使用することの有効性が確認されています。シーン全体でモデルが許可されています。特定の指示で言及されている特定のオブジェクトにより多くの注意を割り当てることで、最終的には最終的なターゲット画像を想像する能力が向上します。

#点群によって生成された結果の比較では、中間予測境界ボックスを使用した 3D-VLA が最も優れたパフォーマンスを示し、指示とシーンを理解することの重要性が確認されました。 . 大規模な言語モデルと正確なオブジェクトのローカリゼーションを組み合わせる重要性をコンテキスト化します。

具体的なアクションプランニング

3D-VLA は、RLBench アクション予測のほとんどのタスクでベースラインを上回っています。モデルはその計画能力を示しています。

ベースラインモデルでは履歴観察、オブジェクトのステータス、および現在のステータス情報を使用する必要があるのに対し、3D-VLA モデルは開ループ制御を通じてのみ実行されることに注意してください。。

さらに、モデルの汎化能力はカップピックアップタスクで実証され、3D-VLA は CALVIN Better で使用されました。研究者らは、この利点は、関心のあるオブジェクトを見つけて目標状態を想像し、行動を推測するための豊富な情報を提供する能力によるものであると考えています。

以上がソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。