ホームページ  >  記事  >  テクノロジー周辺機器  >  オックスフォード大学の最新情報 | 約 400 の要約!大規模言語モデルと三次元世界に関する最新のレビューについて語る

オックスフォード大学の最新情報 | 約 400 の要約!大規模言語モデルと三次元世界に関する最新のレビューについて語る

WBOY
WBOYオリジナル
2024-06-02 19:41:32343ブラウズ

前書きと著者の個人的な理解

大規模言語モデル (LLM) の開発により、それらと 3D 空間データ (3D LLM) の統合が急速に進み、物理言語モデルを理解するための基礎が提供されました。空間と物理学は、前例のない機能を提供します。この記事では、3D データの処理、理解、生成に対する LLM のアプローチの包括的な概要を説明します。私たちは、文脈学習、段階的推論、オープンボキャブラリー機能、広範な世界知識などの LLM の独自の利点を強調し、空間理解と組み込み人工知能 (AI) システムとの相互作用を促進する LLM の可能性を強調します。私たちの研究は、点群からニューラル レンダリング フィールド (NeRF) まで、さまざまな 3D データ表現をカバーしています。 3D シーンの理解、字幕、質問応答、対話などのタスクに関する LLM との統合と、空間推論、計画、ナビゲーションのための LLM ベースのエージェントとの統合を分析します。この論文では、他の関連する 3D と言語を組み合わせたアプローチも簡単にレビューし、重要な進歩をさらに明らかにしていますが、3D LLM の可能性を最大限に活用する必要性を強調しています。したがって、このディスカッション ペーパーを通じて、複雑な 3D 世界を理解し、それと対話する際の 3D LLM の機能を探索および拡張するための将来の研究への道筋を描くことを目指しています。

オープンソースリンク: https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

関連背景

このセクションでは、3 次元表現、大規模言語モデル (LLM)、および2 次元ビジュアル言語モデル (VLM) とビジョン基盤モデル (VFM)。

3D 表現

私たちの世界を説明、モデル化し、理解するために 3D 表現を選択することは、3D LLM の現在の進歩を理解するのに役立つ重要なトピックです。コンピュータビジョンの基礎研究分野でもあります。この分野は、深層学習、コンピューティング リソース、および 3D データの利用可能性の進歩により、最近大幅な成長を遂げています。現在使用されている最も一般的な 3 次元表現を簡単に紹介します。

点群: 空間内のデータ点のセットとして 3 次元形状を表し、3 次元デカルト座標系の各点の位置を保存します。位置の保存に加えて、各ポイントに関する他の情報 (色、法線など) も保存できます。点群ベースの方法は、ストレージ フットプリントが小さいことで知られていますが、サーフェス トポロジ情報が不足しています。点群を取得するための一般的なソースには、LIDAR センサー、構造化光スキャナー、飛行時間型カメラ、ステレオ ビュー、写真測量などが含まれます。

ボクセルグリッド: 2 次元空間のピクセル表現と同様に、3 次元空間の単位立方体で構成されます。各ボクセルは、占有情報 (バイナリまたは確率) を最小限にエンコードしますが、符号付き距離関数 (SDF) または切り捨て符号付き距離関数 (TSDF) のように、表面までの距離を追加でエンコードすることもできます。ただし、高解像度の詳細が必要な場合、メモリの使用量が過剰になる可能性があります。

ポリゴンメッシュ: 複雑な 3 次元形状をコンパクトに記述することができる頂点と面で構成される表現。ただし、構造化されておらず微分不可能な性質があるため、エンドツーエンドの微分可能なパイプラインを実現するためにニューラル ネットワークと統合する際に課題が生じます。勾配近似に基づく方法など、この問題に対する一部の解決策では、手動で勾配計算を行うことしかできません。微分可能ラスタライザーなどの他のソリューションでは、コンテンツがぼやけるなどの不正確なレンダリング結果が生じる可能性があります。

近年、幾何学的要素に依存する従来の表現とは異なり、ニューラル シーン 3D 研究コミュニティへの関心が高まっています。ニューラル シーンは、空間座標からシーン プロパティ (占有率、色、強度など) へのマッピングですが、マテリアル グリッドとは異なり、ニューラル シーンではマッピングは学習された関数 (通常は多層パーセプトロン) です。このようにして、ニューラル シーンは、幾何学的、連続的、微分可能な 3D 形状とシーン表現を学習する能力を暗黙的に学習します。

一連のニューラル ネットワークは、暗黙的な表面表現に焦点を当てています。占有ネットワークは、点群、低解像度のボクセル、または画像からの 3D 点の位置と特徴を使用して占有確率を推定し、ニューラル ネットワークで表される連続 3D 占有関数で形状をエンコードします。一方、ディープ SDF ネットワークでは、ニューラル ネットワークを使用して 3D 座標と勾配から SDF を推定します。 NeuS や NeuS2 などの最近の方法は、静的ターゲットと動的ターゲットの両方について表面再構成の忠実度と効率を向上させることが示されています。

Neural Radiation Fields (NeRF) と呼ばれる別の手法グループは、3D 世界の強力なフォトリアリスティックなレンダリング機能を示しています。これらの方法では、位置エンコード技術を使用してシーンの詳細をエンコードし、MLP を活用してカメラ光線の放射輝度値 (色と不透明度) を予測します。ただし、空間内のすべてのサンプリング ポイント (空の空間のサンプリング ポイントを含む) の色と占有の詳細を推測する MLP の必要性には、大量の計算リソースが必要です。したがって、リアルタイム アプリケーションの NeRF の計算オーバーヘッドを削減するという強い動機があります。

ハイブリッド表現では、NeRF テクノロジーと従来のボリュームベースの方法を組み合わせて、高品質のリアルタイム レンダリングを容易にします。たとえば、ボクセル グリッドまたは多重解像度ハッシュ グリッドをニューラル ネットワークと組み合わせると、NeRF のトレーニングと推論の時間が大幅に短縮されます。

3D ガウス散乱は点群のバリエーションであり、各点には、その点を囲む空間領域で放出される放射線を異方性 3D ガウス「ブロブ」として表す追加情報が含まれています。これらの 3D ガウスは通常、SfM 点群から初期化され、微分可能レンダリングを使用して最適化されます。 3D ガウス散乱では、レイ トレーシングの代わりに効率的なラスタライゼーションを利用することで、NeRF 計算のほんの一部で最先端の新しいビュー合成が可能になります。

LLM

従来の自然言語処理 (NLP) には、システムがテキストを理解、生成、操作できるようにするために設計された幅広いタスクが含まれます。 NLP への初期のアプローチは、ルールベースのシステム、統計モデル、リカレント ニューラル ネットワークなどの初期のニューラル アーキテクチャなどの技術に依存していました。最近導入されたラージ言語モデル (LLM) は、トランスフォーマー アーキテクチャを採用し、大規模なテキスト コーパスでトレーニングされるため、前例のないパフォーマンスを達成し、この分野で新たなブームを引き起こしています。この記事の焦点は 3 次元 LLM であるため、ここでは LLM に関連する背景知識を提供します。 LLM を詳しく調査するために、この地域での最近の調査を参照します。

LLM の構造

LLM のコンテキストでは、「エンコーダー-デコーダー」および「デコーダーのみ」のアーキテクチャが主に NLP タスクに使用されます。

  • エンコーダ-デコーダアーキテクチャ;
  • デコーダ専用アーキテクチャ;
  • トークン化: トークン化は、入力テキストを言語モデルの基本データ単位であるトークンシーケンスに分解する前処理方法です。トークンの数は制限されており、各トークンは単語、サブワード、または 1 つの文字に対応できます。推論中、入力テキストは一連のトークンに変換され、モデルに供給されます。モデルは出力トークンを予測し、出力トークンをテキストに変換します。トークン化は、モデルのテキストの認識に影響を与えるため、言語モデルのパフォーマンスに大きな影響を与えます。単語レベルのトークン化、サブワードのトークン化 (バイト ペア エンコーディング、WordPiece、PencePiece など)、文字レベルのトークン化など、さまざまなトークン化手法が使用されます。

LLM 創発機能

LLM と従来の非 LLM 手法の大きな違いの 1 つは、大規模モデルでは利用可能だが小規模モデルには存在しない創発機能です。 「緊急機能」という用語は、LLM のサイズと複雑さが拡大するにつれて生じる、新しい複雑な機能を指します。これらの機能により、人々は自然言語を深く理解して生成し、特別なトレーニングなしでさまざまな分野の問題を解決し、状況に応じた学習を通じて新しいタスクに適応できるようになります。以下では、LLM の範囲内でいくつかの一般的な新しい機能を紹介します。

コンテキスト学習 とは、明示的な再トレーニングや微調整を必要とせずに、プロンプトで提供されたコンテキストに基づいて新しいタスクやクエリを理解し、応答する LLM の能力を指します。画期的な論文 (GPT-2/GPT-3) では、マルチショット アプローチでのコンテキスト学習を実証しています。このアプローチでは、モデルにプロンプ​​トでいくつかのタスク例が与えられ、事前の明示的なトレーニングなしでさまざまな例を処理するように求められます。 GPT-4 などの最先端の LLM は、並外れたコンテキスト学習機能を発揮し、複雑な命令を理解し、単純な翻訳からコード生成、創造的な執筆に至る幅広いタスクを、すべてプロンプトで提供されるコンテキストに基づいて実行します。 。

LLM の推論は、「思考チェーン」プロンプトと呼ばれることが多く、複雑な問題や問題を扱うときに中間ステップまたは推論パスを生成するモデルが含まれます。このアプローチにより、LLM はタスクをより小さく管理しやすい部分に分割できるため、より構造化されたわかりやすいソリューション プロセスが促進されます。これを達成するために、トレーニングには、さまざまな問題解決タスク、論理パズル、および不確実性の下で推論をシミュレートするように設計されたデータセットを含むデータセットが含まれます。現在の最先端の LLM は通常、モデル サイズが 60B ~ 100B パラメータよりも大きい場合に高度な推論機能を発揮します。

命令準拠は、コマンドを理解して実行するモデルの能力、またはユーザーが指定した命令を実行する能力を指します。これには、命令の解析、その意図の理解、適切な応答またはアクションの生成が含まれます。この機能を新しいタスクに適応させるために使用される方法では、正しい応答またはアクションと組み合わせられたさまざまな命令を含むデータセットからの命令適応が必要な場合があります。教師あり学習、人間のフィードバックからの強化学習、対話型学習などの手法を使用すると、パフォーマンスをさらに向上させることができます。

LLM 微調整

3D LLM のコンテキストでは、LLM は事前トレーニングされた状態で直接使用されるか、新しいマルチモーダル タスクに適応するために微調整されます。ただし、LLM のパラメーター全体を微調整すると、関連するパラメーターが多数になるため、計算とメモリに重大な課題が生じます。したがって、モデル全体を再トレーニングするのではなく、モデル パラメーターの比較的小さなサブセットのみを更新することで、LLM を特定のタスクに適応させるパラメーター有効微調整 (PEFT) がますます一般的になってきています。次のセクションでは、LLM で使用される 4 つの一般的な PEFT メソッドをリストします。

低ランク適応 (LoRA) とそのバリアントは、低ランクの行列を介してパラメーターを更新します。数学的には、微調整中の LoRA の順方向パスは、h=W0x+BAx として表すことができます。 W0 は LLM の固定重みであり、BA は微調整段階で更新された新しく導入された行列 a および B によってパラメータ化された低ランク行列です。このアプローチにはいくつかの明らかな利点があります。微調整プロセスでは、B と A のみが最適化され、勾配計算とパラメーター更新に関連する計算オーバーヘッドが大幅に削減されます。微調整が完了し、重みが結合されると、方程式 h = (W0 + BA) x に示すように、元のモデルと比較して追加の推論コストは発生しません。さらに、複数の LoRA インスタンスを保存できるため、さまざまなタスク用に LLM の複数のコピーを保存する必要がなく、ストレージの占有面積が削減されます。

レイヤーフリーズ: トレーニング中に他のレイヤーを更新しながら、事前トレーニングされたモデルの選択したレイヤーをフリーズします。これは通常、タスクの性質とモデル アーキテクチャに応じて、モデルの入力または出力に近い層に適用されます。たとえば、3D-LLM アプローチでは、入力および出力エンベディングを除くすべてのレイヤーをフリーズして、タスク固有のデータセットでのオーバーフィッティングのリスクを軽減し、事前トレーニングされた一般知識を保持し、最適化する必要があるパラメーターを減らすことができます。

プロンプトチューニング プロンプトで LLM のフレームワークを設定し、モデルパラメーターを調整する従来の微調整と比較してモデル入力を調整することで、LLM が特定のタスクを実行できるようにガイドします。手動キュー エンジニアリングは最も直観的な方法ですが、経験豊富なキュー チューニング エンジニアにとって最適なキューを見つけるのは難しい場合があります。もう 1 つのアプローチは、チップの自動生成と最適化です。一般的な方法は、たとえばハード プロンプトと呼ばれる、正確に最適な入力プロンプト テキストを検索することです。あるいは、最適化メソッドを使用して、ヒント (ソフト ヒント) の埋め込みを最適化することもできます。

適応微調整レイヤーやモジュールを追加または削除して、特定のタスクに合わせてモデル アーキテクチャをカスタマイズします。これには、視覚情報やテキスト データなどの新しいデータ モダリティの統合が含まれる場合があります。適応微調整の中心となるアイデアは、事前トレーニングされたモデルの層の間に挿入された小さなニューラル ネットワーク モジュールを利用することです。適応微調整中、これらのアダプター モジュールのパラメーターのみが更新され、元のモデルの重みは変更されません。

2D 視覚言語モデル

視覚言語モデルは、テキストと画像/ビデオ間の関係をキャプチャして利用し、2 つのモダリティ間でインタラクティブなタスクを実行できるように設計されたモデルのファミリーです。ほとんどの VLM は、Transformer ベースのアーキテクチャを備えています。アテンション モジュールを活用することで、ビジュアル コンテンツとテキスト コンテンツが相互に調整し、相互作用を実現します。次の段落では、識別タスクと生成タスクにおける VLM の応用について簡単に紹介します。

識別タスクには、データの特定の特徴を予測することが含まれます。 CLIP や ALIGN などの VLM は、画像分類における目に見えないデータへのゼロショット転送性の点で並外れたパフォーマンスを示しています。どちらのモデルにも、ビジュアル エンコーダーとテキスト エンコーダーの 2 つのモジュールが含まれています。画像とそのカテゴリを指定すると、CLIP と ALIGN は、画像の埋め込みと「{画像カテゴリ} の写真」という文のテキストの埋め込みの間の類似性を最大化することによってトレーニングされます。ゼロショット転送性は、推論中に「{画像カテゴリ}」を候補に置き換え、画像に最も一致する文を検索することで実現されます。これら 2 つの作品は、その後の多くの作品に影響を与え、画像分類の精度をさらに向上させました。これらのモデルは、オブジェクト検出、画像セグメンテーション、文書理解、ビデオ認識などの他のタスクで使用するために学習した知識を抽出することもできます。

タスクの生成 VLM を利用して入力データからテキストまたは画像を生成します。大規模なトレーニング データを活用することで、単一の VLM で画像キャプションやビジュアル質問応答 (VQA) などの複数の画像からテキストへの生成タスクを実行できることがよくあります。注目すべき例としては、SimVLM、BLIP、OFA などが挙げられます。 BLIP-2、Flamingo、LLaVA などのより強力な VLM は、マルチターンの対話や入力画像に基づいた推論を処理できます。拡散モデルの導入により、テキストから画像への生成も研究コミュニティの焦点になっています。多数の画像とテキストのペアでトレーニングすることにより、拡散モデルはテキスト入力に基づいて高品質の画像を生成できます。この機能は、ビデオ、3D シーン、ダイナミック 3D ターゲットの生成にも拡張されます。タスクの生成に加えて、テキスト プロンプトを介して既存の画像を編集することもできます。

Vision Foundation Models

Vision Foundation Model (VFM) は、さまざまな下流タスクに直接展開できるほど多様で表現力豊かな画像表現を抽出するように設計された大規模なニューラル ネットワークであり、事前トレーニングされた LLM を反映しています。ダウンストリームの NLP タスクにおける役割。注目すべき例の 1 つは、自己教師付き教師と生徒のトレーニング モデルを使用する DINO です。学習された表現は、画像分類と意味論的な画像マッチングの両方で良好な結果を達成します。 DINO のアテンション ウェイトは、観察されたシーンのセマンティック コンポーネントのセグメンテーション マスクとしても使用できます。 iBOT や DINOv2 などの後続の作品では、マスクされたイメージ モデリング (MIM) 損失を導入することで表現がさらに改善されました。 SAM は、セマンティック マスクを備えた 11 億枚の画像で構成されるデータセットでトレーニングされたトランスフォーマー ベースの画像セグメンテーション モデルであり、強力なゼロショット転送機能を示します。 DINO (Zhang et al.) (DINO (Caron et al.) と混同しないでください) は、オブジェクト検出に DETR のようなアーキテクチャとハイブリッド クエリ選択を採用しています。後続の作品 Grounding DINO では、精度を向上させるためにテキスト監視が導入されています。 Stable Diffusion は、テキストから画像へのジェネレーターであり、クリーンな画像または人工的にノイズを含む画像に対して単一の拡散ステップを実行し、中間の特徴またはアテンション マスクを抽出することにより、「実際の」画像の特徴抽出器としても使用されます。これらの特徴は、拡散モデルに使用されるトレーニング セットのサイズと多様性、および画像間のゼロショット対応などの観察された拡散特徴の創発特性により、セグメンテーションおよび画像マッチング タスクに最近利用されています。

タスク

3Dキャプション(3D → テキスト)

  • オブジェクトレベルのキャプション
  • シーンレベルのキャプション
  • 3D高密度キャプション

3Dグラウンディング(3D + テキスト → 3D 位置)

  • 単一オブジェクト グラウンディング
  • 複数オブジェクト グラウンディング

3D 会話 (3D + テキスト → テキスト)

  • 3D 質問応答 (3D-QA)
  • 3D 状況に応じた質問応答 (3D-SQA)
  • 3D ダイアログ

3.4 3D 具現化エージェント (3D + テキスト → アクション)

  • 3D タスク計画
  • 3D ナビゲーション
  • 3D 操作

3.5 テキストから 3D への生成 (テキスト → 3D) )

    3D オブジェクトの生成
  • 3D シーンの生成
  • 3D 編集

LLMS を使用した 3D タスク

3D シーンを理解するタスクは広く研究されています。シーン理解の中核は、指定された 3 次元環境内のすべてのオブジェクトを識別して分類することであり、これは意味論的またはインスタンスレベルの理解と呼ばれるプロセスです。この段階は、より微妙な解釈を構築するための基礎を形成するため、非常に重要です。その後、より高いレベルのシーン理解は、空間シーン グラフの構築とターゲット関係のセマンティクスを指す空間理解に焦点を当てます。さらに一歩進んで、アフォーダンスやシーンの変化などの潜在的なインタラクションを予測し、機能や美的スタイルなど、シーンのより広範なコンテキストを理解することが可能になります。 3D データには、3D データの取得とラベル付けに比較的高いコストがかかること、均一に密集していない、またはグリッドに沿って整列していないまばらな 3D データ構造、複数のデータを調整する必要性 (おそらく遮蔽されている可能性がある) など、2D には存在しない独特の課題もあります。 )の視点。これを行うために、研究者らは言語の力を利用して、セマンティクスと関係を 3D 世界に埋め込みました。大規模言語モデル (LLM) と 3D データを統合する最近の取り組みにより、LLM の固有の強み、つまりゼロショット学習、文脈学習、段階的推論、広範な世界知識を活用して、マルチレベルの理解と対話を達成できることが実証されました。

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

LLM は 3D シーン情報をどのように処理しますか?

従来の LLM は入出力としてテキストに限定されているため、3D 情報を取り込む機能がすべての 3D-LLM メソッドの主な焦点となっています。一般的な考え方は、LLM がこれらの 3D 入力を理解して処理できるように、3D オブジェクトまたはシーンの情報を言語空間にマッピングすることです。具体的には、これには通常 2 つのステップが含まれます: (i) 事前トレーニングされた 3D エンコーダを使用して、対応する 3D 表現を処理し、生の 3D 特徴を生成します。(ii) アライメント モジュールを使用して、これらの 3D 特徴を LLM がタグを処理できる 3D に変換します。説明したトークン化プロセスと同様です。事前トレーニングされた LLM は、出力を生成するときにこれらの位置合わせされた 3D マーカーを使用できます。

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

前述したように、3D 表現の多様性を考慮すると、3D 特徴を取得する方法は複数あります。表 1 の「3D ジオメトリ」列に示されているように、点群はそのシンプルさとさまざまな事前トレーニング済み 3D エンコーダとの互換性により最も一般的であり、マルチタスクおよびマルチモーダル学習方法でよく選ばれています。 2D 特徴抽出の研究が成熟しているため、マルチビュー画像もよく使用されます。これは、3D 特徴抽出には追加の 2D から 3D へのリフティング スキームのみが必要であることを意味します。深度カメラを使用して簡単に取得できる RGB-D データは、ナビゲーションと理解のために視点関連の情報を抽出するために 3D 組み込みエージェント システムでよく使用されます。 3D シーン グラフは、オブジェクトの存在とその関係をモデル化し、シーンの高レベルの情報を取得するのに適した、より抽象的な 3D 表現です。これらは、3D シーンの分類と計画タスクによく使用されます。 NeRF は現在、3D-LLM 手法ではあまり使用されていません。これはその暗黙的な性質のため、トークン化やフィードフォワード ニューラル ネットワークとの統合がより困難になるためであると私たちは考えています。

3D タスクのパフォーマンスを強化するための LLM

大量のデータでトレーニングされた LLM は、世界に関する常識的な知識を取得できることが証明されています。 LLM の世界の知識と推論能力の可能性は、3D シーンの理解を強化し、いくつかの 3D タスクのパイプラインを再定式化するために調査されています。このセクションでは、LLM を使用して 3D ビジュアル言語タスクにおける既存のメソッドのパフォーマンスを向上させることを目的としたメソッドに焦点を当てます。 LLM を 3D タスクに適用する場合、その使用法を知識拡張メソッドと推論拡張メソッドの 2 つのグループに分けることができます。知識拡張手法は、LLM に組み込まれた膨大な世界の知識を活用して、3D タスクのパフォーマンスを向上させます。これにより、状況に応じた洞察が提供され、知識のギャップが埋められ、3D 環境の意味的理解が強化されます。あるいは、推論を強化する方法では、世界の知識に依存せず、LLM の機能を活用して段階的に推論を実行し、より複雑な 3D の課題に対するより優れた一般化機能を提供します。次の 2 つのセクションでは、これらの各方法について説明します。

  • 知識を活用したアプローチ: LLM の世界の知識を活用する方法はいくつかあります。 Chen らは、RGB-D 画像からの 3D 部屋分類に LLM を使用しました。ここでは、LLM に埋め込まれた知識を使用して、部屋に含まれるオブジェクト カテゴリ情報に基づいて部屋カテゴリを決定します。まず、このアプローチでは、Matterport3D データからシーン グラフを作成します。このデータには、エリアとオブジェクトのノード、およびルーム ノードにリンクされたオブジェクト ノードが含まれています。次に、主要なオブジェクトを選択して、各部屋タイプのクエリを作成します。選択したオブジェクトから抽出された LLM スコアの説明。最も高いスコアが部屋のラベルを予測します。サイズや位置などの空間情報も提供できます。
  • 推論強化されたアプローチ: 世界の知識に加えて、LLM の推論機能は、他の 3D タスク、特に詳細なジオメトリと複数のオブジェクトを含む複雑な 3D シーンにおける視覚の基礎の処理にも役立ちます。この場合、オブジェクトのテキストによる説明には、その外観と周囲のアイテムとの空間的関係が含まれている必要があります。この状況では、詳細なテキストの説明を理解できないため、通常の接地方法は困難なことがよくあります。 LLM-Grounder、Transcribe3D、および Zero-shot 3DVG は、LLM の推論機能を活用してテキストの説明を分析し、既存のグラウンディング ツールボックスを使用してオブジェクトの位置を特定するための一連の命令を生成することで、この問題を解決します。

3D マルチタスク学習のための LLM

多くの作品は、LLM の命令追従機能と文脈学習機能を使用して、複数の 3D タスクを 1 つの言語空間に統合することに焦点を当てています。これらの研究では、さまざまなタスクを表すためにさまざまなテキスト プロンプトを使用することで、LLM を統一された会話型インターフェイスにすることを目的としています。 LLM を使用したマルチタスク学習の実装には、通常、3D テキスト データ ペアの構築から始まるいくつかの重要な手順が含まれます。これらの組み合わせでは、タスクの指示をテキスト形式で作成し、異なるタスクごとに出力を定義する必要があります。次に、3D データ (通常は点群の形式) が 3D エンコーダーに供給されて、3D 特徴が抽出されます。次に、位置合わせモジュールを使用して、(i) 複数のレベル (オブジェクト レベル、関係レベル、シーン レベル) で LLM からのテキスト埋め込みと 3D フィーチャを位置合わせし、(ii) 3D フィーチャを LLM 解釈可能なトークンに変換します。最後に、単一ステージまたは複数ステージの 3D 言語調整トレーニングやマルチタスク指導の微調整など、適切なトレーニング戦略を選択する必要があります。

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

このセクションの残りの部分では、これらの側面について詳しく説明します。また、このセクションで検討した各方法の範囲と機能を表 2 にまとめます。

  • マルチタスク学習用のデータ: 表 2 に示すように、タスクを 4 つのカテゴリに分類します: 字幕、基本、質問応答 (QA)、および特定のエージェント タスク (つまり、計画、ナビゲーション、操作)。したがって、各タスクのテキスト出力は、事前定義された形式に従います。字幕と QA タスクの場合、出力はプレーン テキストであり、特定の形式に制限されません。基本タスクの出力は 3D 境界ボックスで、通常は参照オブジェクトの中心座標とその 3D サイズです。通常、ポイントとサイズの値は 0 ~ 255 の範囲内に収まるように正規化され、LLM が予測する必要があるトークンの範囲が制限されます。計画の場合、モデルはタスクを実行するための一連のステップをテキスト形式で出力しますが、ナビゲーションの場合、出力は一連の空間座標です。アクションの場合、出力はアクションのテキストシーケンスです。既存の手法は、次のガイドラインに従って、マルチタスク命令の微調整データセットを構築します。
  • 複数の 3D タスク用に LLM をトレーニングする: 複数の 3D タスク用に LLM をトレーニングする最初のステップには、意味のある 3D 特徴を取得することが含まれます。抽出方法は 3D シーンのタイプに応じて異なります。単一オブジェクトの点群の場合、ポイント LLM、Chat-3D、および GPT4Point はポイント BERT を使用して 3D オブジェクトの特徴を抽出します。屋内シーンの場合、LEO は特徴抽出に PointNet++ を使用しますが、Chat-3D v2 と 3DMIT はシーンをセグメント化し、Uni-3D を使用してセグメント化された各部分の特徴を抽出します。同時に、MultiPLY は抽出されたオブジェクトの特徴をシーン グラフに統合して、シーン全体を表現します。 3D-LLM とシーン LLM は、2D マルチビュー イメージの機能を 3D 表現にリフトします。 3D-LLM は、Mask2Former または SAM から 2D セマンティック特徴を抽出します。 Scene LLM は、ConceptFusion に従ってグローバル情報とローカル詳細を融合し、ピクセル単位の CLIP フィーチャをポイント単位の 3D フィーチャにマッピングします。屋外の 3D シーンの場合、LiDAR LLM は VoxelNet を使用して 3D ボクセル特徴を抽出します。

3D マルチモーダル インターフェイスとしての LLM

3D マルチタスク学習器の探索に加えて、いくつかの最近の研究では、さまざまなモダリティからの情報を組み合わせて、モデルの機能をさらに向上させ、新しいインタラクションを可能にしています。マルチモーダル 3D LLM は、テキストと 3D シーンに加えて、2D 画像、オーディオ、またはタッチ情報を入力としてシーンに含めることもできます。

ほとんどの作品は、さまざまな様式にわたって共通の表現空間を構築することを目的としています。既存の作品の中には、テキスト、画像、またはオーディオを共通の空間にマッピングする事前トレーニング済みエンコーダーをすでに提供しているため、一部の作品では、3D エンコーディングを他のモダリティ デバイスの事前トレーニング済みエンコーダーのエンベディング スペースと位置合わせする 3D エンコーディングを学習することを選択します。 JM3D-LLMは、点群の埋め込み空間とSLIPのテキスト画像の埋め込み空間を揃える3次元点群エンコーダを学習します。点群の画像シーケンスをレンダリングし、トレーニング中に階層的なテキスト ツリーを構築して、詳細な位置合わせを実現します。 Point Bind も同様の 3D エンコーダーを学習し、ImageBind と連携させて、画像、テキスト、オーディオ、点群の埋め込みスペースを統合します。これにより、さまざまなタスク ヘッドを使用して、さまざまなモード間での検索、分類、生成などのさまざまなタスクを処理できるようになります。ただし、注目すべき制限は、3D エンコーダが数百万のポイントを含む大規模なシーンを処理するには計算コストがかかるため、このアプローチは小規模なオブジェクト レベルのシーンにのみ適していることです。さらに、CLIP などのほとんどの事前トレーニング済みマルチモーダル エンコーダは、単一オブジェクトのシーン向けに設計されており、複数のオブジェクトや局所的な詳細を含む大規模なシーンには適していません。

対照的に、大規模なシーンでは、複数のモードを組み込むためにより詳細なデザインが必要になります。 ConceptFusion は、大規模なシーンの各コンポーネント イメージのグローバル情報とローカル詳細を融合する拡張機能マップを構築します。これは、テキストやオーディオなどのさまざまなモダリティにすでに対応している、事前にトレーニングされた特徴抽出機能を使用することで実現されます。次に、従来の SLAM メソッドを使用して、特徴マップをシーンの点群にマッピングします。 MultiPLY は、ConceptGraph と同様の表現を使用します。シーン内のすべての顕著なオブジェクトを識別し、各オブジェクトのグローバルな埋め込みを取得し、最後にシーン グラフを構築します。結果として得られる表現は、Llama の埋め込みスペースと位置合わせされたシーンの埋め込みです。オーディオ、温度、触覚などの他のモダリティの埋め込みも、線形投影を使用して同じ空間にマッピングできます。すべての埋め込みはトークン化され、直ちに LLM に送信されます。オブジェクト レベルのシーンのメソッドと比較して、大規模なシーンを処理できるメソッドは、新しいエンコーダを最初から学習するのではなく、事前にトレーニングされたエンコーダに依存してモーダル ギャップを埋めることでコストを削減します。

具現化エージェント用の LLM

LLM の計画、ツールの使用、および意思決定機能を使用して、3D 具象エージェントを作成できます。これらの機能により、LLM は、3D 環境でのナビゲーション、オブジェクトとの対話、特定のタスクを実行するための適切なツールの選択など、インテリジェントな意思決定を行うことができます。このセクションでは、3D コンクリート エージェントが計画、ナビゲーション、および操作タスクを実行する方法について説明します。

  • 3D タスク計画: 特定のエージェントにとって、「タスク計画」とは、タスクの説明と 3D 環境を考慮して、特定のタスクを実行するためのステップを生成する機能を指します。計画の精度がその後のミッションのパフォーマンスに直接影響するため、ミッション計画は多くの場合、ナビゲーションおよび操縦ミッションの前提条件となります。 LEO と LLM プランナーは LLM を利用して段階的な計画を生成し、環境認識に基づいて動的に調整します。 LEO は現在のシーン構成に基づいたシーン認識型の計画を重視しますが、LLM Planner は GPT3 を使用して計画を高レベルのサブ目標と低レベルのアクションに分割し、エージェントがタスクの実行中に問題が発生したときに再計画します。 3D-VLA は、生成された世界モデルを通じて 3D の知覚、推論、アクションを組み合わせます。生成モデルを活用してターゲット画像や点群などの将来の状態表現を予測することで、計画機能を強化することに重点を置いています。
  • 3D ナビゲーション: 3D ナビゲーションは、通常は視覚的な入力と口頭による指示に基づいて、3D 環境内で自身を移動および位置決めする組み込みエージェントの機能を指します。説明されている各メソッド (LEO、Agent3D Zero、LLM Planner、および NaviLLM) は、異なる方法で 3D ナビゲーションを実装します。 LEO は、車両中心の 2D 画像とターゲット中心の 3D 点群、およびテキスト指示を処理します。
  • 3D オブジェクト操作: 3D コンクリート エージェントのコンテキストでは、操作とは、オブジェクトの移動から部品の組み立てやドアの開閉などの複雑なシーケンスまで、オブジェクトと物理的に対話する能力を指します。 LLM が運用タスクを実行できるようにするための中心となるアイデアは、アクション シーケンスをトークン化することです。 LLM が特定のアクションを出力するには、まずアクション トークンを定義する必要があります。これにより、LLM はタスクと 3D シーン コンテキストに基づいてアクションを生成できるようになります。 CLIPort やロボット アームの動作計画モジュールなどのプラットフォームは、これらのトークン化されたアクションをエージェントによって実行される物理的なアクションに変換します。

3D 生成のための LLM

従来、3D モデリングは複雑で時間のかかるプロセスであり、参入障壁が高く、リアルな結果を得るにはジオメトリ、テクスチャ、ライティングに細心の注意を払う必要がありました。このセクションでは、LLM と 3D 生成テクノロジーの統合を詳しく見ていき、言語がシーン内でコンテキスト化されたオブジェクトを生成する方法を提供し、3D コンテンツの作成と操作のための革新的なソリューションを提供する方法を示します。

  • オブジェクトレベルの生成: シェイプ GPT は、シェイプ固有の 3D VQ-VAE を使用して、3D シェイプを個別の「シェイプ ワード」マーカーに量子化します。これにより、テキストや画像とともに形状データを T5 言語モデルへのマルチモーダル入力に統合できるようになります。このマルチモーダル表現により、T5 はテキストから図形への生成や図形の編集/完成などのクロスモーダルな対話を学習できるようになります。 GPT4Point は 2 つのストリーム アプローチを使用します。点群ジオメトリはポイント QFormer を介してテキストと位置合わせされ、結合された LLM および拡散パスに供給されて、テキストの理解とテキスト入力に準拠した高忠実度の 3D オブジェクト生成が行われます。
  • シーンスケールの生成: Holodeck と GALA-3D は、マルチステージ パイプラインを採用し、テキストからの初期の大まかな 3D シーン レイアウトを、詳細でリアルな 3D 環境に徐々に洗練させます。 Holodeck は、GPT-4 の空間推論とレイアウト/スタイルの推奨事項に基づいて、特殊なモジュールを使用して基本レイアウトを作成し、マテリアルを選択し、ドアや窓などの要素を組み込みます。次に、GPT-4 のテキスト説明と一致するオブジェクトを嫌うアセットをレイアウトに追加します。オプティマイザーは、GPT-4 から取得した空間関係の制約に従ってこれらのターゲットを配置し、現実的なターゲットのレイアウトと相互作用を促進します。
  • 手続き型生成と操作: LLMR、3D-GPT、SceneCraft は、インタラクティブな 3D 世界の作成と自然言語からのコード生成のための特殊なコンポーネント/エージェントを備えたモジュラー アーキテクチャを採用しています。 LLMR は、Unity でシーンを構築するコードの生成、変更のための既存のシーン ターゲットとプロパティの理解、命令の実行に必要な機能の特定、および最終的なコードの品質の評価に使用されるさまざまなコンポーネントで構成されています。同様に、3D-GPT には、命令を解釈して必要な生成関数を決定し、詳細なモデリング属性で記述を強化し、豊富な記述を Blender API 用の Python コードに変換するためのコンポーネントがあります。まとめると、これらのアプローチは、命令解釈、関数マッピング、および堅牢なコード生成を処理するための LLM コンポーネントのタスク分解と特殊化を示します。

VLMS を使用した 3D タスク

オープンボキャブラリー 3D シーンの理解

オープンボキャブラリー 3D シーンの理解は、事前定義されたカテゴリ ラベルの代わりに自然言語の説明を使用してシーン要素を識別し、説明することを目的としています。 OpenScene はゼロショット アプローチを採用し、共有特徴空間に CLIP のテキストおよび画像ピクセルの埋め込みとともに埋め込まれた 3D シーン ポイントの密な特徴を予測します。これにより、オブジェクト、マテリアル、アフォーダンス、アクティビティ、部屋のタイプ。 CLIP-FO3D も同様のアプローチに従い、点群に投影された 3D シーンから高密度ピクセル特徴を抽出するように CLIP を変更し、蒸留によって 3D モデルをトレーニングして CLIP の知識を伝達します。セマンティック抽象化は、CLIP から関連グラフを抽象ターゲット表現として抽出し、新しいセマンティクス、語彙、およびドメインに一般化します。 Open Fusion は、SEEM ビジュアル言語モデルと TSDF 3D マッピングを組み合わせ、領域ベースの埋め込みと信頼マップを活用して、リアルタイムのオープンボキャブラリーシーンの作成とクエリを実行します。

テキスト駆動型 3D 生成

ここでは、2D VLM を利用したテキストから 3D の生成方法と、微分可能なレンダリング テキストから画像への拡散モデルを使用したガイダンスを調査します。 DreamFields、CLIP-Mesh、CLIP-Forge、Text2Mesh などの初期の作品では、CLIP ガイドによるゼロショット 3D 生成が検討されていました。

DreamFusion は Score Distriction Sampling (SDS) を導入しています。SDS では、事前トレーニングされた 2D 拡散モデルによって評価され、あらゆる角度からのレンダリングが非常に現実的に見えるようにすることで、3D 表現のパラメーターが最適化されます。テキストから画像への Imagen モデルを使用して、SDS 経由で NeRF 表現を最適化します。 Magic3D は 2 段階のフレームワークを提案しています。まず、低解像度の事前拡散と疎な 3D ハッシュ メッシュを使用して粗いモデルを生成し、次に効率的な微分可能なレンダラーと高解像度の潜在拡散モデルを使用してテクスチャ付き 3D メッシュ モデルを最適化します。 Fantasia3D は、ハイブリッド DMET 表現と空間的に変化する BRDF を使用して、ジオメトリと外観を解明します。 ProlificDreamer は、忠実性と多様性を高めるために 3D パラメーターを確率変数として扱う粒子ベースのフレームワークである変分分留 (VSD) を導入します。 Dream3D は、明示的な 3D 形状事前分布とテキストから画像への拡散モデルを活用して、テキストガイド付き 3D 合成を強化します。 MVDream は、パーソナライズされた生成のために少量のショット データでトレーニングできるマルチビューの一貫した拡散モデルを採用しています。 Text2NeRF は、NeRF 表現を事前トレーニングされたテキストから画像への拡散モデルと組み合わせて、言語に基づいてさまざまな屋内/屋外 3D シーンを生成します。ジオメトリと外観を同時に生成することに加えて、一部の研究では、指定されたジオメトリのみに基づいてテクスチャを合成する可能性も検討されています。

3D ビジョンと言語のためのエンドツーエンドのアーキテクチャ

大規模な 3D テキスト データセットで事前トレーニングされた Transformer モデルは、視覚モダリティと言語モダリティを接続する強力な共同表現を学習します。 3D VisTA は、セルフ アテンションを使用して 3D ビジュアル データとテキスト データを共同モデリングし、マスクされた言語/ターゲット モデリングやシーン テキスト マッチングなどの目標に向けた効果的な事前トレーニングを実現する Transformer モデルです。 UniT3D は、統合された Transformer メソッドを PointGroup 3D 検出バックボーン、BERT テキスト エンコーダー、およびマルチモーダル フュージョン モジュールと組み合わせて使用​​し、合成された 3D 言語データを事前トレーニングします。 SpatialVLM は、大規模な合成 3D 空間推論データ セットで VLM を共同トレーニングするための異なる戦略を採用し、3D 空間視覚的質問応答タスクのパフォーマンスを向上させ、ロボットの思考連鎖推論などのアプリケーションをサポートします。 Multi CLIP は、3D シーン エンコーダを事前トレーニングして、シーンの特徴を CLIP のテキストおよび画像の埋め込みと調整します。これは、CLIP の知識を伝達して、視覚的な質問応答などのタスクに対する 3D の理解を向上させることを目的としています。

データセット

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

課題と将来の機会

LLM と 3D データの統合が進んでいるにもかかわらず、データ表現、計算効率、ベンチマークには依然として課題があり、革新的なソリューションが必要です。

表現の選択は、3D 視覚言語モデルのパフォーマンスに強い影響を与えます。現在、点群は、そのシンプルさとニューラル ネットワークの互換性により、主に屋内 (メッシュの頂点など) および屋外 (LIDAR 点群など) 環境を表すために使用されています。しかし、正確で豊かな空間モデルにとって重要な詳細を捉えるのに苦労しています。空間情報と言語の間のギャップをより効果的に埋める新しい 3D シーン表現を開発すると、新たなレベルの理解と対話が可能になります。抽出された言語的および意味的埋め込みを使用するなど、3D 表現で言語的および意味的情報をエンコードする革新的な方法を見つけることで、これら 2 つのモダリティ間のギャップを埋めることができます。

3D データ処理と LLM の計算要件はどちらも重大な課題を引き起こします。 3D 環境の複雑さと言語モデルのサイズが増加するにつれて、スケーラビリティが依然として懸念事項となります。適応性と計算効率を考慮して設計された LLM アーキテクチャの進歩は、改善のベースラインを大幅に拡大する可能性があり、3D タスクにおけるマルチモーダル LLM の機能を包括的に評価および改善するために重要です。現在のベンチマークの範囲が限られているため、特に 3 次元推論では、空間推論スキルの評価と 3 次元の意思決定/対話システムの開発が妨げられています。さらに、現在使用されているメトリクスは、3D 環境における LLM の機能を完全には捉えていません。さまざまな 3D タスクのパフォーマンスをより正確に測定するには、タスク固有のメトリクスを開発することが重要です。最後に、現在のシーンを理解するベンチマークの粒度が単純すぎるため、複雑な 3D 環境を深く理解することが制限されます。より多様なタスクが必要になります。

ベンチマークを改善することは、3D タスクにおけるマルチモーダル LLM の機能を完全に評価し、改善するために重要です。現在のベンチマークの範囲が限られているため、特に 3 次元推論では、空間推論スキルの評価と 3 次元の意思決定/対話システムの開発が妨げられています。さらに、現在使用されているメトリクスは、3D 環境における LLM の機能を完全には捉えていません。さまざまな 3D タスクのパフォーマンスをより正確に測定するには、タスク固有のメトリクスを開発することが重要です。最後に、現在のシーンを理解するベンチマークの粒度が単純すぎるため、複雑な 3D 環境を深く理解することが制限されます。より多様なタスクが必要になります。

3D の理解に LLM を使用する場合は、安全性と倫理的な影響を考慮する必要があります。 LLM は幻覚を起こし、不正確で安全でない情報を出力し、重要な 3D アプリケーションで誤った決定を引き起こす可能性があります。さらに、LLM は、予測不可能で説明が難しい方法で失敗することがよくあります。また、トレーニング データに存在する社会的バイアスを継承し、現実世界の 3D シーンで予測を行うときに特定のグループにペナルティを与える可能性もあります。 3D 環境では LLM を慎重に使用し、より包括的なデータセット、バイアスの検出と修正のための堅牢な評価フレームワーク、および結果の説明責任と公平性を確保するための幻覚を最小限に抑えるメカニズムを作成する戦略を採用することが重要です。

結論

この記事では、LLM と 3D データの統合について詳しく説明します。この調査では、3D データの処理、理解、生成における LLM の方法、アプリケーション、および新たな機能を系統的にレビューし、さまざまな 3D タスクにわたる LLM の変革の可能性を浮き彫りにしています。 3 次元環境における空間理解とインタラクションの強化から、組み込み人工知能システムの機能の向上に至るまで、LLM はこの分野の進歩において重要な役割を果たしています。

主な発見には、テキスト情報と空間解釈の間のギャップを埋めるのに役立つ、ゼロショット学習、高度な推論、広範な世界知識など、LLM の独自の利点の特定が含まれます。このペーパーでは、幅広いタスクに対する LLM と 3D データの統合を示します。 LLM を使用して他の 3D 視覚言語手法を探索すると、3D 世界の理解を深めることを目的とした豊富な研究の可能性が明らかになります。

さらに、この調査では、データ表現、モデルのスケーラビリティ、計算効率などの重要な課題が浮き彫りになっており、3D アプリケーションで LLM の可能性を最大限に発揮するには、これらの障害を克服することが重要であることが示されています。要約すると、この調査は、LLM を使用した 3D タスクの現状の包括的な概要を提供するだけでなく、将来の研究の方向性の基礎を築くものでもあります。複雑な 3D 世界を理解し、対話する際の LLM の機能を探索および拡張し、空間インテリジェンスの分野でさらなる進歩への道を開くには、協力が求められます。

以上がオックスフォード大学の最新情報 | 約 400 の要約!大規模言語モデルと三次元世界に関する最新のレビューについて語るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。