牛津大學最新 | 近400篇總結！暢談大語言模式與三維世界最新綜述-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

牛津大學最新 | 近400篇總結！暢談大語言模式與三維世界最新綜述

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 02, 2024 pm 07:41 PM

3dllm

寫在前面&筆者的個人理解

隨著大型語言模型（LLM）的發展，它們與3D空間資料（3D LLM）之間的集成取得了快速進展，為理解物理空間和與物理空間互動提供了前所未有的能力。本文全面概述了LLM處理、理解和產生3D資料的方法。我們強調了LLM的獨特優勢，如上下文學習、逐步推理、開放詞彙能力和廣泛的世界知識，並強調了它們與嵌入式人工智慧（AI）系統中顯示推進空間理解和互動的潛力。我們的研究涵蓋了從點雲到神經渲染場（NeRF）的各種3D資料表示。並分析了它們與LLM的集成，用於3D場景理解、字幕、問答和對話等任務，以及用於空間推理、規劃和導航的基於LLM的代理。本文也簡要回顧了其他相關的3D和語言相結合的方法，進一步揭示了相關重大進展，但強調了利用3D LLM的全部潛力的必要性。因此，透過這篇討論文，我們旨在為未來的研究制定一條路徑線，探索和擴展3D LLM在理解複雜3D世界和與之互動方面的能力。

開源連結：https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

相關背景

###### ###本節提供有關三維表示、大型語言模型（LLM）、二維視覺語言模型（VLM）和視覺基礎模型（VFM）的基本背景知識。 #########3D表示#########選擇3D表示來描述、建模和理解我們的世界是一個至關重要的主題，有助於理解3D LLM的當前進展。它也是電腦視覺的一個基礎研究領域。由於深度學習、運算資源和3D數據可用性的進步，該領域最近取得了巨大增長。我們簡要介紹目前使用的最常見的三維表示。 #########點雲###：用空間中的一組資料點表示三維形狀，將每個點的位置儲存在三維笛卡爾座標系中。除了儲存位置之外，還可以儲存每個點的其他資訊（例如顏色、法線）。基於點雲的方法以其低儲存佔用空間而聞名，但缺乏表面拓撲資訊。獲取點雲的典型來源包括光達感測器、結構光掃描儀、飛行時間相機、立體視圖、攝影測量等。 #########體素網格###：由三維空間中的單位立方體組成，類似於二維空間中的像素表示。每個體素最低限度地編碼佔用資訊（二進位或機率地），但可以附加地編碼到表面的距離，如在有符號距離函數（SDF）或截斷符號距離函數（TSDF）中。然而當需要高解析度的細節時，記憶體佔用可能會變得過多。 #########多邊形網格###：表示由頂點和曲面組成，可以緊湊地描述複雜的三維形狀。然而，它們的非結構化和不可微性質在將它們與神經網路整合以實現端到端可微管道方面帶來了挑戰。解決這個問題的一些解決方案，例如基於梯度近似的方法，只能使用手動製作的梯度計算。其他解決方案，如可微分光柵化器，可能會導致不精確的渲染結果，如內容模糊。 ######近年來，神經場景3D研究界引起了越來越多的興趣，與依賴幾何元素的傳統表示不同。神經場景是從空間座標到場景屬性（如佔用、顏色、強度等）的映射，但與物質網格不同的是，在神經場景中，映射是一個學習函數，通常是多層感知器。透過這種方式，神經場景隱藏了學習幾何、連續和可微分3D形狀和場景表示的能力。 ######一組神經網路專注於隱式表面表示。佔用網路在由神經網路表示的連續3D佔用函數中對形狀進行編碼，使用來自點雲、低解析度體素或影像的3D點位置和特徵來估計佔用機率。同時，深度SDF網路使用神經網路從三維座標和梯度估計SDF。最近的方法，如NeuS和NeuS2，顯示提高了靜態和動態目標的表面重建保真度和效率。 ######另一組被稱為神經輻射場（NeRF）的方法顯示了強大的3D世界真實感渲染能力。這些方法使用位置編碼技術對場景細節進行編碼，並利用MLP來預測相機光線的輻射值（顏色和不透明度）。然而，MLP推斷空間中每個採樣點（包括空空間中的採樣點）的顏色和佔用細節的必要性需要大量的計算資源。因此，有強烈的動機來減少NeRF的即時應用程式的計算開銷。 ######混合表示試圖將NeRF技術與傳統的基於體積的方法相結合，促進高品質的即時渲染。例如，將體素網格或多解析度哈希網格與神經網路結合，大大減少了NeRF的訓練和推理時間。 ###

3D高斯散射是點雲的變體，其中每個點都包含額外的信息，表示該點周圍的空間區域中發射的輻射為各向異性的3D高斯“斑點”。這些3D高斯通常是從SfM點雲初始化的，並使用可微分渲染進行最佳化。 3D高斯散射透過利用高效的光柵化而非光線追踪，以NeRF計算的一小部分實現了最先進的新型視圖合成。

LLM

傳統的自然語言處理（NLP）包含了廣泛的任務，旨在使系統能夠理解、生成和操作文本。 NLP的早期方法依賴於基於規則的系統、統計模型和早期的神經結構（如遞歸神經網路）等技術。最近引入的大型語言模型（LLM）採用了transformer架構和在大量文本語料庫上進行訓練，取得了前所未有的性能，並在該領域引發了新的熱潮。由於本文的重點是三維LLM，我們在這裡提供了LLM的相關背景知識。為了深入探索LLM，我們參考了該地區的最新調查。

LLM結構

在LLM的上下文中，「編碼器-解碼器」和「僅解碼器」架構主要用於NLP任務。

Encoder-decoder architectures；
Decoder-only architectures;
Tokenization：標記化是將輸入文字分解為標記序列的預處理方法，標記序列是語言模型中的基本資料單元。令牌的數量是有限的，每個令牌可以對應一個單字、子單字或單字。在推理過程中，輸入文字被轉換為令牌序列，並被饋送到模型，模型預測輸出令牌，然後將輸出令牌轉換回文字。標記化對語言模型的表現有很大影響，因為它影響了模型對文本的感知。使用了各種標記化技術，例如單字級標記化、子單字標記化（例如位元組對編碼、WordPiece、PencePiece）和字元級標記化。

LLM Emergent Abilities

LLM和傳統的非LLM方法之間的一個主要區別是在大模型中可用但在小模型中不存在的湧現能力。術語「應急能力」是指隨著LLM規模和複雜性的擴大而產生的新的複雜能力。這些能力使人們能夠深入理解和產生自然語言，在沒有特定訓練的情況下解決各個領域的問題，並透過情境學習適應新任務。在下文中，我們將介紹LLM範圍內的幾種常見湧現能力。

上下文學習是指LLM根據提示中提供的上下文理解和回應新任務或查詢的能力，而不需要明確的再培訓或微調。里程碑論文（GPT-2/GPT-3）以多鏡頭的方式展示了上下文學習，其中向模型提供提示中的幾個任務示例，然後要求其在沒有事先明確訓練的情況下處理不同的示例。最先進的LLM，如GPT-4，表現出非凡的上下文學習能力，理解複雜的指令，並執行從簡單翻譯到生成程式碼和創意寫作的廣泛任務，所有這些都基於提示中提供的上下文。

LLM中的推理，通常被稱為「思維鏈」提示，涉及在處理複雜問題或問題時產生中間步驟或推理路徑的模型。這種方法允許LLM將任務分解為更小、可管理的部分，從而促進更結構化和更易於理解的解決方案過程。為了實現這一點，訓練涉及資料集，其中包括各種解決問題的任務、邏輯謎題和旨在模擬不確定性下推理的資料集。目前最先進的LLM通常在模型大小大於60B到100B的參數時表現出高階推理能力。

指令遵循是指模型理解和執行指令的能力，或依照使用者指定的指令執行的能力。這包括解析指令，理解其意圖，並產生適當的回應或操作。用於使這種能力適應新任務的方法可能需要來自包含與正確回應或動作配對的各種指令的資料集的指令調整。監督學習、來自人類回饋的強化學習和互動學習等技術可以進一步提高表現。

LLM Fine-tuning

在3D LLM的背景下，LLM要麼在其預訓練狀態下直接使用，要麼進行微調以適應新的多模式任務。然而，由於涉及大量的參數，對LLM的整個參數進行微調會帶來顯著的計算和記憶體挑戰。因此，透過僅更新模型參數的相對較小的子集而不是重新訓練整個模型，參數有效微調（PEFT）在使LLM適應特定任務方面變得越來越流行。以下部分列出了LLM中使用的四種常見PEFT方法。

低秩自适应（LoRA）和变体通过低秩矩阵更新参数。从数学上讲，在微调期间LoRA的正向通过可以表示为h＝W0x+BAx。W0是LLM的冻结权重，而BA是由在微调阶段更新的新引入的矩阵a和B参数化的低秩矩阵。这种方法有几个明显的好处。在微调过程中，只有B和A被优化，显著减少了与梯度计算和参数更新相关的计算开销。一旦微调结束并合并权重，与原始模型相比就没有额外的推理成本，如方程所示：h=（W0+BA）x。此外，不需要为不同的任务保存LLM的多个副本，因为可以保存多个LoRA实例，从而减少存储占用。

层冻结：冻结预训练模型的选定层，同时在训练期间更新其他层。这通常适用于更接近模型输入或输出的层，具体取决于任务的性质和模型架构。例如，在3D-LLM方法中，除了输入和输出嵌入之外的所有层都可以被冻结，以减轻特定任务数据集的过拟合风险，保留预先训练的一般知识并减少需要优化的参数。

Prompt Tuning通过在提示中设置LLM的框架来指导LLM执行特定任务，与调整模型参数的传统微调相比，调整模型输入。手动提示工程是最直观的方法，但经验丰富的提示调谐工程师很难找到最佳提示。另一组方法是自动提示生成和优化。一种流行的方法是搜索精确的最佳输入提示文本，称为硬提示，例如。或者，可以使用优化方法来优化提示（软提示）的嵌入。

自适应微调通过添加或删除层或模块来为特定任务定制模型体系结构。这可以包括集成新的数据模式，如视觉信息和文本数据。自适应微调的核心思想是利用插入预训练模型层之间的小型神经网络模块。在自适应微调期间，仅更新这些适配器模块的参数，而原始模型权重保持不变。

2D Vision-Language models

视觉语言模型是一系列模型，旨在捕捉和利用文本和图像/视频之间的关系，并能够执行两种模式之间的交互任务。大多数VLM都具有基于Transformer的体系结构。通过利用注意力模块，视觉和文本内容相互制约，从而实现相互互动。在下面的段落中，我们将简要介绍VLM在判别和生成任务中的应用。

判别任务包括预测数据的某个特征。VLM，如CLIP和ALIGN，在图像分类中对看不见的数据的零样本可传输性方面表现出了非凡的性能。这两个模型都包括两个模块：视觉编码器和文本编码器。给定图像及其类别，CLIP和ALIGN是通过最大限度地提高句子“{图像类别}的照片”的图像嵌入和文本嵌入之间的相似性来训练的。零样本可转移性是通过在推理过程中用可能的候选者替换“{图像类别}”并搜索与图像最匹配的句子来实现的。这两部作品启发了众多后续作品，进一步提高了图像分类的准确性。这些模型还可以提取学习到的知识用于其他任务，包括目标检测、图像分割、文档理解和视频识别。

生成任务利用VLM从输入数据生成文本或图像。通过利用大规模训练数据，单个VLM通常可以执行多个图像到文本的生成任务，如图像字幕和视觉问答（VQA）。值得注意的例子包括SimVLM、BLIP和OFA等。更强大的VLM，如BLIP-2、Flamingo和LLaVA，能够处理基于输入图像的多回合对话和推理。随着扩散模型的引入，文本到图像的生成也成为了研究界的焦点。通过对大量的图像-文本对进行训练，扩散模型可以基于文本输入生成高质量的图像。此功能还扩展到生成视频、3D场景和动态3D目标。除了生成任务外，还可以通过文本提示编辑现有图像。

Vision Foundation Models

視覺基礎模型（VFM）是一種大型神經網絡，旨在提取足夠多樣化和富有表現力的圖像表示，以便直接部署在各種下游任務中，反映預先訓練的LLM在下游NLP任務中的作用。一個值得注意的例子是DINO，它使用了一種自我監督的師生訓練模式。所學習的表示在圖像分類和語義圖像匹配方面都取得了良好的效果。 DINO中的注意力權重也可以用作觀察到的場景的語意成分的分割遮罩。 iBOT和DINOv2等後續工作透過引入掩蔽影像建模（MIM）損失來進一步改進表示。 SAM是一種基於變換器的影像分割模型，在由11億張具有語義遮罩的影像組成的資料集上進行訓練，並表現出強大的零樣本傳遞能力。 DINO（Zhang等人）－不要與DINO（Caron等人）混淆－採用了類似DETR的架構和混合查詢選擇來進行目標偵測。後續工作Grounding DINO引入文字監督以提高準確性。 Stable Diffusion是一種文字到影像產生器，它也被用作「真實」影像的特徵提取器，方法是對乾淨或人工雜訊影像運行單一擴散步驟，並提取中間特徵或註意力掩碼。這些特徵最近被用於分割和圖像匹配任務，這是由於用於擴散模型的訓練集的大小和多樣性，以及由於觀察到的擴散特徵的湧現特性，例如圖像之間的零樣本對應。

任務

3D Captioning (3D → Text)

Object-Level Captioning
#Scene-Level Captioning
3D Dense Captioning

3D Grounding (3D + Text → 3D Position)

#Single- Object Grounding
Multi-Object Grounding

3D Conversation (3D + Text → Text)

3D Question Answering (3D -QA)
3D Situated Question Answering (3D-SQA)
#3D Dialogue

##3.4 3D Embodied Agents (3D + Text → Action)

3D Navigation
3D Manipulation

##3.5 Text-to-3D Generation ( Text → 3D)

3D Object Generation

#3D Scene Generation
3D Editing

3D TASKS WITH LLMS

3D場景理解任務已經被廣泛研究。場景理解的核心是識別和分類指定三維環境中的所有目標，這個過程被稱為語義或實例層級理解。這一階段至關重要，因為它構成了建立更微妙解釋的基礎。隨後，更高層次的場景理解著重於空間理解，空間理解是指空間場景圖的建構和目標關係的語意。更進一步，可以預測潛在的互動，例如可供性、場景變化，以及理解場景的更廣泛背景，例如功能和美學風格。 3D資料也提出了2D中不存在的獨特挑戰，例如獲得和標記3D資料的相對較高的成本、不均勻密集或與網格對齊的稀疏3D資料結構，以及需要協調相同目標的多個（可能被遮蔽的）視點。為此，研究者利用了語言的力量，可以嵌入3D世界中的語意和關係。最近在將大型語言模型（LLM）與3D資料整合方面的努力表明，利用LLM的內在優勢，即零樣本學習、上下文學習、逐步推理和廣泛的世界知識，有望實現多層次的理解和互動。

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

How do LLMs process 3D scene information?

傳統的LLM僅限於文字作為輸入和輸出，這使得攝取3D資訊的能力成為所有3D-LLM方法的主要關注點。總體思路是將3D目標或場景資訊映射到語言空間中，使LLM能夠理解和處理這些3D輸入。具體而言，這通常涉及兩個步驟：（i）使用預先訓練的3D編碼器來處理相應的3D表示，產生原始3D特徵；（ii）採用對齊模組將這些3D特徵轉換成LLM可以處理的3D標記，類似於所述的標記化過程。經過預先訓練的LLM然後可以在產生輸出時使用這些對齊的3D標記。

如前所述，考慮到3D表示的多樣性，有多種方法可以獲得3D特徵。如表1中的「3D幾何」欄所示，點雲由於其簡單性和與各種預先訓練的3D編碼器的兼容性而最為常見，這使其成為多任務和多模式學習方法的熱門選擇。多視圖影像也經常被使用，因為2D特徵提取的研究已經成熟，這意味著3D特徵提取只需要額外的2D到3D提升方案。使用深度相機容易取得的RGB-D資料通常用於3D嵌入式代理系統中，以擷取與視點相關的資訊以進行導航和理解。 3D場景圖是一種更抽象的3D表示，擅長對目標的存在及其關係進行建模，並捕捉場景的高階資訊。它們經常用於3D場景分類和規劃任務。 NeRF目前較少用於3D-LLM方法。我們認為這是由於它們的隱式性質，這使得它們更難標記化並與前饋神經網路整合。

LLMs for Enhancing 3D Task Performance

根據大量資料訓練的LLM已被證明可以獲得有關世界的常識性知識。 LLM的世界知識和推理能力的潛力已經被探索出來，以增強對3D場景的理解，並重新制定幾個3D任務的管道。在本節中，我們將重點介紹旨在使用LLM來提高現有方法在3D視覺語言任務中的表現的方法。當LLM應用於3D任務時，我們可以將其使用分為兩組：知識增強和推理增強方法。知識增強方法利用LLM中嵌入的廣闊世界知識來提升3D任務表現。這可以提供上下文見解，填補知識空白，或者可以增強對3D環境的語義理解。或者，增強推理的方法不是依賴它們的世界知識，而是利用LLM的能力逐步進行推理，從而提供更好的泛化能力來應對更複雜的3D挑戰。以下兩部分分別介紹了這些方法。

Knowledge-enhanced approaches：有幾種方法可以利用LLM世界知識。 Chen等人使用LLM從RGB-D影像進行3D房間分類。這裡，LLM中嵌入的知識用於基於房間中包含的物件類別資訊來確定房間類別。首先，這種方法從Matterport3D資料建立場景圖，其中包含區域和物件的節點，以及連結到房間節點的物件節點。接下來，選擇關鍵物件以形成每個房間類型的查詢。從所選物件中提取的LLM分數描述，最高分數預測房間標籤。還可以提供諸如尺寸或位置之類的空間資訊。
Reasoning-enhanced approaches：除了世界知識外，LLM的推理能力還有助於處理其他3D任務，特別是在具有詳細幾何結構和多個物件的複雜3D場景中的視覺基礎。在這種情況下，物件的文字描述應該包括它們的外觀以及與周圍項目的空間關係。由於無法理解詳細的文字描述，普通的接地方法在這種情況下往往很困難。 LLM-Grounder、Transcribe3D和零樣本3DVG透過利用LLM的推理能力來分析文字描述並產生一系列指令來使用現有的接地工具箱來定位對象，從而解決了這個問題。

LLMs for 3D Multi-Task Learning

#許多工作著重於使用LLM的指令跟隨和上下文學習功能，將多個3D任務統一到一個語言空間中。透過使用不同的文字提示來表示不同的任務，這些研究旨在使LLM成為一個統一的對話介面。使用LLM實現多任務學習通常涉及幾個關鍵步驟，從建立3D文字資料對開始。這些配對需要以文字形式精心製作任務指令，並定義每個不同任務的輸出。接下來，3D資料（通常以點雲的形式）被饋送到3D編碼器以提取3D特徵。對齊模組隨後用於（i）在多個層級（目標層級、關係層級和場景層級）上將3D特徵與來自LLM的文字嵌入對齊，以及（ii）將3D特徵翻譯成LLM可解釋的標記。最後，需要選擇合適的訓練策略，例如單階段或多階段的3D語言對齊訓練和多任務指令微調。

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

在本節的剩餘部分中，我們將詳細探討這些面向。我們在表2中也總結了本節中審查的每種方法的範圍和能力。

Data for Multi-Task Learning：如表2所示，我們將任務分為四類：字幕、基礎、問答（QA）和特定代理任務（即規劃、導航和操作）。因此，每個任務的文字輸出都遵循預先定義的格式。對於字幕和QA任務，輸出為純文本，不受特定格式的限制。基礎任務的輸出是一個三維邊界框，通常是參考物件的中心座標及其三維大小。通常，點和大小的值被歸一化為落在0-255的範圍內，這限制了LLM需要預測的令牌的範圍。對於規劃，模型以文字形式輸出一系列執行任務的步驟，而對於導航，輸出是一系列空間座標。對於操作，輸出是文字形式的動作序列。現有方法遵循這些準則來建立其多任務指令微調資料集。
Training an LLM for multiple 3D tasks：為多個3D任務訓練LLM的第一步涉及獲得有意義的3D特徵，其中提取方法根據3D場景的類型而變化。對於單一物件點雲，point LLM、Chat-3D和GPT4Point利用point BERT來提取3D物件特徵。對於室內場景，LEO使用PointNet++進行特徵提取，而Chat-3D v2和3DMIT對場景進行分割，並使用Uni-3D為每個分割部分提取特徵。同時，MultiPLY將提取的物件特徵整合到場景圖中，以表示整個場景。 3D-LLM和場景LLM將特徵從2D多視圖影像提升到3D表示中。 3D-LLM從Mask2Former或SAM中提取2D語意特徵。場景LLM遵循ConceptFusion融合全局資訊和局部細節，將逐像素的CLIP特徵映射為逐點的3D特徵。對於室外3D場景，LiDAR LLM使用VoxelNet來提取3D體素特徵。

除了探索3D多任務學習器外，最近的一些研究還結合了不同模式的信息，以進一步提高模型的能力並實現新的交互作用。除了文字和3D場景之外，多模式3D LLM還可以包括場景中的2D影像、音訊或觸控資訊作為輸入。

大多數作品旨在建構跨不同模態的公共表示空間。由於一些現有作品已經提供了將文字、圖像或音訊映射到公共空間的預訓練編碼器，一些作品選擇學習將3D嵌入與用於其他模態的預訓練的編碼器的嵌入空間對齊的3D編碼器。 JM3D-LLM學習將點雲的嵌入空間與SLIP的文字影像嵌入空間對齊的3D點雲編碼器。它渲染點雲的圖像序列，並在訓練期間建立層次文字樹，以實現詳細對齊。 Point Bind也學習了一個類似的3D編碼器，並將其與ImageBind對齊，以統一圖像、文字、音訊和點雲的嵌入空間。這使得能夠使用不同的任務頭在各種模式之間處理不同的任務，例如檢索、分類和生成。然而，一個值得注意的限制是，這種方法僅適用於小規模的目標級場景，因為3D編碼器處理具有數百萬點的大型場景在計算上是昂貴的。此外，像CLIP這樣的大多數預訓練多模式編碼器都是為單目標場景設計的，不適合具有多個目標和局部細節的大型場景。

相反，大型場景需要更細緻的設計來融合多種模式。 ConceptFusion建立了一個增強的特徵圖，該特徵圖融合了大型場景的每個組成影像的全局資訊和局部細節。這是透過使用已經與包括文字和音訊在內的不同模態對齊的預先訓練的特徵提取器來實現的。然後，它使用傳統的SLAM方法將特徵圖映射到場景的點雲。 MultiPLY採用了與ConceptGraph類似的表示法。它識別場景中的所有顯著目標，獲得每個目標的全域嵌入，並最終建立場景圖。所得到的表示是與Llama的嵌入空間對齊的場景嵌入。包括音頻、溫度和觸覺在內的其他模態的嵌入也可以使用線性投影映射到相同的空間。所有嵌入都被標記化，並立即發送到LLM。與目標級場景的方法相比，可以處理大型場景的方法透過依賴預先訓練的編碼器來彌補模態差距，而不是從頭開始學習新的編碼器，從而降低了成本。

LLMs for Embodied Agents

可以使用LLM的規劃、工具使用和決策能力來建立3D具體代理。這些能力使LLM能夠產生智慧決策，包括在3D環境中導航、與目標互動以及選擇適當的工具來執行特定任務。本節描述了3D具體代理如何執行規劃、導航和操作任務。

3D Task Planning：對於特定代理，「任務規劃」是指在給定任務描述和3D環境的情況下，產生執行特定任務的步驟的能力。任務規劃通常是導航和操縱任務的先決條件，因為規劃的準確性直接影響後續任務的表現。 LEO和LLM Planner利用LLM產生逐步計劃，並根據環境感知進行動態調整。 LEO強調基於當前情境配置的情境感知規劃，而LLM Planner採用GPT3將規劃劃分為高階子目標和低階動作，並在任務執行過程中代理陷入困境時進行重新規劃。 3D-VLA透過產生的世界模型將3D感知、推理和動作結合。它專注於透過利用其生成模型來預測未來的狀態表示（例如目標影像和點雲）來增強規劃能力。
3D Navigation：3D導航是指嵌入式代理在3D環境中移動和定位自己的能力，通常是基於視覺輸入和語言指令。所描述的每種方法——LEO、Agent3D Zero、LLM Planner和NaviLLM——都以不同的方式實現3D導航。 LEO處理以自車為中心的2D影像和以目標為中心的3D點雲以及文字指令。
3D Object Manipulation：在3D具體代理的上下文中，操縱是指它們與目標進行物理交互的能力，從移動目標到組裝零件或打開門等複雜序列。用於使LLM能夠執行操作任務的核心思想在於將動作序列標記化。為了讓LLM輸出特定的動作，首先需要定義動作令牌，該令牌允許LLM基於任務和3D場景上下文產生所述動作。隨後，像CLIPort或機械手臂中的運動規劃模組這樣的平台將這些標記化的動作轉化為由代理人執行的物理動作。

LLMs for 3D Generation

傳統上，3D建模是一個複雜的時間密集型過程，進入門檻很高，需要對幾何體、紋理和照明進行詳細關注才能獲得逼真的結果。在本節中，我們將仔細研究LLM與3D生成技術的集成，展示語言如何提供一種在場景中生成上下文化目標的方法，並為3D內容創建和操作提供創新的解決方案。

Object-level Generation：Shape GPT使用特定形狀的3D VQ-VAE將3D形狀量化為離散的「形狀字」標記。這使得能夠將形狀資料與文字和圖像一起整合到T5語言模型的多模態輸入中。這種多模態表示使T5能夠學習跨模態交互，例如文字到形狀的生成和形狀編輯/完成。 GPT4Point使用雙流方法-透過point QFormer將點雲幾何圖形與文字對齊，然後將其輸入到耦合的LLM和擴散路徑中，用於文字理解和符合文字輸入的高保真3D目標產生。
Scene-scale Generation：Holodeck和GALA-3D採用多層管道將初始粗略的3D場景佈局從文字逐步細化為詳細逼真的3D環境。 Holodeck採用專門的模組來製作基本佈局，選擇材料，並根據GPT-4的空間推理和佈局/風格建議融入門窗等元素。然後，它使用與GPT-4的文字描述相符的Ob厭惡資產填充佈局。優化器根據從GPT-4獲得的空間關係限制來排列這些目標，以鼓勵真實的目標佈局和互動。
Procedural Generation and Manipulation：LLMR、3D-GPT和SceneCraft採用具有專門組件/代理的模組化架構，用於從自然語言進行互動式3D世界創建和程式碼生成。 LLMR由不同的元件組成，用於產生程式碼以在Unity中建立場景，了解現有場景目標和屬性以進行修改，識別執行指令所需的功能，並評估最終程式碼品質。類似地，3D-GPT具有用於解釋指令和確定所需生成函數的元件，使用詳細的建模屬性豐富描述，並將豐富的描述轉換為Blender API的Python程式碼。總的來說，這些方法展示了LLM組件的任務分解和專業化，以處理指令解釋、函數映射和穩健的程式碼生成。

3D TASKS WITH VLMS

Open-Vocabulary 3D Scene Understanding

#開放詞彙3D場景理解旨在使用自然語言描述而不是預先定義的類別標籤來識別和描述場景元素。 OpenScene採用零樣本方法，預測與CLIP的文本和圖像像素嵌入共同嵌入到共享特徵空間中的3D場景點的密集特徵，實現任務識別訓練和開放詞彙查詢，以識別目標、材料、啟示、活動和房間類型。 CLIP-FO3D遵循類似的方法，修改CLIP以從投影到點雲的3D場景中提取密集的像素特徵，然後透過蒸餾訓練3D模型以轉移CLIP的知識。語意抽象從CLIP中提取關聯圖作為抽象目標表示，以推廣到新的語意、詞彙和領域。 Open Fusion將SEEM視覺語言模型與TSDF 3D映射結合，利用基於區域的嵌入和置信度圖進行即時開放詞彙場景建立和查詢。

Text-Driven 3D Generation

在這裡，我們調查了利用2D VLM和使用可微分渲染的文本到圖像擴散模型的指導的文本到3D生成方法。 DreamFields、CLIP-Mesh、CLIP-Forge和Text2Mesh等早期作品探索了CLIP指導的零樣本3D生成。

DreamFusion引入了Score Distriction Sampling（SDS），其中3D表示的參數透過使其從任意角度的渲染看起來高度逼真來進行最佳化，例如透過預先訓練的2D擴散模型進行評估。它使用文字到圖像的Imagen模型來透過SDS優化NeRF表示。 Magic3D提出了一個兩階段框架：產生具有低解析度擴散先驗和稀疏3D哈希網格的粗略模型，然後使用高效的可微分渲染器和高解析度潛在擴散模型優化紋理3D網格模型。 Fantasia3D使用混合DMET表示和空間變化的BRDF，將幾何圖形和外觀解開。 ProlificDreamer引入了變分分數蒸餾（VSD），這是一個基於粒子的框架，將3D參數視為隨機變量，以提高保真度和多樣性。 Dream3D利用明確的3D形狀先驗和文字到影像的擴散模型來增強文字引導的3D合成。 MVDream採用了可在少量鏡頭資料上訓練的多視圖一致擴散模型，用於個人化生成。 Text2NeRF將NeRF表示與預先訓練的文字到影像擴散模型結合，以根據語言產生不同的室內/室外3D場景。除了同時生成幾何圖形和外觀外，一些研究還探索了僅基於給定幾何圖形合成紋理的可能性。

End-to-End Architectures for 3D Vision & Language

在大型3D文字資料集上預先訓練的Transformer模型學習強大的聯合表示，將視覺和語言模態連結起來。 3D VisTA是一種Transformer模型，它利用自註意力對3D視覺和文字資料進行聯合建模，實現對掩蔽語言/目標建模和場景文字匹配等目標的有效預訓練。 UniT3D採用統一的Transformer方法，結合PointGroup 3D偵測主幹、BERT文字編碼器和多模式融合模組，對合成的3D語言資料進行聯合預訓練。 SpatialVLM採用了不同的策略，在大型合成三維空間推理資料集上共同訓練VLM，提高了三維空間視覺問答任務的性能，並支持機器人的思想鏈推理等應用。 Multi CLIP預訓練3D場景編碼器，使場景特徵與CLIP的文字和影像嵌入對齊，旨在傳遞CLIP的知識，以提高對視覺問答等任務的3D理解。

資料集

牛津大学最新 | 近400篇总结！畅谈大语言模型与三维世界最新综述

#挑戰與未來機會

儘管LLM與3D數據的整合取得了進展，但在數據表示、計算效率和基準方面仍然存在挑戰，需要創新的解決方案。

表示選擇對三維視覺語言模型的表現有很大影響。目前，點雲由於其簡單性和神經網路相容性，主要用於表示室內（例如網格的頂點）和室外（例如雷射雷達點雲）環境。然而，他們很難捕捉到對準確、豐富的空間模型至關重要的細節。開發新的3D場景表示，更有效地彌合空間資訊和語言之間的差距，可以開啟新的理解和互動水平。透過找到在3D表示中編碼語言和語義資訊的創新方法，例如使用提取的語言和語義嵌入，可以幫助彌合這兩種模式之間的差距。

3D資料處理和LLM的運算需求都帶來了重大挑戰。隨著3D環境的複雜性和語言模型的大小的增加，可擴展性仍然是一個令人擔憂的問題。為自適應性和運算效率而設計的LLM架構的進步可以顯著拓寬其改進基準對於全面評估和提高3D任務中多模態LLM的能力至關重要。目前的基準範圍有限，特別是在三維推理方面，阻礙了空間推理技能的評估以及三維決策/互動系統的發展。此外，目前使用的指標還無法全面捕捉LLM在3D環境中的功能。制定特定任務的指標，更準確地衡量不同3D任務的表現至關重要。最後，目前場景理解基準的粒度過於簡單，限制了對複雜3D環境理解的深入了解。需要一系列更加多樣化的任務。

改進基準對於全面評估和提高多模態LLM在3D任務中的能力至關重要。目前的基準範圍有限，特別是在三維推理方面，阻礙了空間推理技能的評估以及三維決策/互動系統的發展。此外，目前使用的指標還無法全面捕捉LLM在3D環境中的功能。制定特定任務的指標，更準確地衡量不同3D任務的表現至關重要。最後，目前場景理解基準的粒度過於簡單，限制了對複雜3D環境理解的深入了解。需要一系列更加多樣化的任務。

在使用LLM進行3D理解時，必須考慮安全和道德影響。 LLM可能產生幻覺並輸出不準確、不安全的訊息，從而導致關鍵3D應用程式中的錯誤決策。此外，LLM往往以不可預測和難以解釋的方式失敗。他們也可能繼承訓練資料中存在的社會偏見，在現實世界的3D場景中進行預測時，對某些群體不利。至關重要的是，在3D環境中謹慎使用LLM，採用策略創建更具包容性的數據集、用於偏見檢測和糾正的強大評估框架，以及最大限度地減少幻覺的機制，確保負責任和公平的結果。

結論

本文對LLM與3D資料的整合進行了深入的探索。調查系統地回顧了LLM在處理、理解和產生3D數據方面的方法、應用和湧現能力，強調了LLM跨一系列3D任務的變革潛力。從增強三維環境中的空間理解和交互，到推動嵌入式人工智慧系統的能力，LLM在推進該領域中發揮關鍵作用。

關鍵發現包括識別LLM的獨特優勢，如零樣本學習、高級推理和廣泛的世界知識，這些優勢有助於彌合文本資訊和空間解釋之間的差距。該論文展示了LLM與3D數據整合的廣泛任務。與LLM一起探索其他3D視覺語言方法，揭示了旨在加深我們對3D世界理解的豐富研究前景。

此外，調查強調了數據表示、模型可擴展性和計算效率等重大挑戰，表明克服這些障礙對於充分實現LLM在3D應用中的潛力至關重要。總之，這項調查不僅全面概述了使用LLM的3D任務的現狀，而且為未來的研究方向奠定了基礎。它呼籲開展合作，探索和擴展LLM在理解複雜的3D世界和與之互動方面的能力，為空間智慧領域的進一步進步鋪平道路。

以上是牛津大學最新 | 近400篇總結！暢談大語言模式與三維世界最新綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn