隨著大型語言模型(LLM)的發展,它們與3D空間資料(3D LLM)之間的集成取得了快速進展,為理解物理空間和與物理空間互動提供了前所未有的能力。本文全面概述了LLM處理、理解和產生3D資料的方法。我們強調了LLM的獨特優勢,如上下文學習、逐步推理、開放詞彙能力和廣泛的世界知識,並強調了它們與嵌入式人工智慧(AI)系統中顯示推進空間理解和互動的潛力。我們的研究涵蓋了從點雲到神經渲染場(NeRF)的各種3D資料表示。並分析了它們與LLM的集成,用於3D場景理解、字幕、問答和對話等任務,以及用於空間推理、規劃和導航的基於LLM的代理。本文也簡要回顧了其他相關的3D和語言相結合的方法,進一步揭示了相關重大進展,但強調了利用3D LLM的全部潛力的必要性。因此,透過這篇討論文,我們旨在為未來的研究制定一條路徑線,探索和擴展3D LLM在理解複雜3D世界和與之互動方面的能力。
開源連結:https://github.com/ActiveVisionLab/Awesome-LLM-3D
###### ###本節提供有關三維表示、大型語言模型(LLM)、二維視覺語言模型(VLM)和視覺基礎模型(VFM)的基本背景知識。 #########3D表示#########選擇3D表示來描述、建模和理解我們的世界是一個至關重要的主題,有助於理解3D LLM的當前進展。它也是電腦視覺的一個基礎研究領域。由於深度學習、運算資源和3D數據可用性的進步,該領域最近取得了巨大增長。我們簡要介紹目前使用的最常見的三維表示。 #########點雲###:用空間中的一組資料點表示三維形狀,將每個點的位置儲存在三維笛卡爾座標系中。除了儲存位置之外,還可以儲存每個點的其他資訊(例如顏色、法線)。基於點雲的方法以其低儲存佔用空間而聞名,但缺乏表面拓撲資訊。獲取點雲的典型來源包括光達感測器、結構光掃描儀、飛行時間相機、立體視圖、攝影測量等。 #########體素網格###:由三維空間中的單位立方體組成,類似於二維空間中的像素表示。每個體素最低限度地編碼佔用資訊(二進位或機率地),但可以附加地編碼到表面的距離,如在有符號距離函數(SDF)或截斷符號距離函數(TSDF)中。然而當需要高解析度的細節時,記憶體佔用可能會變得過多。 #########多邊形網格###:表示由頂點和曲面組成,可以緊湊地描述複雜的三維形狀。然而,它們的非結構化和不可微性質在將它們與神經網路整合以實現端到端可微管道方面帶來了挑戰。解決這個問題的一些解決方案,例如基於梯度近似的方法,只能使用手動製作的梯度計算。其他解決方案,如可微分光柵化器,可能會導致不精確的渲染結果,如內容模糊。 ######近年來,神經場景3D研究界引起了越來越多的興趣,與依賴幾何元素的傳統表示不同。神經場景是從空間座標到場景屬性(如佔用、顏色、強度等)的映射,但與物質網格不同的是,在神經場景中,映射是一個學習函數,通常是多層感知器。透過這種方式,神經場景隱藏了學習幾何、連續和可微分3D形狀和場景表示的能力。 ######一組神經網路專注於隱式表面表示。佔用網路在由神經網路表示的連續3D佔用函數中對形狀進行編碼,使用來自點雲、低解析度體素或影像的3D點位置和特徵來估計佔用機率。同時,深度SDF網路使用神經網路從三維座標和梯度估計SDF。最近的方法,如NeuS和NeuS2,顯示提高了靜態和動態目標的表面重建保真度和效率。 ######另一組被稱為神經輻射場(NeRF)的方法顯示了強大的3D世界真實感渲染能力。這些方法使用位置編碼技術對場景細節進行編碼,並利用MLP來預測相機光線的輻射值(顏色和不透明度)。然而,MLP推斷空間中每個採樣點(包括空空間中的採樣點)的顏色和佔用細節的必要性需要大量的計算資源。因此,有強烈的動機來減少NeRF的即時應用程式的計算開銷。 ######混合表示試圖將NeRF技術與傳統的基於體積的方法相結合,促進高品質的即時渲染。例如,將體素網格或多解析度哈希網格與神經網路結合,大大減少了NeRF的訓練和推理時間。 ###
3D高斯散射是點雲的變體,其中每個點都包含額外的信息,表示該點周圍的空間區域中發射的輻射為各向異性的3D高斯“斑點”。這些3D高斯通常是從SfM點雲初始化的,並使用可微分渲染進行最佳化。 3D高斯散射透過利用高效的光柵化而非光線追踪,以NeRF計算的一小部分實現了最先進的新型視圖合成。
傳統的自然語言處理(NLP)包含了廣泛的任務,旨在使系統能夠理解、生成和操作文本。 NLP的早期方法依賴於基於規則的系統、統計模型和早期的神經結構(如遞歸神經網路)等技術。最近引入的大型語言模型(LLM)採用了transformer架構和在大量文本語料庫上進行訓練,取得了前所未有的性能,並在該領域引發了新的熱潮。由於本文的重點是三維LLM,我們在這裡提供了LLM的相關背景知識。為了深入探索LLM,我們參考了該地區的最新調查。
在LLM的上下文中,「編碼器-解碼器」和「僅解碼器」架構主要用於NLP任務。
LLM和傳統的非LLM方法之間的一個主要區別是在大模型中可用但在小模型中不存在的湧現能力。術語「應急能力」是指隨著LLM規模和複雜性的擴大而產生的新的複雜能力。這些能力使人們能夠深入理解和產生自然語言,在沒有特定訓練的情況下解決各個領域的問題,並透過情境學習適應新任務。在下文中,我們將介紹LLM範圍內的幾種常見湧現能力。
上下文學習是指LLM根據提示中提供的上下文理解和回應新任務或查詢的能力,而不需要明確的再培訓或微調。里程碑論文(GPT-2/GPT-3)以多鏡頭的方式展示了上下文學習,其中向模型提供提示中的幾個任務示例,然後要求其在沒有事先明確訓練的情況下處理不同的示例。最先進的LLM,如GPT-4,表現出非凡的上下文學習能力,理解複雜的指令,並執行從簡單翻譯到生成程式碼和創意寫作的廣泛任務,所有這些都基於提示中提供的上下文。
LLM中的推理,通常被稱為「思維鏈」提示,涉及在處理複雜問題或問題時產生中間步驟或推理路徑的模型。這種方法允許LLM將任務分解為更小、可管理的部分,從而促進更結構化和更易於理解的解決方案過程。為了實現這一點,訓練涉及資料集,其中包括各種解決問題的任務、邏輯謎題和旨在模擬不確定性下推理的資料集。目前最先進的LLM通常在模型大小大於60B到100B的參數時表現出高階推理能力。
指令遵循是指模型理解和執行指令的能力,或依照使用者指定的指令執行的能力。這包括解析指令,理解其意圖,並產生適當的回應或操作。用於使這種能力適應新任務的方法可能需要來自包含與正確回應或動作配對的各種指令的資料集的指令調整。監督學習、來自人類回饋的強化學習和互動學習等技術可以進一步提高表現。
在3D LLM的背景下,LLM要麼在其預訓練狀態下直接使用,要麼進行微調以適應新的多模式任務。然而,由於涉及大量的參數,對LLM的整個參數進行微調會帶來顯著的計算和記憶體挑戰。因此,透過僅更新模型參數的相對較小的子集而不是重新訓練整個模型,參數有效微調(PEFT)在使LLM適應特定任務方面變得越來越流行。以下部分列出了LLM中使用的四種常見PEFT方法。
低秩自适应(LoRA)和变体通过低秩矩阵更新参数。从数学上讲,在微调期间LoRA的正向通过可以表示为h=W0x+BAx。W0是LLM的冻结权重,而BA是由在微调阶段更新的新引入的矩阵a和B参数化的低秩矩阵。这种方法有几个明显的好处。在微调过程中,只有B和A被优化,显著减少了与梯度计算和参数更新相关的计算开销。一旦微调结束并合并权重,与原始模型相比就没有额外的推理成本,如方程所示:h=(W0+BA)x。此外,不需要为不同的任务保存LLM的多个副本,因为可以保存多个LoRA实例,从而减少存储占用。
层冻结:冻结预训练模型的选定层,同时在训练期间更新其他层。这通常适用于更接近模型输入或输出的层,具体取决于任务的性质和模型架构。例如,在3D-LLM方法中,除了输入和输出嵌入之外的所有层都可以被冻结,以减轻特定任务数据集的过拟合风险,保留预先训练的一般知识并减少需要优化的参数。
Prompt Tuning通过在提示中设置LLM的框架来指导LLM执行特定任务,与调整模型参数的传统微调相比,调整模型输入。手动提示工程是最直观的方法,但经验丰富的提示调谐工程师很难找到最佳提示。另一组方法是自动提示生成和优化。一种流行的方法是搜索精确的最佳输入提示文本,称为硬提示,例如。或者,可以使用优化方法来优化提示(软提示)的嵌入。
自适应微调通过添加或删除层或模块来为特定任务定制模型体系结构。这可以包括集成新的数据模式,如视觉信息和文本数据。自适应微调的核心思想是利用插入预训练模型层之间的小型神经网络模块。在自适应微调期间,仅更新这些适配器模块的参数,而原始模型权重保持不变。
视觉语言模型是一系列模型,旨在捕捉和利用文本和图像/视频之间的关系,并能够执行两种模式之间的交互任务。大多数VLM都具有基于Transformer的体系结构。通过利用注意力模块,视觉和文本内容相互制约,从而实现相互互动。在下面的段落中,我们将简要介绍VLM在判别和生成任务中的应用。
判别任务包括预测数据的某个特征。VLM,如CLIP和ALIGN,在图像分类中对看不见的数据的零样本可传输性方面表现出了非凡的性能。这两个模型都包括两个模块:视觉编码器和文本编码器。给定图像及其类别,CLIP和ALIGN是通过最大限度地提高句子“{图像类别}的照片”的图像嵌入和文本嵌入之间的相似性来训练的。零样本可转移性是通过在推理过程中用可能的候选者替换“{图像类别}”并搜索与图像最匹配的句子来实现的。这两部作品启发了众多后续作品,进一步提高了图像分类的准确性。这些模型还可以提取学习到的知识用于其他任务,包括目标检测、图像分割、文档理解和视频识别。
生成任务利用VLM从输入数据生成文本或图像。通过利用大规模训练数据,单个VLM通常可以执行多个图像到文本的生成任务,如图像字幕和视觉问答(VQA)。值得注意的例子包括SimVLM、BLIP和OFA等。更强大的VLM,如BLIP-2、Flamingo和LLaVA,能够处理基于输入图像的多回合对话和推理。随着扩散模型的引入,文本到图像的生成也成为了研究界的焦点。通过对大量的图像-文本对进行训练,扩散模型可以基于文本输入生成高质量的图像。此功能还扩展到生成视频、3D场景和动态3D目标。除了生成任务外,还可以通过文本提示编辑现有图像。
視覺基礎模型(VFM)是一種大型神經網絡,旨在提取足夠多樣化和富有表現力的圖像表示,以便直接部署在各種下游任務中,反映預先訓練的LLM在下游NLP任務中的作用。一個值得注意的例子是DINO,它使用了一種自我監督的師生訓練模式。所學習的表示在圖像分類和語義圖像匹配方面都取得了良好的效果。 DINO中的注意力權重也可以用作觀察到的場景的語意成分的分割遮罩。 iBOT和DINOv2等後續工作透過引入掩蔽影像建模(MIM)損失來進一步改進表示。 SAM是一種基於變換器的影像分割模型,在由11億張具有語義遮罩的影像組成的資料集上進行訓練,並表現出強大的零樣本傳遞能力。 DINO(Zhang等人)-不要與DINO(Caron等人)混淆-採用了類似DETR的架構和混合查詢選擇來進行目標偵測。後續工作Grounding DINO引入文字監督以提高準確性。 Stable Diffusion是一種文字到影像產生器,它也被用作「真實」影像的特徵提取器,方法是對乾淨或人工雜訊影像運行單一擴散步驟,並提取中間特徵或註意力掩碼。這些特徵最近被用於分割和圖像匹配任務,這是由於用於擴散模型的訓練集的大小和多樣性,以及由於觀察到的擴散特徵的湧現特性,例如圖像之間的零樣本對應。
如前所述,考慮到3D表示的多樣性,有多種方法可以獲得3D特徵。如表1中的「3D幾何」欄所示,點雲由於其簡單性和與各種預先訓練的3D編碼器的兼容性而最為常見,這使其成為多任務和多模式學習方法的熱門選擇。多視圖影像也經常被使用,因為2D特徵提取的研究已經成熟,這意味著3D特徵提取只需要額外的2D到3D提升方案。使用深度相機容易取得的RGB-D資料通常用於3D嵌入式代理系統中,以擷取與視點相關的資訊以進行導航和理解。 3D場景圖是一種更抽象的3D表示,擅長對目標的存在及其關係進行建模,並捕捉場景的高階資訊。它們經常用於3D場景分類和規劃任務。 NeRF目前較少用於3D-LLM方法。我們認為這是由於它們的隱式性質,這使得它們更難標記化並與前饋神經網路整合。
根據大量資料訓練的LLM已被證明可以獲得有關世界的常識性知識。 LLM的世界知識和推理能力的潛力已經被探索出來,以增強對3D場景的理解,並重新制定幾個3D任務的管道。在本節中,我們將重點介紹旨在使用LLM來提高現有方法在3D視覺語言任務中的表現的方法。當LLM應用於3D任務時,我們可以將其使用分為兩組:知識增強和推理增強方法。知識增強方法利用LLM中嵌入的廣闊世界知識來提升3D任務表現。這可以提供上下文見解,填補知識空白,或者可以增強對3D環境的語義理解。或者,增強推理的方法不是依賴它們的世界知識,而是利用LLM的能力逐步進行推理,從而提供更好的泛化能力來應對更複雜的3D挑戰。以下兩部分分別介紹了這些方法。
#許多工作著重於使用LLM的指令跟隨和上下文學習功能,將多個3D任務統一到一個語言空間中。透過使用不同的文字提示來表示不同的任務,這些研究旨在使LLM成為一個統一的對話介面。使用LLM實現多任務學習通常涉及幾個關鍵步驟,從建立3D文字資料對開始。這些配對需要以文字形式精心製作任務指令,並定義每個不同任務的輸出。接下來,3D資料(通常以點雲的形式)被饋送到3D編碼器以提取3D特徵。對齊模組隨後用於(i)在多個層級(目標層級、關係層級和場景層級)上將3D特徵與來自LLM的文字嵌入對齊,以及(ii)將3D特徵翻譯成LLM可解釋的標記。最後,需要選擇合適的訓練策略,例如單階段或多階段的3D語言對齊訓練和多任務指令微調。
在本節的剩餘部分中,我們將詳細探討這些面向。我們在表2中也總結了本節中審查的每種方法的範圍和能力。
除了探索3D多任務學習器外,最近的一些研究還結合了不同模式的信息,以進一步提高模型的能力並實現新的交互作用。除了文字和3D場景之外,多模式3D LLM還可以包括場景中的2D影像、音訊或觸控資訊作為輸入。
大多數作品旨在建構跨不同模態的公共表示空間。由於一些現有作品已經提供了將文字、圖像或音訊映射到公共空間的預訓練編碼器,一些作品選擇學習將3D嵌入與用於其他模態的預訓練的編碼器的嵌入空間對齊的3D編碼器。 JM3D-LLM學習將點雲的嵌入空間與SLIP的文字影像嵌入空間對齊的3D點雲編碼器。它渲染點雲的圖像序列,並在訓練期間建立層次文字樹,以實現詳細對齊。 Point Bind也學習了一個類似的3D編碼器,並將其與ImageBind對齊,以統一圖像、文字、音訊和點雲的嵌入空間。這使得能夠使用不同的任務頭在各種模式之間處理不同的任務,例如檢索、分類和生成。然而,一個值得注意的限制是,這種方法僅適用於小規模的目標級場景,因為3D編碼器處理具有數百萬點的大型場景在計算上是昂貴的。此外,像CLIP這樣的大多數預訓練多模式編碼器都是為單目標場景設計的,不適合具有多個目標和局部細節的大型場景。
相反,大型場景需要更細緻的設計來融合多種模式。 ConceptFusion建立了一個增強的特徵圖,該特徵圖融合了大型場景的每個組成影像的全局資訊和局部細節。這是透過使用已經與包括文字和音訊在內的不同模態對齊的預先訓練的特徵提取器來實現的。然後,它使用傳統的SLAM方法將特徵圖映射到場景的點雲。 MultiPLY採用了與ConceptGraph類似的表示法。它識別場景中的所有顯著目標,獲得每個目標的全域嵌入,並最終建立場景圖。所得到的表示是與Llama的嵌入空間對齊的場景嵌入。包括音頻、溫度和觸覺在內的其他模態的嵌入也可以使用線性投影映射到相同的空間。所有嵌入都被標記化,並立即發送到LLM。與目標級場景的方法相比,可以處理大型場景的方法透過依賴預先訓練的編碼器來彌補模態差距,而不是從頭開始學習新的編碼器,從而降低了成本。
可以使用LLM的規劃、工具使用和決策能力來建立3D具體代理。這些能力使LLM能夠產生智慧決策,包括在3D環境中導航、與目標互動以及選擇適當的工具來執行特定任務。本節描述了3D具體代理如何執行規劃、導航和操作任務。
傳統上,3D建模是一個複雜的時間密集型過程,進入門檻很高,需要對幾何體、紋理和照明進行詳細關注才能獲得逼真的結果。在本節中,我們將仔細研究LLM與3D生成技術的集成,展示語言如何提供一種在場景中生成上下文化目標的方法,並為3D內容創建和操作提供創新的解決方案。
#開放詞彙3D場景理解旨在使用自然語言描述而不是預先定義的類別標籤來識別和描述場景元素。 OpenScene採用零樣本方法,預測與CLIP的文本和圖像像素嵌入共同嵌入到共享特徵空間中的3D場景點的密集特徵,實現任務識別訓練和開放詞彙查詢,以識別目標、材料、啟示、活動和房間類型。 CLIP-FO3D遵循類似的方法,修改CLIP以從投影到點雲的3D場景中提取密集的像素特徵,然後透過蒸餾訓練3D模型以轉移CLIP的知識。語意抽象從CLIP中提取關聯圖作為抽象目標表示,以推廣到新的語意、詞彙和領域。 Open Fusion將SEEM視覺語言模型與TSDF 3D映射結合,利用基於區域的嵌入和置信度圖進行即時開放詞彙場景建立和查詢。
在這裡,我們調查了利用2D VLM和使用可微分渲染的文本到圖像擴散模型的指導的文本到3D生成方法。 DreamFields、CLIP-Mesh、CLIP-Forge和Text2Mesh等早期作品探索了CLIP指導的零樣本3D生成。
DreamFusion引入了Score Distriction Sampling(SDS),其中3D表示的參數透過使其從任意角度的渲染看起來高度逼真來進行最佳化,例如透過預先訓練的2D擴散模型進行評估。它使用文字到圖像的Imagen模型來透過SDS優化NeRF表示。 Magic3D提出了一個兩階段框架:產生具有低解析度擴散先驗和稀疏3D哈希網格的粗略模型,然後使用高效的可微分渲染器和高解析度潛在擴散模型優化紋理3D網格模型。 Fantasia3D使用混合DMET表示和空間變化的BRDF,將幾何圖形和外觀解開。 ProlificDreamer引入了變分分數蒸餾(VSD),這是一個基於粒子的框架,將3D參數視為隨機變量,以提高保真度和多樣性。 Dream3D利用明確的3D形狀先驗和文字到影像的擴散模型來增強文字引導的3D合成。 MVDream採用了可在少量鏡頭資料上訓練的多視圖一致擴散模型,用於個人化生成。 Text2NeRF將NeRF表示與預先訓練的文字到影像擴散模型結合,以根據語言產生不同的室內/室外3D場景。除了同時生成幾何圖形和外觀外,一些研究還探索了僅基於給定幾何圖形合成紋理的可能性。
在大型3D文字資料集上預先訓練的Transformer模型學習強大的聯合表示,將視覺和語言模態連結起來。 3D VisTA是一種Transformer模型,它利用自註意力對3D視覺和文字資料進行聯合建模,實現對掩蔽語言/目標建模和場景文字匹配等目標的有效預訓練。 UniT3D採用統一的Transformer方法,結合PointGroup 3D偵測主幹、BERT文字編碼器和多模式融合模組,對合成的3D語言資料進行聯合預訓練。 SpatialVLM採用了不同的策略,在大型合成三維空間推理資料集上共同訓練VLM,提高了三維空間視覺問答任務的性能,並支持機器人的思想鏈推理等應用。 Multi CLIP預訓練3D場景編碼器,使場景特徵與CLIP的文字和影像嵌入對齊,旨在傳遞CLIP的知識,以提高對視覺問答等任務的3D理解。
儘管LLM與3D數據的整合取得了進展,但在數據表示、計算效率和基準方面仍然存在挑戰,需要創新的解決方案。
表示選擇對三維視覺語言模型的表現有很大影響。目前,點雲由於其簡單性和神經網路相容性,主要用於表示室內(例如網格的頂點)和室外(例如雷射雷達點雲)環境。然而,他們很難捕捉到對準確、豐富的空間模型至關重要的細節。開發新的3D場景表示,更有效地彌合空間資訊和語言之間的差距,可以開啟新的理解和互動水平。透過找到在3D表示中編碼語言和語義資訊的創新方法,例如使用提取的語言和語義嵌入,可以幫助彌合這兩種模式之間的差距。
3D資料處理和LLM的運算需求都帶來了重大挑戰。隨著3D環境的複雜性和語言模型的大小的增加,可擴展性仍然是一個令人擔憂的問題。為自適應性和運算效率而設計的LLM架構的進步可以顯著拓寬其改進基準對於全面評估和提高3D任務中多模態LLM的能力至關重要。目前的基準範圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/互動系統的發展。此外,目前使用的指標還無法全面捕捉LLM在3D環境中的功能。制定特定任務的指標,更準確地衡量不同3D任務的表現至關重要。最後,目前場景理解基準的粒度過於簡單,限制了對複雜3D環境理解的深入了解。需要一系列更加多樣化的任務。
改進基準對於全面評估和提高多模態LLM在3D任務中的能力至關重要。目前的基準範圍有限,特別是在三維推理方面,阻礙了空間推理技能的評估以及三維決策/互動系統的發展。此外,目前使用的指標還無法全面捕捉LLM在3D環境中的功能。制定特定任務的指標,更準確地衡量不同3D任務的表現至關重要。最後,目前場景理解基準的粒度過於簡單,限制了對複雜3D環境理解的深入了解。需要一系列更加多樣化的任務。
在使用LLM進行3D理解時,必須考慮安全和道德影響。 LLM可能產生幻覺並輸出不準確、不安全的訊息,從而導致關鍵3D應用程式中的錯誤決策。此外,LLM往往以不可預測和難以解釋的方式失敗。他們也可能繼承訓練資料中存在的社會偏見,在現實世界的3D場景中進行預測時,對某些群體不利。至關重要的是,在3D環境中謹慎使用LLM,採用策略創建更具包容性的數據集、用於偏見檢測和糾正的強大評估框架,以及最大限度地減少幻覺的機制,確保負責任和公平的結果。
本文對LLM與3D資料的整合進行了深入的探索。調查系統地回顧了LLM在處理、理解和產生3D數據方面的方法、應用和湧現能力,強調了LLM跨一系列3D任務的變革潛力。從增強三維環境中的空間理解和交互,到推動嵌入式人工智慧系統的能力,LLM在推進該領域中發揮關鍵作用。
關鍵發現包括識別LLM的獨特優勢,如零樣本學習、高級推理和廣泛的世界知識,這些優勢有助於彌合文本資訊和空間解釋之間的差距。該論文展示了LLM與3D數據整合的廣泛任務。與LLM一起探索其他3D視覺語言方法,揭示了旨在加深我們對3D世界理解的豐富研究前景。
此外,調查強調了數據表示、模型可擴展性和計算效率等重大挑戰,表明克服這些障礙對於充分實現LLM在3D應用中的潛力至關重要。總之,這項調查不僅全面概述了使用LLM的3D任務的現狀,而且為未來的研究方向奠定了基礎。它呼籲開展合作,探索和擴展LLM在理解複雜的3D世界和與之互動方面的能力,為空間智慧領域的進一步進步鋪平道路。
以上是牛津大學最新 | 近400篇總結!暢談大語言模式與三維世界最新綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!