搜尋
首頁科技週邊人工智慧自然語言融入NeRF,給點文字就產生3D圖的LERF來了

NeRF(Neural Radiance Fields)又稱神經輻射場,自從被提出以來,火速成為最為熱門的研究領域之一,效果非常驚艷。然而,NeRF 的直接輸出只是一個彩色的密度場,對研究者來說可用資訊很少,缺乏上下文就是需要面對的問題之一,其效果是直接影響了與 3D 場景互動介面的建構。

但自然語言不同,自然語言與 3D 場景互動非常直覺。我們可以用圖 1 中的廚房場景來解釋,透過詢問餐具在哪,或詢問用來攪拌的工具在哪,以這種方式就可以在廚房裡找到物體。不過完成這項任務不僅需要模型的查詢能力,還需要能夠在多個尺度上合併語意等。

本文中,來自UC 柏克萊的研究者提出了一種新穎的方法,並命名為LERF(Language Embedded Radiance Fields),該方法將CLIP(Contrastive Language-Image Pre -training)等模型中的語言嵌入到NeRF 中,使得這些類型的3D 開放式語言查詢成為可能。 LERF 直接使用 CLIP,無需透過 COCO 等資料集進行微調,也不需要依賴遮罩區域建議。 LERF 在多個尺度上保留了 CLIP 嵌入的完整性,也能夠處理各種語言查詢,包括視覺屬性(如黃色)、抽象概念(如電流)、文字等,如圖 1 所示。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

論文網址:https://arxiv.org/pdf/2303.09553v1.pdf

專案首頁:https://www.lerf.io/

LERF 可以即時互動地為語言提示擷取3D 相關圖示。例如在一張有小羊和水杯的桌上,輸入提示小羊、或水杯,LERF 就可以給相關3D 圖:

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

對於複雜的花束,LERF 也可以精準定位:

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

# 廚房中的不同物體:

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

方法

研究透過與NeRF 共同最佳化語言場建構了新方法LERF。 LERF 將位置和物理尺度作為輸入並輸出單一 CLIP 向量。在訓練期間,場(field)使用多尺度特徵金字塔(pyramid)進行監督,該金字塔包含從訓練視圖的圖像裁剪(crop)生成的 CLIP 嵌入。這允許 CLIP 編碼器捕捉不同尺度的圖像語境,從而將相同的 3D 位置與不同尺度的語言嵌入相關聯。 LERF 可以在測試期間以任意尺度查詢語言場以獲得 3D 相關性映射。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

由於從多尺度的多個視圖中提取CLIP 嵌入,因此透過LERF 的3D CLIP 嵌入獲得的文字查詢的相關性映射與透過2D CLIP 嵌入獲得的相比更加本地化(localized),並且是3D 一致的,可以直接在3D 場中進行查詢,而無需渲染多個視圖。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

LERF 需要在以樣本點為中心的體積上學習語言嵌入場。具體來說,該場的輸出是包含指定體積的影像裁切的所有訓練視圖的平均 CLIP 嵌入。透過將查詢從點重構為體積,LERF 可以有效地從輸入影像的粗略裁剪中監督密集場,這些影像可以透過在給定的體積尺度上進行調節以像素對齊的方式呈現。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

LERF 本身會產生連貫的結果,但產生的相關性映射有時可能是不完整的,並且包含一些異常值,如下圖 5 所示。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

為了規範優化的語言場,該研究透過共享瓶頸引入了自監督的 DINO。

在架構方面,優化3D 中的語言嵌入不應該影響底層場景表徵中的密度分佈,因此該研究透過訓練兩個獨立的網路來捕捉LERF 中的歸納偏置(inductive bias):一個用於特徵向量(DINO、CLIP),另一個用於標準NeRF 輸出(顏色、密度)。

實驗

為了展示LERF 處理真實世界資料的能力,研究收集了13 個場景,其中包括雜貨店、廚房、書店、小雕像等場景。圖 3 選擇了 5 個代表性的場景,展示了 LERF 處理自然語言的能力。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

圖3

圖3

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

圖7 為LERF 與LSeg 的3D 視覺對比,在標定碗裡的雞蛋中,LSeg 不如LERF:

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

##圖8 表明,在有限的分割數據集上訓練的LSeg 缺乏有效表示自然語言的能力。相反,它僅在訓練集分佈範圍內的常見物件上表現良好,如圖 7 所示。

自然語言融入NeRF,給點文字就產生3D圖的LERF來了

######不過LERF 方法不算完美,以下為失敗案例,例如在標定西葫蘆蔬菜時,會出現其他蔬菜:#### ###########

以上是自然語言融入NeRF,給點文字就產生3D圖的LERF來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
從技術創新者到醫療保健先驅:Geetha Manjunath博士的AI故事從技術創新者到醫療保健先驅:Geetha Manjunath博士的AI故事Apr 19, 2025 am 11:02 AM

Niramai Analytix的創始人兼首席執行官Geetha Manjunath博士的這一集由“領導數據”的劇集。 Manjunath博士擁有AI和Healthcare的25年以上的經驗,並獲得了印度科學學院的博士學位和MBA來回。

用Ollama -Analytics Vidhya簡化本地LLM部署用Ollama -Analytics Vidhya簡化本地LLM部署Apr 19, 2025 am 11:01 AM

利用Ollama本地開源LLMS的力量:綜合指南 運行大型語言模型(LLMS)本地提供無與倫比的控制和透明度,但是設置環境可能令人生畏。 Ollama簡化了這個過程

如何使用Monsterapi微調大語言模型如何使用Monsterapi微調大語言模型Apr 19, 2025 am 10:49 AM

利用微調LLM的功能與Monsterapi:綜合指南 想像一個虛擬助手完美理解並預測您的需求。 由於大型語言模型(LLMS)的進步,這已成為現實。 但是,

5統計測試每個數據科學家都應該知道-Analytics Vidhya5統計測試每個數據科學家都應該知道-Analytics VidhyaApr 19, 2025 am 10:27 AM

數據科學的基本統計測試:綜合指南 從數據中解鎖有價值的見解至關重要。 掌握統計測試對於實現這一目標至關重要。這些測試使數據科學家能夠嚴格瓦爾

如何使用Florence -2 -Analytics Vidhya執行計算機視覺任務如何使用Florence -2 -Analytics Vidhya執行計算機視覺任務Apr 19, 2025 am 10:21 AM

介紹 原始變壓器的引入為當前的大語言模型鋪平了道路。同樣,在引入變壓器模型之後,引入了視覺變壓器(VIT)。喜歡

使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法Apr 19, 2025 am 10:11 AM

Langchain文本拆分器:優化LLM輸入以提高效率和準確性 我們上一篇文章介紹了Langchain的文檔加載程序。 但是,LLM具有上下文窗口大小的限制(以代幣測量)。 超過此限制會截斷數據,comp

免費生成的AI課程:開創創新的未來免費生成的AI課程:開創創新的未來Apr 19, 2025 am 10:01 AM

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

使用通用句子編碼器和Wikiqa創建QA模型使用通用句子編碼器和Wikiqa創建QA模型Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。