搜尋
首頁科技週邊人工智慧CVPR 2024 | 僅需文字或圖像提示,新框架CustomNeRF精準編輯3D場景

美圖影像研究院(MT Lab)與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了3D場景編輯方法——CustomNeRF。該研究成果已被CVPR 2024接收。 CustomNeRF不僅支援文字描述和參考圖片作為3D場景的編輯提示,還能根據使用者提供的資訊產生高品質的3D場景。

Neural Radiance Field (NeRF) 自 2020 年神經輻射場 (Neural Radiance Field, NeRF) 提出以來,將隱式表達推上了一個新的高度。作為當前最前沿的技術之一,NeRF 快速泛化應用在電腦視覺、電腦圖形、擴增實境、虛擬實境等領域,並持續受到廣泛關注。 NeRF 透過對場景中每個點的輻射和密度進行建模,從而實現高品質的影像合成,這使得它在電腦視覺、電腦圖形、擴增實境和虛擬實境等領域的應用廣泛關注。 NeRF 的獨特之處在於其能夠從輸入的場景中產生高品質的影像,而不需要複雜的 3D 掃描或密集的視角影像。這項特性使得 NeRF 在許多領域具有廣泛的應用前景,包括電腦視覺、電腦圖形、擴增實境和虛擬實境等領域,並持續受到廣泛關注。 NeRF 透過對場景中的每個點的輻射和密度進行建模,從而實現高品質的影像合成。 NeRF 還可以用於產生高品質的 3D 渲染,這使得它在虛擬實境和擴增實境等領域的應用非常有前景。 NeRF 的快速發展和廣泛應用將繼續受到廣泛關注,預計在未來將會有更多基於 NeRF 的創新和應用湧現。

NeRF(神經輻射場)是一種用於最佳化和連續表示的特點,在3D場景重建中具有許多應用。它甚至帶動了3D場景編輯領域的研究,例如3D對物或場景的紋理重繪、風格化等。為了進一步提高3D場景編輯的靈活性,近期基於預訓練模型的NeRF編輯方法也正在被大量探索,而且由於NeRF的隱式表徵以及3D場景的幾何特性可以獲得符合文字提示的編輯結果,這些都是非常容易實現的事情。

為了使文本驅動的3D場景編輯也能夠實現精準控制,美圖影像研究院(MT Lab)與中國科學院資訊工程研究所、北京航空航天大學、中山大學共同提出了一種將文字描述和參考圖像統一為編輯提供的CustomNeRF框架。該框架內建了特定視角主體V∗,嵌入到混合表示中,從而滿足一般化和客製化的3D場景編輯要求。該研究成果已被CVPR 2024記錄,程式碼也已開源。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

  • 論文連結:https://arxiv.org/abs/2312.01663

  • 程式碼連結: https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

##                  驅動(右)的編輯效果

CustomNeRF 解決的兩大挑戰

目前,基於預訓練擴散模型進行3D 場景編輯的主流方法主要分為兩類。

其一,是使用圖像編輯模型迭代地更新資料集中的圖像,但是受限於圖像編輯模型的能力,會在部分編輯情況下失效。其二,則是利用分數蒸餾採樣(SDS)損失對場景進行編輯,但由於文本和場景之間的對齊問題,這類方法在真實場景中無法直接適配,會對非編輯區域造成不必要的修改,往往需要mesh 或voxel 等顯式中間表達。

此外,目前的這兩類方法主要集中在由文字驅動的3D 場景編輯任務中,文字描述往往難以準確表達使用者的編輯需求,無法將圖像中的具體概念客製化到3D 場景中,只能對原始3D 場景進行一般化編輯,因此難以獲得使用者預期中的編輯結果。

事實上,獲得預期編輯結果的關鍵在於精確識別影像前景區域,這樣能夠在保持影像背景的同時促進幾何一致的影像前景編輯。

因此,為了實現僅對圖像前景區域進行準確編輯,該論文提出了一種局部- 全局迭代編輯(LGIE)的訓練方案,在圖像前景區域編輯和全圖像編輯之間交替進行。該方案能夠準確定位影像前景區域,並在保留影像背景的同時僅對影像前景進行操作。

此外,在由影像驅動的 3D 場景編輯中,存在因微調的擴散模型過度擬合到參考影像視角,所造成的編輯結果幾何不一致問題。對此,該論文設計了一種類引導的正則化,在局部編輯階段僅使用類詞來表示參考圖像的主體,並利用預訓練擴散模型中的一般類先驗來促進幾何一致的編輯。

CustomNeRF 的整體流程

如圖2 所示,CustomNeRF 透過3 個步驟,來實現在文字提示或參考影像的指導下精確編輯重建3D 場景這一目標。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   圖上使用中對列開始1#NeRF 的整體執行圖#D#1#311131131 月11313 月的原始流程# CustomNeRF 引入了額外的mask field 來估計除常規顏色和密度之外的編輯機率。如圖 2(a) 所示,對於一組需要重建 3D 場景的圖像,論文先使用 Grouded SAM 從自然語言描述中提取圖像編輯區域的掩碼,結合原始圖像集訓練 foreground-aware NeRF。在 NeRF 重建後,編輯機率用於區分要編輯的影像區域(即影像前景區域)和不相關的影像區域(即影像背景區域),以便於在影像編輯訓練過程中進行解耦合的渲染。 其次,為了統一圖像驅動和文字驅動的3D 場景編輯任務,如圖2(b)所示,該論文採用了Custom Diffusion 的方法在圖像驅動條件下針對參考圖進行微調,以學習特定主體的關鍵特徵。經過訓練後,特殊字 V∗可以作為常規的單字標記用於表達參考影像中的主體概念,從而形成一個混合提示,例如 “a photo of a V∗ dog”。透過這種方式,CustomNeRF 能夠對自適應類型的資料(包括圖像或文字)進行一致且有效的編輯。

在最終的編輯階段,由於 NeRF 的隱式表達,如果使用 SDS 損失對整個 3D 區域進行最佳化會導致背景區域發生顯著變化,而這些區域在編輯後理應與原始場景保持一致。如圖 2(c)所示,論文提出了局部 - 全局迭代編輯(LGIE)方案進行解耦合的 SDS 訓練,使其能夠在編輯佈局區域的同時保留背景內容。

具體而言,該論文將 NeRF 的編輯訓練過程進行了更精細的劃分。透過 foreground-aware NeRF,CustomNeRF 可以在訓練中靈活地控制 NeRF 的渲染過程,即在固定相機視角下,可以選擇渲染前景、背景、以及包含前景和背景的常規影像。在訓練過程中,透過迭代渲染前景和背景,並結合相應的前景或背景提示,可以利用 SDS 損失在不同層面編輯當前的 NeRF 場景。其中,局部的前景訓練使得在編輯過程中能夠只專注於需編輯的區域,簡化複雜場景中編輯任務的難度;而全局的訓練將整個場景考慮在內,能夠保持前景和背景的協調性。為了進一步保持非編輯區域不改變,論文還利用編輯訓練前的背景監督訓練過程中所新渲染的背景,來保持背景像素的一致性。

此外,影像驅動 3D 場景編輯中存在著加劇的幾何不一致問題。因為經過參考影像微調過的擴散模型,在推理過程中傾向於產生和參考影像視角相近的影像,造成編輯後 3D 場景的多個視角均是前視圖的幾何問題。為此,論文設計了一種類引導的正則化策略,在全局提示中使用特殊描述符V*,在局部提示中僅使用類詞,以利用預訓練擴散模型中包含的類先驗,使用更幾何一致的方式將新概念注入場景中。

實驗結果

如圖3 和圖4 展示了CustomNeRF 與基準方法的3D 場景重建結果對比,在參考影像和文字驅動的3D 場景編輯任務中,CustomNeRF 均取得了不錯的編輯結果,不僅與編輯提示達成了良好的對齊,且背景區域和原始場景保持一致。此外,表 1、表 2 展示了 CustomNeRF 在圖像、文字驅動下與基線方法的量化比較,結果顯示在文字對齊指標、圖像對齊指標和人類評估中,CustomNeRF 均超越了基線方法。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景                                 # 圖上與基準化方法的視覺化比較中與基準方法的視覺化比較## 圖

#圖片##11221#>

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                               圖4 文本驅動編輯下與基線的可視化比較

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表1 影像驅動編輯下與基線之間的定量比較#o ## # #                 表2 文字驅動編輯下與基準的定量比較

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

總結本論文創新地提出了CustomNeRF 模型,同時支持文本描述或參考圖像的編輯提示,並解決了兩個關鍵性挑戰—— 精確的僅前景編輯以及在使用單視圖參考圖像時多個視圖的一致性。該方案包括局部- 全局迭代編輯(LGIE)訓練方案,使得編輯操作能夠在專注於前景的同時保持背景不變;以及類引導正則化,減輕圖像驅動編輯中的視圖不一致,通過大量實驗,也驗證了CustomNeRF 在各種真實場景中,能夠準確編輯由文字描述和參考圖像提示的3D 場景。

以上是CVPR 2024 | 僅需文字或圖像提示,新框架CustomNeRF精準編輯3D場景的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器