首頁 >科技週邊 >人工智慧 >CVPR 2024高分論文:全新生成式編輯架構GenN2N,統一NeRF轉換任務

CVPR 2024高分論文:全新生成式編輯架構GenN2N,統一NeRF轉換任務

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載
2024-04-19 21:40:091255瀏覽

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

我們網站的AIxiv欄位是關於學術和技術內容的欄位。過去幾年來,我們網站的AIxiv專欄已經收到超過2000篇內容,涵蓋全球各大大學與企業的頂級實驗室,有助於推進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱為liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。


來自香港科技大學,清華大學的研究者提出了「GenN2N」,一個統一的生成式NeRF-to-NeRF 轉換框架,適用於各種NeRF 轉換任務,例如文字驅動的NeRF 編輯、著色、超解析度、修復等,效能皆表現極為出色! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • 論文網址:https://arxiv.org/abs/2404.02788
  • #論文首頁:https://xiangyueliu.github.io/GenN2N/
  • Github 網址:https://github.com/Lxiangyue/GenN2N
  • 論文標題:GenN2N: Generative NeRF2NeRF Translation

近年來,神經輻射場(NeRF)因其緊湊、高品質、多功能性在三維重建、三維生成和新視角合成領域引起了廣泛關注。然而,一旦創建了 NeRF 場景,這些方法通常缺乏對生成幾何和外觀的進一步控制。因此,NeRF 編輯(NeRF Editing)最近成為了一個值得關注的研究重點。

目前的 NeRF 編輯方法通常是針對特定任務的,例如 NeRF 的文字驅動編輯、超解析度、修復和著色。這些方法需要大量的特定任務領域知識。而在 2D 影像編輯領域,開發通用的影像到影像(Image-to-image)轉換方法成為一種趨勢,例如利用 2D 生成模型 Stable Difussion 支援多功能的影像編輯。因此,我們提出了利用基礎的 2D 生成模型進行通用的 NeRF 編輯。

隨之而來的挑戰是 NeRF 和 2D 影像之間的表示差距,尤其是影像編輯器通常會為不同視角產生多種不一致的編輯。最近的一個以文字為主的 NeRF 編輯方法 Instruct-NeRF2NeRF 對此進行了探究。其採用 “渲染 - 編輯 - 聚合” 的流程,透過逐步渲染多視角圖像、編輯這些圖像,將編輯圖像聚合到 NeRF 中逐步更新 NeRF 場景。然而這種編輯方法,針對特定的編輯需求,經過大量的最佳化,只能產生一種特定編輯的結果,如果使用者不滿意則需要反覆迭代嘗試。

因此,我們提出了「GenN2N」,一個適用於多種NeRF 編輯任務的NeRF-to-NeRF 通用框架,其核心在於用生成的方式來刻畫編輯過程多解性,使其可以藉助生成式編輯輕鬆產生大量符合要求的編輯結果供用戶挑選。

在GenN2N 的核心部分,1)引入了3D VAE-GAN 的生成式框架,使用VAE 表徵整個編輯空間,來學習與一組輸入的2D 編輯影像對應的所有可能的3D NeRF 編輯分佈,並用GAN 為編輯NeRF 的不同視圖提供合理的監督,確保編輯結果的真實性,2)使用對比學習解耦編輯內容和視角,確保不同視角間的編輯內容一致性,3)在推理時,使用者簡單地從條件產生模型中隨機取樣多個編輯碼,就可以產生與編輯目標對應的各種3D 編輯結果。

比相比各種 NeRF 編輯任務的 SOTA 方法(ICCV2023 Oral 等),GenN2N 在編輯品質、多樣性、效率等方面均優於已有方法。

方法介紹

#我們先進行2D 影像編輯,然後再將這些2D 編輯提升到3D NeRF 來實現生成式的NeRF-to-NeRF 的轉換。

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

A. 隱式蒸餾(Latent Distill)

我們用Latent Distill Module 作為VAE 的encoder,為每張編輯圖像學習一個隱式的編輯碼,在NeRF-to-NeRF 轉換中透過此編輯碼控制產生的內容。所有編輯碼在 KL loss 的限制下服從一個良好的常態分佈,以便更好地採樣。為了了解耦編輯內容和視角,我們精心設計對比學習,鼓勵相同編輯風格視角不同的圖片的編輯碼相近,不同編輯風格但視角相同的圖片的編輯碼互相遠離。

B.NeRF-to-NeRF 的轉換(Translated NeRF)

##我們以NeRF-to-NeRF Translation 作為VAE 的decoder,其以編輯碼作為輸入,將原始的NeRF 修改為一個轉換NeRF。我們在原NeRF 網路隱藏層之間添加了殘差層,這些殘差層以編輯碼作為輸入來調製隱藏層神經元,使得轉換NeRF 既能夠保留原本NeRF 的信息,又可以根據編輯碼來控制轉換3D內容。同時,NeRF-to-NeRF Translation 也作為生成器參與生成對抗訓練。透過生成而非最佳化的方式,使得我們可以一次得到多種轉換結果,顯著提升了 NeRF 轉換效率和結果多樣性。

C. 條件判別器(Conditional Discriminator)

轉換NeRF 的渲染圖片構成了需要判別的生成空間,這些圖片的編輯風格、渲染視角各異,導致生成空間非常複雜。因此我們提供一個 condition 作為判別器的額外資訊。具體而言,判別器在鑑別生成器的渲染圖片
(負樣本)或訓練資料中的編輯圖片CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务(正樣本)時,我們都從訓練資料中再挑選一張相同視角的編輯圖片CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务作為條件,這使得判別器在鑑別正負樣本時不會受到視角因素的干擾。 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

D. 推理(Inference)

在GenN2N 最佳化後,使用者可以從常態分佈中隨機取樣出編輯碼,輸入轉換NeRF 即可產生編輯後的高品質、多重視角一致性的3D NeRF 場景。

實驗

#我們在多種NeRF-to-NeRF 任務上進行了大量的實驗,包括NeRF 文字驅動編輯、著色、超解析度、修復等。實驗結果展示了 GenN2N 卓越的編輯品質、多視角一致性、生成的多樣性和編輯效率。

A. 文字為主的NeRF 編輯CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B.NeRF 著色 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务#C.NeRF 超解析度 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务#D.NeRF 修正 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
#比較實驗

我們的方法與各種特定NeRF 任務的SOTA 方法進行了定性和定量對比(包括文字驅動編輯、著色、超解析度和修復等)。結果表明,GenN2N 作為一個通用框架,其表現與特定任務 SOTA 相當或更好,同時編輯結果具有更強的多樣性(如下是 GenN2N 與 Instruct-NeRF2NeRF 在基於文本的 NeRF 編輯任務上的對比)。

A. 文字為主的NeRF 編輯CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
了解更多實驗、方法內容,請參考論文主頁。

團隊介紹

#論文來自香港科技大學譚平團隊、清華大學3DVICI Lab、上海人工智慧實驗室和上海期智研究院,論文的作者為香港科技大學學生劉襄閱,清華大學學生薛晗,香港科技大學學生羅堃銘,指導老師為清華大學弒力老師和香港科技大學譚平老師。

以上是CVPR 2024高分論文:全新生成式編輯架構GenN2N,統一NeRF轉換任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除