由於神經3D重建技術的發展,捕捉真實世界3D場景的特徵表示從未如此簡單。
然而,在此之上的3D場景編輯卻一直未能有一個簡單有效的方案。
最近,來自UC柏克萊的研究人員基於先前的工作InstructPix2Pix,提出了一種使用文字指令編輯NeRF場景的方法-Instruct-NeRF2NeRF。
論文網址:https://arxiv.org/abs/2303.12789
#利用Instruct-NeRF2NeRF,我們只需一句話,就能編輯大規模的現實世界場景,並且比以前的工作更真實、更有針對性。
例如,想要他有鬍子,臉上就會出現一簇鬍子!
或直接換頭,秒變成愛因斯坦。
此外,由於模型能持續使用新的編輯過的影像更新資料集,所以場景的重建效果也會逐步改善。
具體來說,人類需要給定輸入圖像,以及告訴模型要做什麼的書面指令,隨後模型就會遵循這些指令來編輯圖像。
實作步驟如下:
相較於傳統的三維編輯,NeRF2NeRF是一種新的三維場景編輯方法,其最大的亮點在於採用了「迭代資料集更新」技術。
雖然是在3D場景上進行編輯,但論文中使用2D而不是3D擴散模型來提取形式和外觀先驗,因為用於訓練3D生成模型的數據非常有限。
這個2D擴散模型,就是研究團隊不久前開發的InstructPix2Pix-一款基於指令文字的2D影像編輯模型,輸入影像與文字指令,它就能輸出編輯後的圖像。
然而,這種2D模型會導致場景不同角度的變化不均勻,因此,「迭代資料集更新」應運而生,該技術交替修改NeRF的「輸入圖片數據集」,並更新基礎3D表徵。
這意味著文字引導擴散模型(InstructPix2Pix)將根據指令產生新的圖像變化,並將這些新圖像用作NeRF模型訓練的輸入。因此,重建的三維場景將基於新的文字引導編輯。
在初始迭代中,InstructPix2Pix通常無法在不同視角下執行一致的編輯,然而,在NeRF重新渲染和更新的過程中,它們將會收斂於一個全局一致的場景。
總結而言,NeRF2NeRF方法透過迭代地更新影像內容,並將這些更新後的內容整合到三維場景中,從而提高了3D場景的編輯效率,也保持了場景的連貫性和真實性。
可以說,UC伯克利研究團隊的此項工作是先前InstructPix2Pix的延伸版,透過將NeRF與InstructPix2Pix結合,再配合「迭代資料集更新」,一鍵編輯照樣玩3D場景!
不過,由於Instruct-NeRF2NeRF是基於先前的InstructPix2Pix,因此繼承了後者的諸多局限,例如無法進行大規模空間操作。
此外,與DreamFusion一樣,Instruct-NeRF2NeRF一次只能在一個視圖上使用擴散模型,所以也可能會遇到類似的偽影問題。
下圖展示了兩種類型的失敗案例:
#(1)Pix2Pix無法在2D中執行編輯,因此NeRF2NeRF在3D中也失敗了;
(2)Pix2Pix在2D中可以完成編輯,但在3D中存在很大的不一致性,因此NeRF2NeRF也沒能成功。
再例如下面這隻「熊貓」,不僅看起來非常凶悍(作為原型的雕像就很兇) ,而且毛色多少也有些詭異,眼睛在畫面移動時也有明顯的「穿模」。
自從ChatGPT,Diffusion, NeRFs被拉進聚光燈之下,這篇文章可謂充分發揮了三者的優勢,從「AI一句話作圖」進階到了「AI一句話編輯3D場景」。
儘管方法存在一些局限性,但仍瑕不掩瑜,為三維特徵編輯給出了一個簡單可行的方案,有望成為NeRF發展的里程碑之作。
最後,再看一波作者放出的效果。
不難看出,這款一鍵PS的3D場景編輯神器,不論是指令理解能力,還是圖像真實程度,都比較符合預期,未來也許會成為學術界和網友們把玩的「新寵」,繼ChatGPT後打造出一個Chat-NeRFs。
#即便是隨意改變影像的環境背景、四季特徵、天氣,給出的新圖像也完全符合現實邏輯。
原圖:
#秋天:
雪天:
沙漠:
#########暴風雨:#######
參考資料:#https://www .php.cn/link/ebeb300882677f350ea818c8f333f5b9
#以上是一行字實現3D換臉! UC伯克利提出'Chat-NeRF”,說句話完成大片級渲染的詳細內容。更多資訊請關注PHP中文網其他相關文章!