首頁 >科技週邊 >人工智慧 >一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

PHPz轉載: 2023-04-29 20:10:081688瀏覽

專案首頁：https://scene-dreamer.github.io/
程式碼：https://github.com/FrozenBurning/SceneDreamer
論文：https://arxiv.org/abs/2302.01330
線上Demo：https://huggingface.co/spaces/FrozenBurning/SceneDreamer

為滿足元宇宙中對3D 創意工具不斷增長的需求，三維場景生成最近受到了相當多的關注。 3D 內容創作的核心是逆向圖形學，旨在從 2D 觀測中恢復 3D 表徵。考慮到創建 3D 資產所需的成本和勞動力，3D 內容創作的最終目標將是從海量的網路二維圖像中學習三維生成模型。最近關於三維感知生成模型的工作在一定程度上解決了這個問題，多數工作利用 2D 影像資料來產生以物體為中心的內容（例如人臉、人體或物體）。然而，這類生成任務的觀測空間處於有限域中，生成的目標佔據了三維空間的有限區域。這就產生了一個問題，我們是否能從海量互聯網 2D 影像中學習到無界場景的 3D 生成模型？例如能夠覆蓋任意大區域，且無限拓展的生動自然景觀（如下圖）。

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

本文，來自南洋理工大學S-Lab 的研究者提出了一個新的框架SceneDreamer，專注於從海量無標註自然圖片中學習無界三維場景的生成模型。透過取樣場景噪音和風格噪聲，SceneDreamer 能夠渲染多樣風格的自然場景，同時保持極高的三維一致性，支援相機自由地在場景中漫遊。

想要達成這樣的目標，我們面臨著以下三個挑戰：

1）無界場景缺乏高效三維表徵：無邊界場景常常佔據了一個任意大的歐氏空間，這凸顯了高效且具備表現力的底層三維表徵的重要性。

2）缺乏內容對齊：已有三維生成工作使用具備對齊性質的資料集（如人臉、人體、常用物體等），這些有界場景中的目標物體通常具備類似的語意、相近的尺度位置和方向。然而，在海量的無標註二維影像中，不同物體或場景常具備迥異的語義，且擁有多變的尺度、位置和方向。這樣缺乏對齊的性質會帶來生成模型訓練的不穩定性。

3）缺乏相機位姿先驗：三維生成模型依賴於準確相機位姿或相機位姿分佈的先驗來實現影像到三維表徵的逆向渲染過程。但網路自然影像來自不同的場景和像源，讓我們無法取得其相機位姿準確資訊或先驗。

為此我們提出了一個原則性的對抗學習框架 SceneDreamer，從海量的無標註自然圖像中學習生成無界三維場景。該框架包含三個主要模組：1）高效且高表現力的鳥瞰（BEV）三維場景表徵；2）學習場景通用表徵的生成式神經哈希網格；3）由風格驅動的體積渲染器，並經過對抗學習的方式直接從二維影像中進行訓練。

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

上圖展示了 SceneDreamer 的主要結構。在推理過程中，我們可以隨機取樣一個代表場景結構的單純形雜訊一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景和代表場景風格的高斯雜訊作為輸入，我們的模型能夠渲染大尺度三維場景，同時支援相機自由移動。首先我們從場景雜訊中獲得由高度圖和語意圖組成的 BEV 場景表徵。然後，利用 BEV 表徵明確地建構局部三維場景視窗來執行相機取樣，同時將 BEV 表徵編碼為場景特徵一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景 ##。我們使用採樣點的座標和場景特徵來查詢由生成式的神經哈希網格編碼的高維空間，以獲得空間差異和場景差異的隱變數。最後我們透過由風格雜訊調製的體積渲染器將相機光線上的隱變數進行整合，最終得到渲染的二維影像。

為了學習無邊界三維場景生成，我們希望場景應被高效率高品質進行表達。我們提出使用由語意圖和高度圖組成的 BEV 表徵來表達一個大尺度三維場景。具體而言，我們透過無參建圖的方法從場景噪音中獲得俯瞰視角下高度圖和語義圖。高度圖記錄了場景表麵點的高度信息，而語義圖則記錄了對應點的語義標籤。而我們使用的由語意圖和高度圖組成的 BEV 表徵能夠：1）在 n^2 複雜度上表示三維場景；2）能夠得到三維點對應的語意，從而解決內容對齊的問題。 3）支持使用滑動視窗的方式來合成無限大場景，避免了訓練時固定場景解析度導致泛化性的問題。

為了編碼能夠泛化於場景之間的三維表徵，我們需要將空間三維場景表徵編碼至隱空間以便於對抗學習的訓練。值得注意的是，對於一個大尺度的無界場景，通常只有其表面可見點對於渲染時是有意義的，這意味著其參數化形式應是緊湊且稀疏的。已有方法如 tri-plane 或三維卷積等將空間建模為一個整體，模型能力會大量的浪費在建模不可見表麵點上。受到神經哈希網格在三維重建任務上成功的啟發，我們將其空間緊湊和高效的性質推廣到生成任務上，提出使用生成式神經哈希網格來建模跨場景的三維空間特徵。具體而言是使用雜湊函數F_theta 來將場景特徵f_s 和空間點座標x 映射到多尺度混合的可學習參數：

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

為了確保渲染的三維一致性，我們使用基於體積渲染的渲染網路來完成三維空間特徵到二維影像的映射。對於相機光線上的一點，我們經過查詢生成式哈希網格得到其對應的特徵f_x，使用經風格噪聲調製的多層MLP 來得到其對應點的顏色和體密度，最終通過體渲染來將一條相機光線上的所有點積分為對應像素的顏色。

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

整個框架是透過對抗學習來直接端到端地在二維影像上進行訓練的。生成器即上述體渲染器，而判別器我們使用基於語意感知的判別網絡來根據 BEV 表徵中投影到相機上的語意圖來分辨真實影像和渲染影像。更多細節歡迎參考我們的論文。

訓練完成後，我們透過隨機取樣場景噪聲和風格噪聲，便可以產生多樣的三維場景，同時擁有良好的深度資訊和三維一致性，並支援自由相機軌跡的渲染：

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

透過滑動視窗的推理模式，我們可以產生遠遠超越訓練空間解析度的超大無邊界三維場景。下圖展示了10 倍於訓練空間解析度的場景，且同時在場景和風格維度上進行平滑插值

像類似的插值平滑過渡的結果，我們的框架支持解耦的模式，即分別固定場景或風格來進行插值，體現了隱空間的語義豐富性：

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

為了驗證我們方法的三維一致性，我們也使用圓形的相機軌跡來渲染任一場景，重新利用COLMAP 進行了三維重建，能夠得到較好的場景點雲和相符的相機位姿，顯示了此方法能夠在保障三維一致性的前提下，來產生多元的立體場景：

一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景

##本工作提出了SceneDreamer，一個從海量二維圖像中產生無界三維場景的模型。我們能夠從噪音中合成多樣的大範圍三維場景，並保持三維一致性，支持自由的相機軌跡。我們希望本工作能為遊戲產業、虛擬實境和元宇宙生態提供了一種全新的探索方向和可能。更多細節請參考我們的專案主頁。

以上是一鍵生成山川、河流，風格多樣，從2D影像中學習生成無限3D場景的詳細內容。更多資訊請關注PHP中文網其他相關文章！

github https

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：自動駕駛視覺感知技術路線淺析下一篇：自動駕駛視覺感知技術路線淺析

看更多