純粹基於 MLP 的神經輻射場(NeRF)由於模型容量有限,在大規模場景模糊渲染中往往存在欠擬合現象。最近有研究者提出對場景進行地理劃分、並採用多個子NeRF,分別對每個區域進行建模,然而,這樣做帶來的問題是隨著場景的逐漸擴展,訓練成本和子NeRF 的數量呈線性擴大。
另一種解決方案是使用體素特徵網格表示,該方法計算效率高,可以自然地擴展到具有增加網格解析度的大場景。然而,特徵網格由於約束較少往往只能達到次優解,在渲染中產生一些雜訊偽影,特別是在具有複雜幾何和紋理的區域。在
本文中,來自香港中文大學、上海人工智慧實驗室等機構的研究者提出了一個新的框架,用來實現高保真渲染的城市(Ubran)場景,同時兼顧計算效率,入選CVPR 2023。該研究使用一個緊湊的多重解析度 ground 特徵平面表示來粗略地捕捉場景,並透過一個 NeRF 分支網路以位置編碼輸入來補充它,以聯合學習的方式進行渲染。這種方式整合了兩種方案的優點:在特徵網格表示的指導下,輕加權NeRF 足以呈現具有細節的逼真新視角;聯合優化的ground 特徵平面可以獲得進一步的細化,形成更精確、更緊湊的特徵空間,輸出更自然的渲染結果。
#下圖為此研究方法對真實世界Ubran 場景的範例結果,給人一種沉浸式城市漫遊體驗:
為了有效利用隱式神經表示重建大型城市場景,研究提出了一個雙分支模型架構,它採用統一的場景表示,集成了基於顯式體素網格和基於隱式的NeRF 方法,這兩種類型的表示可以互補。
首先在預訓練階段使用特徵網格對目標場景進行建模,從而粗糙地捕捉場景的幾何形狀和外觀。然後使用粗特徵網格,1) 引導 NeRF 點採樣,使其集中在場景表面周圍;2) 為 NeRF 的位置編碼提供關於場景幾何形狀和在採樣位置上的外觀額外特徵。在這樣的指導下,NeRF 可以在一個大大壓縮的取樣空間中有效地獲得更精細的細節。此外,由於粗層級的幾何圖形和外觀資訊被明確地提供給 NeRF,一個輕量級的 MLP 就足以學習從全局座標到體積密度和顏色值的映射。在第二個聯合學習階段,透過來自 NeRF 分支的梯度對粗特徵網格進行進一步優化,並對其進行規範化,從而在單獨應用時產生更準確和自然的渲染結果。
研究的核心是一個新的雙分支結構,即網格分支和 NeRF 分支。 1) 研究人員首先在預訓練階段捕捉特徵平面的金字塔場景,並透過淺MLP 渲染器(網格分支)對射線點進行粗略的採樣,並預測它們的輻射值,由體積積分像素顏色上的MSE損失監督。這一步產生一組資訊豐富的多解析度密度 / 外觀特徵平面。 2) 接下來,研究者進入共同學習階段,並進行更精細的抽樣。研究人員使用學習到的特徵網格來指導 NeRF 分支採樣,以集中在場景表面。透過在特徵平面上的雙線性內插法,推導出採樣點的網格特徵。然後將這些特徵與位置編碼連接,並輸入 NeRF 分支以預測體積密度和顏色。請注意,在聯合訓練過程中,網格分支的輸出仍然使用 ground 真實影像以及來自 NeRF 分支的精細渲染結果進行監督。
目标场景:在这项工作中,该研究使用新颖的网格引导神经辐射场执行大型城市场景渲染。下图左侧显示了一个大型城市场景的示例,它跨越 2.7km^2 的地面区域,由超过 5k 的无人机图像捕获。研究表明,基于 NeRF 方法渲染结果模糊且过度平滑且模型容量有限,而基于特征网格的方法在适应具有高分辨率特征网格的大规模场景时往往会显示嘈杂的伪影。该研究提出的双分支模型结合了两种方法的优点,并通过对现有方法的显着改进实现了逼真的新颖视图渲染。这两个分支都比各自的基线获得了显着增强。
研究人员在下图和表格中报告了 baseline 的性能和研究人员的方法作对比。无论从定性和定量上看。在视觉质量和所有指标方面都可以观察到显著的改善。与纯粹的基于 MLP 的方法(NeRF 和 Mega-NeRF)相比,研究人员的方法揭示了更清晰的几何形状和更精细的细节。特别是由于 NeRF 的有限容量和光谱偏差,它总是不能模拟几何形状和颜色的快速变化,如操场上的植被和条纹。尽管像 Mega-NeRF 的 baseline 中显示的那样,在地理位置上将场景划分为小区域稍有帮助,但呈现的结果仍然显得过于平滑。相反,在学习特征网格的引导下,NeRF 的采样空间被有效地、大大地压缩到场景表面附近。从 ground 特征平面采样的密度和外观特征明确地表示了场景内容,如图 3 所示。尽管不那么准确,但它已经提供了信息丰富的局部几何图形和纹理,并鼓励 NeRF 的位置编码来收集缺失的场景细节。
下表 1 为定量结果:
图 6 可以观察到渲染保真度的快速提高:
了解更多内容,请参考原论文。
以上是實現高效逼真的超大規模城市渲染:聯合NeRF與特徵網格技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!