速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

青灯夜游

Mar 31, 2023 pm 10:40 PM

科技影像

針對逆渲染技術的研究成果連續兩年入選電腦視覺頂會CVPR，並從處理單張影像跨越到覆蓋整個室內大場景，如視在三維重建領域的視覺演算法技術底蘊得到了淋漓盡致的展現。

三維重建是電腦視覺（CV）和電腦圖形學（CG）的熱點主題之一，它透過CV 技術處理相機等感測器拍攝的真實物體和場景的二維影像，得到它們的三維模型。隨著相關技術的不斷成熟，三維重建越來越廣泛地應用於智慧家庭、AR 旅遊、自動駕駛與高精度地圖、機器人、城市規劃、文物重建、電影娛樂等多個不同領域。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

典型的基於二維影像的三維人臉重建。圖源：10.1049/iet-cvi.2013.0220

傳統三維重建大致可分為光測度和幾何方法，前者分析像素點的亮度變化，後者依靠視差完成重建。近年來又開始採用機器學習尤其是深度學習技術，在特徵檢測、深度估計等方面取得很好的效果。雖然目前一些方法利用空間幾何模型與紋理貼圖，在場景的外觀還原度上與真實世界看起來幾乎相同。

但應看到，這些方法仍存在一些局限，僅能還原場景外觀特徵，無法實現場景內光照、反射率和粗糙度等更深層屬性的數位化，對這些深層資訊的查詢和編輯更無從談起了。這也導致無法將它們轉化為渲染引擎可用的 PBR 渲染資產，也就無法產生真實感十足的渲染效果。如何解決這些問題呢？逆渲染技術逐漸進入了人們的視野。

逆渲染任務最早是由老一輩電腦科學家Barrow 和Tenenbaum 於1978 年提出，在三維重建的基礎上，進一步恢復光照、反射率、粗糙度和金屬度等場景內在屬性，實現更具真實感的渲染。不過從影像中分解這些屬性極不穩定，不同的屬性配置往往導致相似的外觀。隨著可微分渲染和隱式神經表示的進展，一些方法在具有顯式或隱式先驗的以物體為中心的小場景中取得了較好效果。

然而大規模室內場景的逆渲染一直無法很好地解決，不僅難以在真實場景下恢復物理合理的材質，場景內多視角一致性也很難保證。在國內有這樣一家深耕自主研發核心演算法，專註三維重建領域大規模產業應用的科技公司－如視（Realsee），針對大規模室內場景的逆渲染這一難啃的課題，開創性地提出了高效的多視角逆渲染框架。論文已被 CVPR 2023 會議接收。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

計畫網址：http://yodlee.top/TexIR/
論文網址：https ://arxiv.org/pdf/2211.10206.pdf

#具體來講，如視新方法可以基於精準的空間數據，反向推測獲取諸如光照、反射率、粗糙度等場景內在屬性，在三維重建的基礎上恢復出貼近真實場景的光照和材質表現，在重建效果、成本效率、應用範圍等維度實現全面提升。

本文將對如視大規模室內場景的多視角逆渲染技術進行詳細的解讀，並深入剖析其優勢所在。

面向大規模室內場景

如視全新逆渲染技術做到「準、細、快」

下圖2 為如視全新逆渲染方法的整體流程。給定一組經過校準的大規模室內場景的 HDR 影像，該方法旨在準確地恢復全局一致的光照和 SVBRDFs（雙向反射率分佈函數），從而方便地整合到影像 pipeline 和下游應用中。

為了實現這些目標，如視首先提出一種被稱為 TBL（Texture-based Lighting）的緊湊光照表示，它由3D 網格和HDR 紋理組成，高效建模了整個室內大場景任意位置內包含直接和無限次彈射間接光照的全局光照。基於 TBL，如視又進一步提出了具有預計算輻照度的混合光照表示，大幅提升了效率並減輕了材質優化中的渲染噪聲。最後如視引入了一種基於分割的三階段式材質優化策略，很好地處理了複雜大規模室內場景中材質物理上的模糊性。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

基於紋理的光照（TBL）

在表示大規模室內場景的光照上，TBL 的優勢分別表現在神經表示的緊湊性、IBL 全局光照以及參量光的可解釋性和空間一致性。 TBL 是對整個場景的全局表示，定義了所有表面點的射出輻照度。而一個表麵點的射出輻照度通常等於 HDR 紋理的值，即輸入的 HDR 影像中對應像素觀察到的 HDR 輻照度。

如視使用自研的高品質三維重建技術來重建整個大場景的網格模型。最終基於輸入的 HDR 影像來重建 HDR 紋理，並透過 HDR 紋理從任意位置任意方向查詢全域光照。下圖 3（左）展示了 TBL 的可視化。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

混合照明表示

在實務中，直接利用TBL 優化材質有弊端，蒙特卡羅高取樣數會導致很高的計算和記憶體成本。由於大多數雜訊存在於漫反射分量，如視對漫反射分量表面點的輻照度進行預計算。因此可以有效率地查詢輻照度，取代了成本高昂的線上計算，如圖 3（右）所示。基於 TBL 的渲染方程式由公式 (1) 改寫為公式 (2)。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

如視提出了兩種表示法來建模預計算輻照度。一種是神經輻照度場（NIrF），它是一個淺層多層感知器（MLP），以表面點作為輸入並輸出輻照度 p。另一種是輻照度紋理（IrT），它類似於電腦圖形學中常用的光照貼圖。

可以看到，這種混合光照表示包含了用於漫反射分量的預計算輻照度和用於鏡面反射分量的源TBL，大大降低了渲染噪聲，實現了材質的高效優化。式 (2) 中的漫反射分量被建模為公式 (3) 所示。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

基於分割的三階段式材質估計

#對於神經材質而言，很難用極其複雜的材質對大規模場景進行建模，不適配傳統的圖形引擎。如視選擇直接優化幾何的顯式材質紋理，使用了以 SV 反照率和 SV 粗糙度作為參數的簡化版 Disney BRDF 模型。不過由於觀察的稀疏性，直接優化顯式材質紋理導致不一致和未收斂的粗糙度。

對此，如視利用語義和房間分割先驗來解決這一問題，其中語義圖像透過基於學習的模型預測，房間分割透過佔用網格計算。在實現過程中，如視採取三階段式策略。

第一階段基於 Lambertian 假設來最佳化稀疏反照率，而不是像以物件為中心的小場景那樣將反照率初始化為常數。雖然可以透過公式 (3) 直接計算漫反射反照率，但在高光區域會使得反照過亮，導致下一階段的粗糙度過高。因此，如視使用語意平滑限制在相同的語意分割上激發類似的反照率，如下公式 (4) 所示。稀疏的反照率透過公式 (5) 來優化。

第二階段基於虛擬高光（VHL）的取樣和基於語意的傳播。在多視圖影像中，只能觀察到稀疏的鏡面反射線索會導致全局不一致的粗糙度，大規模場景尤甚。不過透過語意分割先驗，高光區域的合理粗糙度可以傳播到具有相同語意的區域。

如視首先基於粗糙度為 0.01 的輸入姿態來渲染圖像以找到每個語義類別的 VHL 區域，然後根據凍結的稀疏反照率和光照來優化這些 VHL 的粗糙度。合理的粗糙度可以透過公式 (6) 傳播到相同的語義分割中，並且該粗糙度可以透過公式 (7) 進行最佳化。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

第三階段基於分割的微調。如視基於語意分割和房間分割先驗來微調所有的材質紋理。具體地，如視使用了與公式 (4) 類似的平滑約束以及用於粗糙度的房間平滑約束，使不同房間的粗糙度變得更柔和、平滑。房間平滑約束由公式 (8) 定義，同時不對反照率使用任何平滑約束，總損失被定義公式 (9) 所示。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

實驗設定與效果比較

關於資料集，如視使用了兩個資料集：合成資料集和真實資料集。對於前者，如視使用路徑追蹤器創建一個具有不同材質和光源的合成場景，渲染了 24 個用於優化的視圖和 14 個新視圖，為每個視圖渲染 Ground Truth 材質圖像。對於後者，由於Scannet、Matterport3D 和Replica 等常用大規模場景的真實資料集缺乏full-HDR 影像，如視收集了10 個full-HDR 真實資料集，並透過合併7 個包圍式曝光捕捉10 到20個full-HDR 全景影像。

關於基線方法。對於從大規模場景的多視圖影像中恢復 SVBRDFs，目前逆渲染方法有基於單張影像學習的 SOTA 方法 PhyIR、以多視圖物件為中心的 SOTA 神經渲染方法 InvRender、NVDIFFREC 和 NeILF。關於評估指標，如視使用 PSNR、SSIM 和 MSE 來評估材質預測和重渲染影像以進行定量比較，並使用 MAE 和 SSIM 來評估由不同光照表示渲染的重打光影像。

首先來看合成資料集上的評估，如下表1 和圖4 所示，如視方法在粗糙度估計方面顯著優於SOTA 方法，且該粗糙度可以產生物理合理的鏡面反射率。此外相較於原來的隱式表示，具有如視混合光照表示的 NeILF 減少了材質與光照之間的模糊性。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

接著在包含複雜材質和光照的挑戰性真實資料集上進行評估，下表2 的定量比較結果顯示出如視方法優於以往方法。儘管這些方法具有近似的重渲染誤差，但僅有如視方法解耦了全局一致和物理合理的材質。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

下圖 5 和圖 6 分別展示了 3D 視圖和 2D 影像視圖的定性比較。 PhyIR 由於域間隙大導致泛化效能差，無法實現全域一致性預測。 InvRender、NVDIFFREC 和 NeILF 產生了帶有偽影的模糊預測，難以解耦正確的材質。 NVDIFFREC 雖能實現與如視方法類似的性能，但無法解耦反照率與粗糙度之間的模糊性，例如鏡面反射分量中的高光被錯誤地恢復為漫反射反照率。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

消融實驗

為了展示其光錶表示和材質優化策略的有效性，如視針對TBL、混合光照表示、第一階段的反照率初始化、第二階段用於粗糙度估計的VHL 採樣和語義傳播、第三階段基於分割的微調進行了消融實驗。

首先將TBL 與以往方法中廣泛使用的SH 光照和SG 光照方法進行了比較，結果如下圖7 所示，如視TBL 在低頻和高頻特徵方面都表現出了高保真度。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

其次驗證混合光照表示的有效性，將混合光照表示與原始 TBL 進行比較，結果如下圖 8 所示。如果沒有混合光照表示，反照率會導致雜訊並且收斂變慢。預計算輻照度的引入可以使用高解析度輸入來恢復精細的材質，並大大加速最佳化過程。同時與 NIrF 相比，IrT 產生了更精細和無偽影的反照率。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

最後對三階段式策略的有效性進行了驗證，結果如下表 3 和圖 9 所示。基線粗糙度未能收斂且僅高光區域更新。第一階段如果沒有反照率初始化，則高光區域反照過亮並導致不正確的粗糙度。第二階段基於 VHL 的取樣和基於語意的傳播，對於恢復未觀察到鏡面反射高光區域的合理粗糙度至關重要。第三階段基於分割的微調產生了精細的反照率，使得最終的粗糙度更平滑，並阻止了不同材質之間粗糙度的錯誤傳播。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

如視全新逆向渲染技術，強在哪裡？

其實，如視在其 CVPR 2022 論文《PhyIR: Physics-based Inverse Rendering for Panoramic Indoor Images》中透過提出神經網路訓練方法，在單張影像的逆渲染任務上取得了 SOTA 結果。現在全新逆向渲染框架不僅做到了多視角、整屋全空間全場景，而且解決了以往逆向渲染方法的多個關鍵缺陷。

首先以往基於合成資料訓練的方法在真實場景中表現不佳。如視全新深度逆渲染框架首次引入了「層級式場景先驗」，透過多階段的材質優化並結合全球最大三維空間資料庫如視數位空間中的居住空間數據，對空間內的光照、反射率和粗糙度等物理屬性實現了分層級的精準預測。

預測結果最終輸出為物理合理、全局一致的多類型材質貼圖，將如視設備真實拍攝的室內場景資料無縫轉化為數位化渲染資產，適配Unity、Blender 等目前所有主流渲染引擎，由此實現場景資產自動產生和基於實體的MR 應用，如材質編輯、新視圖合成、重打光、虛擬物件插入等。這種通用性很強的數位資產有利於支援後續更多不同的應用和產品。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

材質編輯

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

#重打光

其次以往基於最佳化的可微渲染方法計算成本極高，效率極低。近年來，為了更好地解決逆渲染問題，同時減少對訓練資料的依賴，可微渲染方法被提出，即透過「微分求導」方式使正向渲染可微分，進而將梯度反向傳播至渲染參數，最終最佳化得到基於物理的待求解參數。這類方法包括球諧（spherical-harmonic, SH）光照 [1] 和三維球形高斯（Volumetric Spherical Gaussian, VSG）光照。

但是大規模室內場景存在遮蔽、陰影等大量複雜的光學效應，在可微渲染中建模全域光照會帶來高昂的運算成本。如視本次提出的TBL 在高效準確地表示室內場景全局光照的同時，只需要大約20MB 內存，而基於密集網格的VSG 光照[2] 大約需要1GB 內存，基於稀疏網格的SH 光照方法Plenoxels [3] 大約需要750MB 內存，資料內存容量實現了數十倍縮減。

不僅如此，如視新方法可以在 30 分鐘內完成整個室內場景的反向渲染，而傳統方法[4] 可能需要 12 小時左右，整整提升了 24 倍。計算速度的大幅提升意味著成本的降低，性價比優勢更加顯著，離大規模實際應用更近了一步。

最後以往的類 NeRF 神經逆渲染方法（如 PS-NeRF [5]、 NeRFactor [6] 等）主要面向以物體為中心的小規模場景，建模大規模室內場景似乎無能為力。基於如視精準數位空間模型以及高效準確的混合光照表示，全新逆渲染框架透過引入語意分割和房間分割先驗解決了這個問題。

對於此次的全新深度逆渲染框架，如視首席科學家潘慈輝表示，「真正意義上實現了對真實世界更深層的數位化，解決了以往逆渲染方法難以在真實場景下恢復物理合理的材質和光照以及多視角一致性的問題，為三維重建和MR 的落地應用帶來了更大想像空間。」

把握逆渲染技術優勢

在數位空間中創新VR 產業融合

一直以來，如視在三維重建領域擁有許多技術積累，投入大量精力打磨並致力於相關演算法的落地。同時對尖端技術的研發支援力道很大，非常看重業界領先技術的攻克。這些成為包括此次全新逆渲染技術在內如視三維實景模型重建和 MR 研究獲得國際學術界認可的重要基礎，並幫助如視演算法能力在理論研究、技術應用等層面步入國際領先水準。

這些演算法及技術優勢將實現對真實世界的更深層數位化，並藉此進一步加速實現數位空間的建置。目前，如視數位空間透過自研的採集設備，在不同國家、不同應用場景中的累計採集量已經超過 2,700 萬套、覆蓋面積達到 22.74 億平方公尺。如視數位空間將協助其VR 產業整合發展方向，為商業零售、工業設施、文博會展、公共事務、家居家裝、房產交易等產業帶來數位應用升級的全新發展機遇，如VR 看房、VR博物館等。

速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023

如視打造的AI行銷助理

對於VR 產業融合，如視的最大優勢在於不斷良性演化的數位化重建演算法和海量真實資料的積累，使其同時擁有了較高的技術壁壘和較大的資料壁壘。這些演算法和數據在某種程度上還能相互循環起來，不斷擴大優勢。同時數據和演算法的壁壘使如視更容易切入各行業的痛點問題，帶來一些技術解決方案，創新產業發展新模式。

逆渲染技術成果連續兩年入選 CVPR，主要脫胎於如視想要在 MR 方向上有所作為並在產業上實現一些落地。未來，如視希望打通實景 VR 與純虛擬模擬之間的 Gap，真正做到虛實融合，並建構更多產業應用。

以上是速度提升24倍，30分鐘完成室內大場景逆渲染，如視研究成果入選CVPR 2023的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51cto。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例