搜尋
首頁科技週邊人工智慧神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

超高解析度作為記錄和顯示高品質影像、影片的一種標準受到眾多研究者的歡迎,與較低解析度(1K 高清格式)相比,高解析度捕捉的場景通常細節十分清晰,像素的訊息被一個小patch 放大。但是,想要將這種技術應用於影像處理和電腦視覺還面臨許多挑戰。

本文中,來自阿里巴巴的研究者專注於新的視圖合成任務,提出了一個名為4K-NeRF 的框架,其基於NeRF 的體積渲染方法可以實現在4K 超高解析度下高保真視圖合成。

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#論文網址:https://arxiv.org/abs/2212.04701

專案首頁:https://github.com/frozoul/4K-NeRF

#話不多說,我們先來看看效果(以下影片均進行了降採樣處理,原版4K 影片請參考原項目)。

方法

接下來我們來看看研究是如何實現的。

4K-NeRF pipeline(如下圖):使用基於patch 的射線採樣技術,聯合訓練VC-Encoder(View-Consistent)(基於DEVO)在一個較低解析度的空間中編碼三維幾何訊息,之後經過一個VC-Decoder 實現針對高頻細高品質的渲染與視圖一致性的增強。

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

該研究基於DVGO [32] 中定義的公式實例化編碼器,學習到的基於體素網格的表示來明確地編碼幾何結構:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

對於每個取樣點,密度估計的三線性插值配備了一個softplus 激活函數用於產生該點的體密度值:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#顏色則是用一個小型的MLP 估計算:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

這樣可以透過累積沿著設線r 的取樣點的特徵來得到每個射線(或像素)的特徵值:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#為了更好地利用嵌入在VC-Encoder 中的幾何屬性,該研究還透過估計每條射線r 沿採樣射線軸的深度產生了一個深度圖。估計的深度圖為上面Encoder 產生的場景三維結構提供了強有力的指導:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

之後經過的網路是透過疊加幾個卷積塊(既不使用非參數歸一化,也不使用降採樣操作)和交錯的升採樣操作來建立的。特別是,該研究不是簡單地將特徵 F 和深度圖 M 連接起來,而是加入了深度圖中的深度訊號,並透過學習變換將其註入每個區塊來調製區塊來啟動。

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#

不同於傳統的 NeRF 方法中的像素級機制,該研究的方法旨在捕捉射線(像素)之間的空間資訊。因此,這裡不適合採用 NeRF 中隨機射線採樣的策略。因此該研究提出了一種基於 patch 的射線採樣訓練策略,以方便捕捉射線特徵之間的空間依賴性。訓練中,首先將訓練視圖的影像分割成大小為 N_p×N_p 的 patch p,以確保像素上的取樣機率是均勻的。當影像空間維數無法被 patch 大小精確分割時,需要截斷 patch 直到邊緣,得到一組訓練 pa​​tch。然後從集合中隨機抽取一個 (或多個) patch,透過 patch 中像素的射線形成每次迭代的 mini-batch。

為了解決對精細細節產生模糊或過度平滑視覺效果的問題,該研究添加了對抗性損失和感知損失來規範精細細節合成。感知損失神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了透過預先訓練的19 層VGG 網路來估計特徵空間中預測的patch神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了和真值p 之間的相似性:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

該研究使用神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了損失而不是MSE 來監督高頻細節的重建

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

此外,研究也加入了一個輔助MSE 損失,最後總的loss 函數形式如下:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

實驗效果

定性分析

#實驗對4K-NeRF 與其他模型進行了比較,可以看到基於普通NeRF 的方法有著不同程度的細節失落、模糊現象。相比之下,4K-NeRF 在這些複雜和高頻細節上呈現了高品質的逼真渲染,即使是在訓練視野有限的場景上。

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#量化分析

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

##研究與目前幾個方法在4k 資料的基準下去做對比,包括Plenoxels、DVGO、JaxNeRF、MipNeRF-360 和NeRF-SR。實驗不但以影像恢復的評估指標作為對比,也提供了推理時間和快取內存,以供全面評估參考。結果如下:

神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了

#########雖然與一些方法的結果在一些指標上相差不大,但是得益於他們基於體素的方法在推理在效率和記憶體成本上都取得了驚人的效能,允許在300 ms 內渲染一個4K 影像。 ################

總結及未來展望

該研究探討了NeRF 在精細細節建模方面的能力,提出了一個新穎的框架來增強其在以極高分辨率的場景中恢復視圖一致的細微細節的表現力。此外,該研究還引入了一對保持幾何一致性的編解碼器模組,在較低的空間中有效地建模幾何性質,並利用幾何感知特徵之間的局部相關性實現全尺度空間中的視圖一致性的增強,並且基於patch 的抽樣訓練框架也允許該方法整合來自面向感知的正則化的監督。該研究希望將框架合併到動態場景建模中的效果,以及神經渲染任務作為未來的方向。

以上是神還原物件複雜、高頻細節,4K-NeRF高保真視圖合成來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具