最近,由Meta和卡內基美隆大學提出的6-DoF視訊表徵模型-HyperReel,可能預示著一個全新的VR「殺手級」應用即將誕生!
所謂「六自由度影片」(6-DoF),簡單來說就是一個超高清的4D體驗式回放。
其中,使用者可以完全「置身於」動態場景裡面,並且可以自由地移動。而當他們任意改變自己的頭部位置(3 DoF)和方向(3 DoF)時,與之對應的視野也會隨之產生。
#論文網址:https://arxiv.org/abs/2301.02238
與先前的工作相比,HyperReel最大的優勢在於記憶體和運算效率,而這兩點對於便攜式VR頭顯來說都至關重要。
而且只要採用vanilla PyTorch,HyperReel就能在單張英偉達RTX 3090上,以每秒18幀的速度實現百萬像素解析度的渲染。
太長不看版本:
1 . 提出一種可在高分辨率下實現高保真度、高幀率的渲染的光線條件採樣預測網絡,以及一種緊湊且內存高效的動態體積表徵;
2. 6-DoF視訊表徵方法HyperReel結合了以上兩個核心部分,可以在即時渲染百萬像素解析度的同時,實現速度、品質和記憶體之間的理想平衡;
3. HyperReel在記憶體需求、渲染速度等多個方面均優於其他方法。
論文介紹
體積場景表徵(volumetric scene representation)能夠為靜態場景提供逼真的視圖合成,並構成了現有6-DoF視訊技術的基礎。
然而,驅動這些表徵的體積渲染程序,需要在質量、渲染速度和記憶體效率方面,進行仔細的權衡。
現有的方法有一個弊端——不能同時實現即時效能、小記憶體佔用和高品質渲染,而在極具挑戰性的真實場景中,這些都是極為重要的。
為了解決這些問題,研究人員提出了HyperReel——一種基於NeRF技術(神經輻射場)的6-DoF視訊表徵方法。
其中,HyperReel的兩個核心部分是:
1. 一個光線條件下的取樣預測網絡,能夠在高分辨率下進行高保真、高幀率的渲染;
2. 一個緊湊且記憶體高效的動態體積表徵。
與其他方法相比,HyperReel的6-DoF視訊管線不僅在視覺品質上表現極佳,而且記憶體需求也很小。
同時,HyperReel不需要任何客製化的CUDA程式碼,就能在百萬像素解析度下實現18幀/秒的渲染速度。
具體來說,HypeReel透過結合樣本預測網路和基於關鍵影格的體積表徵法,從而實現了高渲染品質、速度和內存效率之間的平衡。
其中的樣本預測網絡,既能加速體積渲染,又能提高渲染質量,特別是對於具有挑戰性的視圖依賴性的場景。
而在基於關鍵影格的體積表徵方面,研究人員採用的是TensoRF的擴展。
這種方法可以在記憶體消耗與單一靜態影格TensoRF大致相同的同時,湊地表徵了一個完整的視訊序列。
即時示範
接下來,我們就即時示範一下,HypeReel在512x512像素解析度下動態和靜態場景的渲染效果。
值得注意的是,研究人員在Technicolor和Shiny場景中使用了較小的模型,因此渲染的幀率大於40 FPS。對於其餘的資料集則使用完整模型,不過HypeReel仍能提供即時推理。
Technicolor
#Shiny
Stanford
#Immersive
##DoNeRF
#實作方法#為了實作HeperReel,首先要考慮的問題,就是要最佳化靜態視圖合成的體積表徵。
像NeRF這樣的體積表徵,就是對靜態場景在3D空間中的每一個點的密度和外觀,進行建模。
更具體地說,透過函數將位置x和方向
沿著⼀條射線映射到顏色
和密度σ(x)。
此處的可訓練參數θ,可以是神經網路權重、N維數組條目,或兩者的組合。
然後就可以渲染靜態場景的新視圖
其中#表徵從o到
的透射率。
在實務上,可以透過沿著給定射線取得多個樣本點,然後使用數值求積來計算方程式1:
###其中權重指定了每個樣本點的顏色對輸出的貢獻。
體積渲染的網格範例
在靜態場景的HyperReel中,給定一組圖像和相機姿勢,而訓練目標就是重建與每條光線相關的測量顏色。
大多數場景是由實體物件組成的,這些物件的表面位於3D場景體積內的一個2D流形上。在這種情況下,只有一小部分樣本點會影響每條光線的渲染顏色。
因此,為了加速體積渲染,研究人員希望只對非零的點,查詢顏色和不透明度。
如下圖所示,研究人員使用前饋網路來預測一組樣本位置。具體來說,就是使用樣本預測網路
,將射線
對應到樣本點
,以取得體積等式2中的渲染。
這裡,研究人員使用Plucker的參數化來表徵光線。
但是這其中有一個問題:給予網路太多的彈性,可能會對視圖合成品質產生負面影響。例如,如果(x1, . . . , xn) 是完全任意的點,那麼渲染可能看起來不是多視圖⼀致的。
為了解決這個問題,研究人員選擇用樣本預測網路來預測一組幾何基元G1, ..., Gn的參數,其中基元的參數可以根據輸入射線的不同而變化。為了得到樣本點,將射線與每個基元相交。
如圖a所示,給定源自相機原點o並沿方向ω傳播的輸入光線後, 研究人員首先使用Plucker座標,重新對光線進行參數化。
如圖b所示,一個網路將此射線作為輸入,輸出一組幾何基元{}(如軸對齊的平面和球體)和位移向量{##}的參數。
如圖c所示,為了產生用於體積渲染的樣本點{},研究人員計算了射線和幾何基元之間的交點,並將位移向量加入結果。預測幾何基元的好處是使取樣訊號平滑,易於內插。
位移向量為取樣點提供了額外的靈活性,能夠更好地捕捉複雜的視線依賴的外觀。
如圖d所示,最終,研究人員透過公式2進行體積渲染,產生一個像素顏色,並根據對應的觀察結果,對它進行了監督訓練。
基於關鍵影格的動態體積
透過上述辦法,就可以有效地對3D場景體積進行取樣。
如何表徵體積呢?在靜態情況下,研究人員使用的是記憶體有效的張量輻射場(TensoRF)方法;在動態情況下,就將TensoRF擴展到基於關鍵幀的動態體積表徵。
下圖解釋了從基於關鍵影格的表徵中,提取動態的樣本點表徵的過程。
如圖1所示,首先,研究者使用從樣本預測網路輸出的速度{},將時間處的樣本點{#}平移到最近的關鍵影格 #中。
然後,如圖2所示,研究人員查詢了時空紋理的外積,產生了每個樣本點的外觀特徵,然後透過公式10將其轉換成顏色。
透過這樣的過程,研究人員提取了每個樣本的不透明度。
結果對比
# 靜態場景的比較
在此,研究人員將HyperReel與現有的靜態視圖合成方法(包括NeRF、InstantNGP和三種基於採樣網路的方法)進行了比較。
- DoNeRF資料集
#DoNeRF資料集包含六個合成序列,影像解析度為800×800像素。
如表1所示,HyperReel的方法在品質上優於所有基線,並在很大程度上提高了其他取樣網路方案的效能。
同時,HyperReel是用vanilla PyTorch實現的,可在單張RTX 3090 GPU上以6.5 FPS的速度渲染800×800像素的圖像(或者用Tiny模型實現29 FPS的渲染)。
此外,與R2L的88層、256個隱藏單元的深度MLP相比,研究人員提出的6層、256個隱藏單元的網絡外加TensoRF體積骨幹的推理速度更快
- LLFF資料集
#LLFF資料集包含8個具有1008×756像素影像的真實世界序列。
如表1所示,HyperReel的方法優於DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但取得的品質比NeRF略差。
由於錯誤的相機校準和輸入視角的稀疏性,這個資料集對顯式體積表徵來說是一個巨大的挑戰。
動態場景的比較
- #Technicolor資料集
#Technicolor資料集
Technicolor光場資料集包含了由時間同步的4×4攝影機裝置拍攝的各種室內環境的視頻,其中每個視頻流中的每張圖片都是2048×1088像素。
- 研究人員將HyperReel和Neural 3D Video在全影像解析度下對這個資料集的五個序列(Birthday, Fabien, Painter, Theater, Trains)進行比較,每個序列有50幀長。
- 如表2所示,HyperReel的品質超過了Neural 3D Video,同時每個序列的訓練時間僅為1.5個小時(而不是Neural 3D的1000多個小時) ,並且渲染速度更快。
Neural 3D Video資料集
Neural 3D Video資料集包含6個室內多視圖視訊序列,由20台攝影機以2704×2028像素的解析度拍攝。
如表2所示,HyperReel在這個資料集上的表現超過了所有的基準方法,包括NeRFPlayer和StreamRF等最新工作。
- 特別是,HyperReel在數量上超過了NeRFPlayer,渲染速度是其40倍左右;在質量上超過了StreamRF,儘管其採用Plenoxels為骨幹的方法(使用定制的CUDA核心來加快推理速度)渲染速度更快。
- 此外,HyperReel平均每幀消耗的記憶體比StreamRF和NeRFPlayer都要少很多。
GoogleImmersive資料集
#GoogleImmersive資料集包含了各種室內和室外環境的光場影片。
如表2所示,HyperReel在品質上比NeRFPlayer的要好1 dB,同時渲染速度也更快。
有些遺憾的是,HyperReel目前還沒有達到VR所要求的渲染速度(理想情況下為72FPS,立體聲)。
作者介紹
以上是Meta、CMU聯手推出VR史詩級升級!最新HyperReel模型實現高保真6自由度視訊渲染的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中