中國歷史悠久,文化底蘊深厚,文物數目眾多,文物作為前人智慧的結晶,其文獻價值不言而喻。古籍是記錄中華文明的重要載體,也是流傳至今的寶貴文化遺產,文物保存也是長期重要的基礎工作。全國2800多家圖書館收藏有超過5000萬冊的古籍,其中1/3有不同程度的破損。依照現有的文物修復人員數量,需要數百年的時間才能把館藏文物全部修復好。
《古籍尋遊記》是字節跳動聯合中國第一歷史檔案館、敦煌研究院、甘肅簡牘博物館、國家圖書館(國家典籍博物館),共同打造的古籍活化項目,還原古文獻四大發現- 殷墟甲骨、居延漢簡、敦煌遺書、明清檔案,讓古籍以數位化的形式 「活」起來。
本計畫以VR 互動紀錄片為核心,依托火山引擎多媒體實驗室最新的三維重建技術,復刻線下文物到PICO 虛擬場景中,並應用自研光場視訊技術,擷取並惟妙惟肖的還原動態人物的光場訊息,在VR 場景中提供高自由度的觀看和互動體驗。在這些紀錄片中,觀眾可以透過 PICO、抖音裸眼 VR 等方式,足不出戶穿越時空,親自參與歷史事件,零距離接觸與欣賞古籍。
本文重點介紹火山引擎多媒體實驗室的三維重建技術以及光場視訊技術的原理、先進性及應用領域,幫助大家能更好的了解和認識三維重建技術,助力相關技術在實際產品和應用中落地。
文物的數位化需要對文物做三維重建與數位復原,同時也對三維重建技術提出了很大挑戰:
三維重建是電腦輔助幾何設計(CAGD)、電腦圖形學(CG)、電腦動畫、電腦視覺、醫學影像處理、科學計算和虛擬實境、數位媒體創作等領域的共通性科學問題和核心技術。 三維重建技術,一般包括資料擷取 、預處理、 點雲拼接、特徵分析、網格及紋理生成等步驟。
傳統的三維重建採用基於視覺或基於多模態(深度數據,e.g.,雷射)重建影像三維資訊的過程,能夠對靜態物體和場景進行建模,但缺乏有效的對於動態物件和場景建模的整體解決方案。
火山引擎多媒體實驗室具備自研的物品重建技術、場景重建技術,及光場視訊技術,能夠對靜態物體建構高保真的形態,並恢復其複雜材質;能夠對大場景,包括城市,園區,房屋空間等進行有效的建模,是數位孿生的重要基礎;且能夠對動態物體和動態場景,採用先進光場視頻技術進行重建和復現,實現點播和直播,具備整套的技術解決方案。
在「古籍尋遊記」計畫中,火山引擎多媒體實驗室做了四十多樣化文物的數位復原。在做文物數位復原的過程中,遇到的第一個難點就是,文物是需要重點保護的,對於採集設備有一定的限制,比如,常用的高精度雷射設備是不能夠用來掃描文物的,這就驅使火山引擎多媒體實驗室團隊採用基於視覺的方式對文物進行三維重建。
然而傳統基於視覺的重建方法無法處理弱紋理物體,而且對於形狀比較複雜的物品也難以重建(例如狹長的簡牘、扁平的甲骨)。為此,採用符號距離場(Signed Distance Fields,簡稱SDF)的技術方案來表示三維物體,結合深度學習的方法克服了上述重建困難。 SDF 表示了空間中每個點到物體的有向距離,是一種隱式表示,二維SDF的示意圖如下。
SDF 示意圖
#如何監督神經網路使其準確地擬合該SDF 是需要研究的問題。 先用運動恢復結構(Structure from Motion,簡稱SfM)演算法,精確計算拍攝影像的相機姿態。有了相機姿態,利用可微渲染的方法將SDF 所表示的空間資訊渲染到影像上,把渲染得到的影像和該視角下擷取的影像做比較,不斷優化神經網絡,使SDF 在各個擷取視角下的渲染結果盡可能與實際採集的影像一致。
為了進一步提高重建精細度,在優化 SDF 的時候加入稀疏重建得到的三維點做約束,能更好的還原物體的細節特徵。為了達到完整重建的目的, 火山引擎多媒體實驗室也將分割演算法和重建演算法結合,能夠有效的重建出物體的底部區域。
由於物件在掃描過程中是要固定在某個位置,物體的底面採集不到圖片的。物體的完整重建就是要解決物體底部重建的問題,通常的做法是懸線法或多段重建加後處理拼接。懸線法對文物來說不夠安全,拼接後處理流程較長,無法自動化。為此,火山引擎多媒體實驗室在重建演算法中加入了自動化影像分割,能夠將正反兩次拍攝的資料統一起來一起重建,直接得到完整的重建結果,完整重建的結果對比如下圖所示。
未使用完整重建技術建模結果
使用完整重建技術建模結果
高光是物體重建的一大挑戰,一方面高光影響特徵點匹配,導致恢復的相機位姿不准確,再一個高光也會破壞不同視角間觀測結果的一致性,對重建造成乾擾。為此,火山引擎多媒體實驗室總結出一套利用偏振光消除高光的方法,能有效去除大量高光,高光消除的結果對比如下圖所示。
消除高光前
消除高光後
火山引擎多媒體實驗室的方法還可以模擬不同物體的反射/折射性質,實現對特殊材質物體的建構模 , 文物重建的結果顯示如下圖所示。
文物原圖
文物重建結果 ###### ###
四大博物館的文物,有些是紙質、竹簡類的珍貴文物,這些文物也難以從展示櫃中取出並採集。針對這種情況,火山引擎多媒體實驗室自研了加入光學偏振片的採集設備,可以消除玻璃展示櫃帶來的雜光、高光和反射問題,使得我們在有一層玻璃保護在殼的狀態下,仍對文物進行高保真的掃描和重建。
玻璃展示櫃中文物
文物重建結果
此外,火山引擎多媒體實驗室的物品重建技術還包含精確位姿估計、真實感紋理 ( 漫反射、鏡面反射、半透明 ) 等複雜材質的恢復與微細表面的重建,也均在“古籍尋遊記」計畫中得以運用,將寶貴的文物實現高真實度的1:1還原,並轉換為數位化資源,讓觀眾「沉浸式」逛館,讓藏品更加深入人心。
火山引擎多媒體實驗室的物體重建技術具備很強的普適性,不僅適用於文物,一般物體也同樣適用,而且對一些傳統重建難以處理的物體,比如,刀刃等非常薄的物體等,也能有不錯的重建結果。
上:小刀及木棒等道具;下:電商物品
# 2.2 自建場景重建演算法:更高效率、更高精度場景重建是電腦視覺和攝影測量中的重要研究主題,也在智慧城市、虛擬實境、數位導航與數位遺產保護等方面有著重要的應用。透過視覺進行三維重建具有採集效率高、採集成本低、精度上限高、適應場景廣等優點,同時可以避免其他掃描設備對場景帶來不必要的損害,但在演算法層面面臨許多挑戰。 對此, 火山引擎多媒體實驗室結合 AI 技術與多視角幾何基本原理,搭建了一套先進的穩健、精確完整視覺重建演算法框架。 重建過程包含三個關鍵步驟 :影像處理、 點雲最佳化和網格重建
。
火山引擎多媒體實驗室利用先進的人工智慧技術,對影像進行去噪、超分
、特徵提取與匹配等處理,從而克服了許多傳統方法限制。接著利用 SfM 演算法以及捆集約束(Bundle Adjustment,簡稱 BA)從影像中擷取稀疏幾何結構和相機參數。同時團隊開發了支援全景相機、多相機組、RGBD 相機、光達、GPS/IMU 等多感測器資料輸入的位姿估計演算法,實現高精度、多模態、自適應的稀疏重建。為了處理大規模數據,團隊開發分塊重建和地圖合併策略,實現分散式叢集並行重建,顯著提高了重建效率。
在完成場景稀疏重建後,###透過立體視覺 (Multiple View Stereo,簡稱 MVS)技術將二維影像資訊轉化為三維點雲資訊###。團隊自研基於單眼相機、雙眼相機和多目立體視覺的深度估計演算法,透過神經網路進行稠密深度估計,在任意視差、各種紋理環境獲得穩定優秀的表現。取得點雲資訊後,進行點雲去噪和補全,並透過點雲配準實現場景幾何一致性。最後,透過基於 VoxelHash 和影像語意資訊的點雲融合策略,進一步濾除噪聲,產生更平滑一致的完整場景點雲。 ###取得場景點雲後,進行 Mesh 重建。火山引擎多媒體實驗室自研多種網格優化演算法,實現網格平滑、去噪、簡化和補洞,獲得更精細、完整的高品質網格模型。得益於影像處理期間高精度的相機位姿估計以及影像超分等畫質優化,結合自研貼圖演算法,獲得更高清、拼裝更少的高品質紋理貼圖。同時透過紋理重打包演算法優化,實現更高的紋理利用率,降低儲存資源浪費,提升紋理有效解析度。
傳統映像配準演算法
#火山引擎視訊雲演算法
#傳統建模演算法
火山引擎視訊雲演算法建模結果
#城市場景建模
火山引擎視訊雲端演算法
#火山引擎多媒體實驗室的物品重建技術與場景重建技術可以等比例、高精度的復原不同大小、不同形狀的文物。上述的技術可以將線下文物轉換到線上,在PICO、抖音裡實現文物的虛擬呈現,使用者可以把甲骨文把玩在手裡,清晰的看到上面的文字,實現傳統參觀沒有的文物觀賞體驗,同時也可以跨越空間限制,置身並漫遊在敦煌石窟裡。另外,這項技術可以將線下珍貴文物轉換為線上的永久數位資源,實現文物的數位化保護,可以讓後世的人們身臨其境體驗到文物的全貌。
2.3 自研光場視訊技術:平衡成本與精確度之間的難題為了能夠在虛擬敦煌石窟內,身臨其境地觀看一場盛世舞蹈,感受超越現實的體驗,火山引擎多媒體實驗室
自研的光場視訊技術,能夠對動態人物和場景進行高真實度重建,達到行業先進水平###。 #########動態三維網格資料(Dynamic Mesh),可以表示動態人物和場景,但是如何重建出高品質的動態三維網格,並使得新渲染出的圖像能夠如照片般逼真是一個難題。 ### 若透過三維場景設計師對場景進行手工重建,將獲得較好的重建質量,但將付出較大的人力成本;若透過SFM/MVS等演算法自動重建三維場景,則需要重建場景紋理有一定要求,且重建結果可能包含不精確的幾何細節和紋理失真。 #########神經輻射場技術###,採用神經網路對隱式重建,利用可微渲染模型,從已有視圖中學習如何渲染新視角下的影像,從而實現照片級逼真的影像渲染, 即神經輻射場(NeRF)技術。可微渲染模型建模了從三維空間模型及紋理到影像的渲染過程,其可微特性使得在已有視角影像的監督下,透過神經網路對三維空間幾何及紋理進行學習。在未知新視角下,可以對學習到的三維空間幾何進行重新渲染,從而獲得新視角下的影像。 ###火山引擎多媒體實驗室融合神經輻射場技術與傳統的網格建模技術。在具體實踐中,首先重建出人物的大致幾何輪廓,並改進NeRF技術,融入幾何輪廓作為先驗加入訓練指導,隱式學習三維空間幾何,並重新渲染出稠密新視角下的圖像。在神經輻射場訓練過程中,針對動態人物場景,團隊透過一些優化策略以提升該場景下的新視角產生效果,如借助基於哈希編碼的層次化表達提升模型訓練速度,借助流式訓練提升動態場景的幀間一致性等。最後採用視訊融合技術, 能夠自動學習背景訊息,實現前景的重光照,使得前景演員與背景場景能夠無縫融合。
同時,火山引擎多媒體實驗室的光場視訊技術,可以實現 NeRF 的編輯,重建並復現複雜的動態大場景。
火山引擎多媒體實驗室的光場視訊技術,僅僅需要稀疏的多相機輸入,就能夠產生稠密的光場數據,這主要是採用基於深度學習的新視角生成技術。光場視訊數據相對傳統視訊數據,具有數據量大的特點,團隊採用多視角聚合編碼技術壓縮光場數據,降低傳輸和儲存的壓力。 結合大規模直播技術以及 RTC 傳輸技術,能夠實現光場影片的隨選與直播。
#隨著3D技術的不斷成熟,火山引擎多媒體實驗室的3D技術不僅在VR領域、自動駕駛、視訊直播、遊戲等場景落地具體的應用,而且將會在工業、醫療、建築家居、航空航天等領域持續探索。火山引擎希望能夠將物品重建技術、場景重建技術及光場視訊技術廣泛應用到各行各業的產品和專案中去,服務企業客戶,為用戶帶來更高清、更互動、更沉浸的創新體驗。
火山引擎多媒體實驗室是位元組跳動旗下的研究團隊,致力於探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新演算法及軟硬體解決方案已廣泛應用於抖音、西瓜影片等產品的多媒體業務,並向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會及旗艦期刊,並獲得數項國際級技術賽事冠軍、產業創新獎及最佳論文獎。
以上是讓文物「活」起來,火山引擎視訊雲三維重建技術揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!