搜尋
首頁科技週邊人工智慧Anything in Any Scene:逼真物件插入(助力各類駕駛資料合成)

原標題:Anything in Any Scene: Photorealistic Video Object Insertion

論文連結:https://arxiv.org/pdf/2401.17509.pdf

#程式碼連結:https ://github.com/AnythingInAnyScene/anything_in_anyscene

作者單位:小鵬汽車

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

論文想法想

#逼真的(realistic)視訊模擬(video simulation)在從虛擬實境到電影製作等各種應用領域都顯示出巨大的潛力。尤其是在現實世界中捕捉影片不切實際或成本高昂的情況下。視訊模擬中的現有方法通常無法準確地建模光照環境、表示物體幾何形狀或實現高水平的照片級真實感。本文提出了 Anything in Any Scene ,這是一種新穎且通用的真實視訊模擬框架,可將任何物件無縫插入現有的動態視訊中,並強調物理真實感。本文提出的整體框架包含三個關鍵過程:1)將真實的物體整合到給定的場景影片中,並放置適當的位置以確保幾何真實感(geometric realism);2)估計天空和環境光照分佈並模擬真實陰影,增強光照真實感(light realism);3)採用風格遷移網絡來細化最終的影片輸出,以最大限度地提高照片真實感(photorealism)。本文透過實驗證明 Anything in Any Scene 框架可以產生具有出色的幾何真實感、光照真實感和照片真實感的模擬影片。透過顯著緩解與視訊資料生成相關的挑戰,本文的框架為獲取高品質影片提供了高效且經濟高效的解決方案。此外,其應用遠遠超出了視訊資料增強的範圍,在虛擬實境、視訊編輯和各種其他以視訊為中心的應用中顯示出廣泛的潛力。

主要貢獻

本文引入了一個新穎且可擴展的 Anything in Any Scene 視訊模擬框架,能夠將任何物件整合到任何動態場景影片中。

這篇文章的結構獨具特色,著重於在視訊模擬中保持幾何、光照和照片的真實感,以確保輸出結果的高品質和真實性。

經過廣泛驗證,結果顯示該框架具備製作高度逼真視訊模擬的能力,從而顯著拓展了該領域的應用範圍和發展潛力。

論文設計

影像和視訊模擬在從虛擬實境到電影製作的各種應用中都取得了成功。透過逼真的影像和視訊模擬產生多樣化和高品質的視覺內容的能力具有推動這些領域發展的潛力,能夠引入新的可能性和應用。儘管在現實世界中捕捉的影像和影片的真實性非常寶貴,但它們經常受到長尾分佈的限制。這導致常見場景的代表性過高,而罕見但關鍵的情況的代表性不足,從而提出了稱為 out-of-distribution problem 的挑戰。透過視訊擷取和編輯來解決這些限制的傳統方法被證明是不切實際的或成本過高,因為難以涵蓋所有可能的情況。視訊模擬的重要性,特別是透過將現有視訊與新插入的物體相集成,對於克服這些挑戰變得至關重要。透過產生大規模、多樣化和逼真的視覺內容,視訊模擬有助於增強虛擬實境、影片編輯和視訊資料增強方面的應用。

然而,考慮物理真實性生成逼真的模擬影片仍然是一個具有挑戰性的開放問題。現有方法通常因專注於特定設定而表現出局限性,特別是室內環境[9,26,45,46,57]。這些方法可能無法充分解決室外場景的複雜性,包括不同的光照條件和快速移動的物體。依賴 3D 模型配準的方法僅限於整合有限類別的物件 [12,32,40,42]。許多方法忽略了一些重要因素,例如光照環境建模、正確的物件放置和實現真實感 [12, 36]。失敗的案例如圖 1 所示。因此,這些限制極大地限制了它們在需要高度可擴展、幾何一致和真實場景視訊模擬的領域(例如自動駕駛和機器人)中的應用。

本文提出了一個用於解決這些挑戰的逼真視訊物件插入的綜合框架 Anything in Any Scene。此框架設計具有通用性,適用於室內和室外場景,確保幾何真實感、光照真實感和照片真實感等方面的物理準確性。本文的目標是創建視訊仿真,不僅有利於機器學習中的視覺數據增強,而且適用於各種視訊應用,例如虛擬實境和視訊編輯。

本文的 Anything in Any Scene 框架的概述如圖 2 所示。本文在第 3 節中詳細介紹了本文新穎且可擴展的流程,用於建構場景視訊和物件網格(object mesh)的多樣化資產庫。本文介紹了一種視覺資料查詢引擎,旨在利用描述性關鍵字從視覺查詢中高效檢索相關影片片段。接下來,本文提出兩種產生 3D meshes 的方法,利用現有 3D 資產以及多視圖影像重建。這允許不受限制地插入任何所需的物體,即使它非常不規則或語義較弱。在第 4 節中,本文詳細介紹了將物件整合到動態場景影片中的方法,重點是保持物理真實感。本文設計了第 4.1 節中描述的物體放置和穩定方法,確保插入的物體穩定地錨定(anchored)在連續的視頻幀上。為了解決創建逼真的光照和陰影效果的挑戰,本文估計天空和環境光照並在渲染過程中產生逼真的陰影,如第 4.2 節所述。產生的模擬視訊幀不可避免地包含與現實世界捕獲的視訊不同的不切實際的偽影,例如雜訊水平、色彩保真度和清晰度方面的成像品質差異。本文在 4.3 節中採用風格遷移網路來增強照片真實感。

從本文提出的框架產生的模擬視頻達到了高度的光照真實感、幾何真實感和照片真實感,在質量和數量上都優於其他視頻,如第 5.3 節所示。本文在5.4節中進一步展示了本文的模擬影片在訓練感知演算法中的應用,以驗證其實用價值。 Anything in Any Scene 框架能夠創建大規模、低成本的視訊資料集,用於具有時間效率和逼真視覺品質的資料增強,從而減輕視訊資料生成的負擔,並有可能改善長尾分佈和分佈外的挑戰。憑藉其通用的框架設計,Anything in Any Scene 框架可以輕鬆整合改進的模型和新模組,例如改進的 3D mesh 重建方法,進一步增強視訊模擬性能。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)圖 1. 光照環境估計錯誤、物體擺放位置錯誤和紋理風格不真實的模擬視訊影格範例,這些問題使得影像缺乏物理真實感。 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)圖 2. 用於逼真視訊物件插入的 Anything in Any Scene 框架概述Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)圖 3. 用於放置物件的駕駛場景影片範例。每幅影像中的紅點是物體插入的位置。

實驗結果

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

實驗結果

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

#圖4. 原始天空影像、重建的HDR 影像及其相關的太陽光照分佈圖的範例Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

圖5. 原始和重建的HDR 的環境全景影像範例Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

##圖6. 為插入的物體產生陰影的範例

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

圖7. 使用不同風格遷移網路對PandaSet 資料集的模擬影片影格進行定性比較。

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)圖 8. PandaSet 資料集的模擬視訊影格在各種渲染條件下的定性比較。

##################

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

總結:

本文提出了一個創新且可擴展的框架,」Anything in Any Scene",專為​​逼真的視訊仿真而設計。本文提出的框架將各種物件無縫整合到不同的動態影片中,確保保留幾何真實感、光線真實感和照片真實感。透過廣泛的演示,本文展示了其在緩解視訊資料收集和生成相關挑戰方面的功效,提供了適用於各種場景的經濟高效且省時的解決方案。本文的框架的應用在下游感知任務中顯示出顯著的改進,特別是在解決目標檢測中的長尾分佈問題方面。本文框架的靈活性允許直接整合每個模組的改進模型,本文的框架為逼真視訊模擬領域的未來探索和創新奠定了堅實的基礎。

引用:

Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509 , 2024.

#

以上是Anything in Any Scene:逼真物件插入(助力各類駕駛資料合成)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石特斯拉的Robovan是2024年的Robotaxi預告片中的隱藏寶石Apr 22, 2025 am 11:48 AM

自2008年以來,我一直倡導這輛共享乘車麵包車,即後來被稱為“ Robotjitney”,後來是“ Vansit”,這是城市運輸的未來。 我預見這些車輛是21世紀的下一代過境解決方案Surpas

Sam俱樂部在AI上押注以消除收據檢查並增強零售Sam俱樂部在AI上押注以消除收據檢查並增強零售Apr 22, 2025 am 11:29 AM

革新結帳體驗 Sam's Club的創新性“ Just Go”系統建立在其現有的AI驅動“掃描和GO”技術的基礎上,使會員可以在購物旅行期間通過Sam's Club應用程序進行掃描。

Nvidia的AI Omniverse在GTC 2025擴展Nvidia的AI Omniverse在GTC 2025擴展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增強可預測性和新產品陣容 NVIDIA是AI基礎架構的關鍵參與者,正在專注於提高其客戶的可預測性。 這涉及一致的產品交付,達到績效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:強大,高效的語言模型 Google的Gemma語言模型家族以效率和性能而慶祝,隨著Gemma 2的到來而擴展。此最新版本包括兩種模型:270億個參數VER

下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics Vidhya下一波《 Genai:與Kirk Borne博士的觀點》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

這一領先的數據劇集以數據科學家,天體物理學家和TEDX演講者Kirk Borne博士為特色。 Borne博士是大數據,AI和機器學習的著名專家,為當前狀態和未來的Traje提供了寶貴的見解

AI適合跑步者和運動員:我們取得了出色的進步AI適合跑步者和運動員:我們取得了出色的進步Apr 22, 2025 am 11:12 AM

這次演講中出現了一些非常有見地的觀點——關於工程學的背景信息,這些信息向我們展示了為什麼人工智能如此擅長支持人們的體育鍛煉。 我將從每位貢獻者的觀點中概括出一個核心思想,以展示三個設計方面,這些方面是我們探索人工智能在體育運動中應用的重要組成部分。 邊緣設備和原始個人數據 關於人工智能的這個想法實際上包含兩個組成部分——一個與我們放置大型語言模型的位置有關,另一個與我們人類語言和我們的生命體徵在實時測量時“表達”的語言之間的差異有關。 Alexander Amini 對跑步和網球都很了解,但他還

傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型傑米·恩格斯特羅姆(Jamie Engstrom)關於卡特彼勒的技術,人才和轉型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高級副總裁傑米·恩格斯特(Jamie Engstrom)領導了一支由28個國家 /地區的2200多名IT專業人員組成的全球團隊。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR質量的照片流行新的Google照片更新使任何具有Ultra HDR質量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增強照片,將標準圖像轉換為充滿活力的高動態範圍傑作。對於社交媒體而言,此工具可提高任何照片的影響,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中