原標題:Anything in Any Scene: Photorealistic Video Object Insertion
論文連結:https://arxiv.org/pdf/2401.17509.pdf
#程式碼連結:https ://github.com/AnythingInAnyScene/anything_in_anyscene
作者單位:小鵬汽車
論文想法想
#逼真的(realistic)視訊模擬(video simulation)在從虛擬實境到電影製作等各種應用領域都顯示出巨大的潛力。尤其是在現實世界中捕捉影片不切實際或成本高昂的情況下。視訊模擬中的現有方法通常無法準確地建模光照環境、表示物體幾何形狀或實現高水平的照片級真實感。本文提出了 Anything in Any Scene ,這是一種新穎且通用的真實視訊模擬框架,可將任何物件無縫插入現有的動態視訊中,並強調物理真實感。本文提出的整體框架包含三個關鍵過程:1)將真實的物體整合到給定的場景影片中,並放置適當的位置以確保幾何真實感(geometric realism);2)估計天空和環境光照分佈並模擬真實陰影,增強光照真實感(light realism);3)採用風格遷移網絡來細化最終的影片輸出,以最大限度地提高照片真實感(photorealism)。本文透過實驗證明 Anything in Any Scene 框架可以產生具有出色的幾何真實感、光照真實感和照片真實感的模擬影片。透過顯著緩解與視訊資料生成相關的挑戰,本文的框架為獲取高品質影片提供了高效且經濟高效的解決方案。此外,其應用遠遠超出了視訊資料增強的範圍,在虛擬實境、視訊編輯和各種其他以視訊為中心的應用中顯示出廣泛的潛力。
主要貢獻
本文引入了一個新穎且可擴展的 Anything in Any Scene 視訊模擬框架,能夠將任何物件整合到任何動態場景影片中。
這篇文章的結構獨具特色,著重於在視訊模擬中保持幾何、光照和照片的真實感,以確保輸出結果的高品質和真實性。
經過廣泛驗證,結果顯示該框架具備製作高度逼真視訊模擬的能力,從而顯著拓展了該領域的應用範圍和發展潛力。
論文設計
影像和視訊模擬在從虛擬實境到電影製作的各種應用中都取得了成功。透過逼真的影像和視訊模擬產生多樣化和高品質的視覺內容的能力具有推動這些領域發展的潛力,能夠引入新的可能性和應用。儘管在現實世界中捕捉的影像和影片的真實性非常寶貴,但它們經常受到長尾分佈的限制。這導致常見場景的代表性過高,而罕見但關鍵的情況的代表性不足,從而提出了稱為 out-of-distribution problem 的挑戰。透過視訊擷取和編輯來解決這些限制的傳統方法被證明是不切實際的或成本過高,因為難以涵蓋所有可能的情況。視訊模擬的重要性,特別是透過將現有視訊與新插入的物體相集成,對於克服這些挑戰變得至關重要。透過產生大規模、多樣化和逼真的視覺內容,視訊模擬有助於增強虛擬實境、影片編輯和視訊資料增強方面的應用。
然而,考慮物理真實性生成逼真的模擬影片仍然是一個具有挑戰性的開放問題。現有方法通常因專注於特定設定而表現出局限性,特別是室內環境[9,26,45,46,57]。這些方法可能無法充分解決室外場景的複雜性,包括不同的光照條件和快速移動的物體。依賴 3D 模型配準的方法僅限於整合有限類別的物件 [12,32,40,42]。許多方法忽略了一些重要因素,例如光照環境建模、正確的物件放置和實現真實感 [12, 36]。失敗的案例如圖 1 所示。因此,這些限制極大地限制了它們在需要高度可擴展、幾何一致和真實場景視訊模擬的領域(例如自動駕駛和機器人)中的應用。
本文提出了一個用於解決這些挑戰的逼真視訊物件插入的綜合框架 Anything in Any Scene。此框架設計具有通用性,適用於室內和室外場景,確保幾何真實感、光照真實感和照片真實感等方面的物理準確性。本文的目標是創建視訊仿真,不僅有利於機器學習中的視覺數據增強,而且適用於各種視訊應用,例如虛擬實境和視訊編輯。
本文的 Anything in Any Scene 框架的概述如圖 2 所示。本文在第 3 節中詳細介紹了本文新穎且可擴展的流程,用於建構場景視訊和物件網格(object mesh)的多樣化資產庫。本文介紹了一種視覺資料查詢引擎,旨在利用描述性關鍵字從視覺查詢中高效檢索相關影片片段。接下來,本文提出兩種產生 3D meshes 的方法,利用現有 3D 資產以及多視圖影像重建。這允許不受限制地插入任何所需的物體,即使它非常不規則或語義較弱。在第 4 節中,本文詳細介紹了將物件整合到動態場景影片中的方法,重點是保持物理真實感。本文設計了第 4.1 節中描述的物體放置和穩定方法,確保插入的物體穩定地錨定(anchored)在連續的視頻幀上。為了解決創建逼真的光照和陰影效果的挑戰,本文估計天空和環境光照並在渲染過程中產生逼真的陰影,如第 4.2 節所述。產生的模擬視訊幀不可避免地包含與現實世界捕獲的視訊不同的不切實際的偽影,例如雜訊水平、色彩保真度和清晰度方面的成像品質差異。本文在 4.3 節中採用風格遷移網路來增強照片真實感。
從本文提出的框架產生的模擬視頻達到了高度的光照真實感、幾何真實感和照片真實感,在質量和數量上都優於其他視頻,如第 5.3 節所示。本文在5.4節中進一步展示了本文的模擬影片在訓練感知演算法中的應用,以驗證其實用價值。 Anything in Any Scene 框架能夠創建大規模、低成本的視訊資料集,用於具有時間效率和逼真視覺品質的資料增強,從而減輕視訊資料生成的負擔,並有可能改善長尾分佈和分佈外的挑戰。憑藉其通用的框架設計,Anything in Any Scene 框架可以輕鬆整合改進的模型和新模組,例如改進的 3D mesh 重建方法,進一步增強視訊模擬性能。
圖 1. 光照環境估計錯誤、物體擺放位置錯誤和紋理風格不真實的模擬視訊影格範例,這些問題使得影像缺乏物理真實感。
圖 2. 用於逼真視訊物件插入的 Anything in Any Scene 框架概述
圖 3. 用於放置物件的駕駛場景影片範例。每幅影像中的紅點是物體插入的位置。
實驗結果
#圖4. 原始天空影像、重建的HDR 影像及其相關的太陽光照分佈圖的範例
圖5. 原始和重建的HDR 的環境全景影像範例
圖 8. PandaSet 資料集的模擬視訊影格在各種渲染條件下的定性比較。
總結:
本文提出了一個創新且可擴展的框架,」Anything in Any Scene",專為逼真的視訊仿真而設計。本文提出的框架將各種物件無縫整合到不同的動態影片中,確保保留幾何真實感、光線真實感和照片真實感。透過廣泛的演示,本文展示了其在緩解視訊資料收集和生成相關挑戰方面的功效,提供了適用於各種場景的經濟高效且省時的解決方案。本文的框架的應用在下游感知任務中顯示出顯著的改進,特別是在解決目標檢測中的長尾分佈問題方面。本文框架的靈活性允許直接整合每個模組的改進模型,本文的框架為逼真視訊模擬領域的未來探索和創新奠定了堅實的基礎。
引用:
Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509 , 2024.
以上是Anything in Any Scene:逼真物件插入(助力各類駕駛資料合成)的詳細內容。更多資訊請關注PHP中文網其他相關文章!
![無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用