Anything in Any Scene：逼真物件插入（助力各類駕駛資料合成）-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Anything in Any Scene：逼真物件插入（助力各類駕駛資料合成）

王林

Mar 06, 2024 pm 10:10 PM

影片模型影片編輯

原標題：Anything in Any Scene: Photorealistic Video Object Insertion

論文連結：https://arxiv.org/pdf/2401.17509.pdf

#程式碼連結：https ://github.com/AnythingInAnyScene/anything_in_anyscene

作者單位：小鵬汽車

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

論文想法想

#逼真的(realistic)視訊模擬(video simulation)在從虛擬實境到電影製作等各種應用領域都顯示出巨大的潛力。尤其是在現實世界中捕捉影片不切實際或成本高昂的情況下。視訊模擬中的現有方法通常無法準確地建模光照環境、表示物體幾何形狀或實現高水平的照片級真實感。本文提出了 Anything in Any Scene ，這是一種新穎且通用的真實視訊模擬框架，可將任何物件無縫插入現有的動態視訊中，並強調物理真實感。本文提出的整體框架包含三個關鍵過程：1）將真實的物體整合到給定的場景影片中，並放置適當的位置以確保幾何真實感(geometric realism)；2）估計天空和環境光照分佈並模擬真實陰影，增強光照真實感(light realism)；3）採用風格遷移網絡來細化最終的影片輸出，以最大限度地提高照片真實感(photorealism)。本文透過實驗證明 Anything in Any Scene 框架可以產生具有出色的幾何真實感、光照真實感和照片真實感的模擬影片。透過顯著緩解與視訊資料生成相關的挑戰，本文的框架為獲取高品質影片提供了高效且經濟高效的解決方案。此外，其應用遠遠超出了視訊資料增強的範圍，在虛擬實境、視訊編輯和各種其他以視訊為中心的應用中顯示出廣泛的潛力。

主要貢獻

本文引入了一個新穎且可擴展的 Anything in Any Scene 視訊模擬框架，能夠將任何物件整合到任何動態場景影片中。

這篇文章的結構獨具特色，著重於在視訊模擬中保持幾何、光照和照片的真實感，以確保輸出結果的高品質和真實性。

經過廣泛驗證，結果顯示該框架具備製作高度逼真視訊模擬的能力，從而顯著拓展了該領域的應用範圍和發展潛力。

論文設計

影像和視訊模擬在從虛擬實境到電影製作的各種應用中都取得了成功。透過逼真的影像和視訊模擬產生多樣化和高品質的視覺內容的能力具有推動這些領域發展的潛力，能夠引入新的可能性和應用。儘管在現實世界中捕捉的影像和影片的真實性非常寶貴，但它們經常受到長尾分佈的限制。這導致常見場景的代表性過高，而罕見但關鍵的情況的代表性不足，從而提出了稱為 out-of-distribution problem 的挑戰。透過視訊擷取和編輯來解決這些限制的傳統方法被證明是不切實際的或成本過高，因為難以涵蓋所有可能的情況。視訊模擬的重要性，特別是透過將現有視訊與新插入的物體相集成，對於克服這些挑戰變得至關重要。透過產生大規模、多樣化和逼真的視覺內容，視訊模擬有助於增強虛擬實境、影片編輯和視訊資料增強方面的應用。

然而，考慮物理真實性生成逼真的模擬影片仍然是一個具有挑戰性的開放問題。現有方法通常因專注於特定設定而表現出局限性，特別是室內環境[9,26,45,46,57]。這些方法可能無法充分解決室外場景的複雜性，包括不同的光照條件和快速移動的物體。依賴 3D 模型配準的方法僅限於整合有限類別的物件 [12,32,40,42]。許多方法忽略了一些重要因素，例如光照環境建模、正確的物件放置和實現真實感 [12, 36]。失敗的案例如圖 1 所示。因此，這些限制極大地限制了它們在需要高度可擴展、幾何一致和真實場景視訊模擬的領域（例如自動駕駛和機器人）中的應用。

本文提出了一個用於解決這些挑戰的逼真視訊物件插入的綜合框架 Anything in Any Scene。此框架設計具有通用性，適用於室內和室外場景，確保幾何真實感、光照真實感和照片真實感等方面的物理準確性。本文的目標是創建視訊仿真，不僅有利於機器學習中的視覺數據增強，而且適用於各種視訊應用，例如虛擬實境和視訊編輯。

本文的 Anything in Any Scene 框架的概述如圖 2 所示。本文在第 3 節中詳細介紹了本文新穎且可擴展的流程，用於建構場景視訊和物件網格(object mesh)的多樣化資產庫。本文介紹了一種視覺資料查詢引擎，旨在利用描述性關鍵字從視覺查詢中高效檢索相關影片片段。接下來，本文提出兩種產生 3D meshes 的方法，利用現有 3D 資產以及多視圖影像重建。這允許不受限制地插入任何所需的物體，即使它非常不規則或語義較弱。在第 4 節中，本文詳細介紹了將物件整合到動態場景影片中的方法，重點是保持物理真實感。本文設計了第 4.1 節中描述的物體放置和穩定方法，確保插入的物體穩定地錨定(anchored)在連續的視頻幀上。為了解決創建逼真的光照和陰影效果的挑戰，本文估計天空和環境光照並在渲染過程中產生逼真的陰影，如第 4.2 節所述。產生的模擬視訊幀不可避免地包含與現實世界捕獲的視訊不同的不切實際的偽影，例如雜訊水平、色彩保真度和清晰度方面的成像品質差異。本文在 4.3 節中採用風格遷移網路來增強照片真實感。

從本文提出的框架產生的模擬視頻達到了高度的光照真實感、幾何真實感和照片真實感，在質量和數量上都優於其他視頻，如第 5.3 節所示。本文在5.4節中進一步展示了本文的模擬影片在訓練感知演算法中的應用，以驗證其實用價值。 Anything in Any Scene 框架能夠創建大規模、低成本的視訊資料集，用於具有時間效率和逼真視覺品質的資料增強，從而減輕視訊資料生成的負擔，並有可能改善長尾分佈和分佈外的挑戰。憑藉其通用的框架設計，Anything in Any Scene 框架可以輕鬆整合改進的模型和新模組，例如改進的 3D mesh 重建方法，進一步增強視訊模擬性能。

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）圖 1. 光照環境估計錯誤、物體擺放位置錯誤和紋理風格不真實的模擬視訊影格範例，這些問題使得影像缺乏物理真實感。圖 2. 用於逼真視訊物件插入的 Anything in Any Scene 框架概述 Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）圖 3. 用於放置物件的駕駛場景影片範例。每幅影像中的紅點是物體插入的位置。

實驗結果

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

實驗結果

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

#圖4. 原始天空影像、重建的HDR 影像及其相關的太陽光照分佈圖的範例 Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

圖5. 原始和重建的HDR 的環境全景影像範例 Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

##圖6. 為插入的物體產生陰影的範例

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

圖7. 使用不同風格遷移網路對PandaSet 資料集的模擬影片影格進行定性比較。

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）圖 8. PandaSet 資料集的模擬視訊影格在各種渲染條件下的定性比較。

##################

Anything in Any Scene：逼真物体插入（助力各类驾驶数据合成）

總結：

本文提出了一個創新且可擴展的框架，」Anything in Any Scene"，專為逼真的視訊仿真而設計。本文提出的框架將各種物件無縫整合到不同的動態影片中，確保保留幾何真實感、光線真實感和照片真實感。透過廣泛的演示，本文展示了其在緩解視訊資料收集和生成相關挑戰方面的功效，提供了適用於各種場景的經濟高效且省時的解決方案。本文的框架的應用在下游感知任務中顯示出顯著的改進，特別是在解決目標檢測中的長尾分佈問題方面。本文框架的靈活性允許直接整合每個模組的改進模型，本文的框架為逼真視訊模擬領域的未來探索和創新奠定了堅實的基礎。

引用:

Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509 , 2024.

以上是Anything in Any Scene：逼真物件插入（助力各類駕駛資料合成）的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

無法使用chatgpt！解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問？本文提供多種實用解決方案！許多用戶在日常使用ChatGPT時，可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況，逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查首先，我們需要確定問題是出在OpenAI服務器端，還是用戶自身網絡或設備問題。請按照以下步驟進行排查：步驟1：檢查OpenAI官方狀態訪問OpenAI Status頁面 (status.openai.com)，查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報，則表示Open

計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日，麻省理工學院物理學家Max Tegmark告訴《衛報》，AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數'，這是一場比賽的可能性

AI音樂創作技術日新月異，本文將以ChatGPT等AI模型為例，詳細講解如何利用AI輔助音樂創作，並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。通過這些技術，每個人都能輕鬆創作原創音樂。但需注意，AI生成內容的版權問題不容忽視，使用時務必謹慎。讓我們一起探索AI在音樂領域的無限可能！ OpenAI最新AI代理“OpenAI Deep Research”介紹： [ChatGPT]Ope

什麼是chatgpt-4？對您可以做什麼，定價以及與GPT-3.5的差異的詳盡解釋！May 14, 2025 am 05:00 AM

ChatGPT-4的出现，极大地拓展了AI应用的可能性。相较于GPT-3.5，ChatGPT-4有了显著提升，它具备强大的语境理解能力，还能识别和生成图像，堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域，它都展现出巨大的潜力。然而，与此同时，我们也必须注意其使用上的注意事项。本文将详细解读ChatGPT-4的特性，并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧，敬请参考。 OpenAI发布的最新AI代理，“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序！日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序：與AI助手釋放您的創造力！初學者指南 ChatGpt應用程序是一位創新的AI助手，可處理各種任務，包括寫作，翻譯和答案。它是一種具有無限可能性的工具，可用於創意活動和信息收集。在本文中，我們將以一種易於理解的方式解釋初學者，從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能，以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt？註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版：解鎖中文AI對話新體驗 ChatGPT風靡全球，您知道它也提供中文版本嗎？這款強大的AI工具不僅支持日常對話，還能處理專業內容，並兼容簡體中文和繁體中文。無論是中國地區的使用者，還是正在學習中文的朋友，都能從中受益。本文將詳細介紹ChatGPT中文版的使用方法，包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇，並分析潛在風險及應對策略。此外，我們還將對比ChatGPT中文版和其他中文AI工具，幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話，您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍，這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動，而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋！ Chatgpt在各種情況下都使用，但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶，使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點，例如業務和私人使用差異，並遵守OpenAI的使用條款，並提供指南，以幫助您安全地利用多個帳戶。 Openai

See all articles