本文將介紹一種透過BEV Sketch佈局來精確產生多視角街景圖片的方法
#在自動駕駛領域,影像合成被廣泛應用於提升下游感知任務的表現
在電腦視覺領域,提升感知模型表現的一個長期存在的研究難題是透過合成圖像來實現。在以視覺為中心的自動駕駛系統中,使用多視角攝像頭,這個問題變得更加突出,因為有些長尾場景是永遠無法收集到的
根據圖1(a)所示,現有的生成方法將語義分割風格的BEV結構輸入生成網絡,並輸出合理的多視角影像。僅根據場景層級指標進行評估時,現有方法似乎能合成照片般逼真的街景影像。然而,一旦放大,我們發現它無法產生準確的物件層級的細節。圖中,我們展示了目前最先進生成演算法的一個常見錯誤,即生成的車輛與目標3D邊界框相比方向完全相反。此外,編輯語意分割樣式的BEV結構是一項艱鉅的任務,需要大量人力
因此,我們提出了一種名為BEVControl的兩階段方法,用於提供更精細的背景和前景幾何控制,如圖1(b)所示。 BEVControl支援草圖風格的BEV結構輸入,可以實現快速簡單的編輯。此外,我們的BEVControl將視覺一致性分解為兩個子目標:透過控制器(Controller)實現街道視圖和鳥瞰視圖之間的幾何一致性;透過協調器(Coordinator)實現街道視圖之間的外觀一致性
論文連結:https://www.php.cn/link/1531beb762df4029513ebf9295e0d34f
#輸出:產生的多視圖影像。
協調器:利用一種新穎的跨視圖、跨元素的注意力機制,實現跨視圖的上下文交互,輸出具有外觀一致性的街景特徵。
需要重寫的內容是:參考文獻
需要重寫的內容是:[1] Swerdlow A, Xu R, Zhou B. 從鳥瞰佈局產生街景圖像[ J]. arXiv預印本arXiv:2301.04634, 2023.
以上是背景與前景控制更加精細,編輯更加快速:BEVControl的兩階段方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!