首頁 >科技週邊 >人工智慧 >「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

WBOY
WBOY轉載
2023-09-12 16:05:021024瀏覽

在常見的影像編輯操作中,影像合成是指將一張圖片的前景物件與另一張背景圖片結合,產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上,如下圖所示

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用

透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中,影像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態,使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影

根據下圖所示,先前的研究工作以串行或並行的方式執行上述子任務,以獲得逼真自然的合成圖像。在串列框架中,我們可以根據實際需求有選擇性地執行部分子任務

在平行框架下,目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入,直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合,光照和陰影效果合理,姿態與背景相適應

這個平行框架相當於同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或顏色帶來不必要或不合理的改變

需要重寫的是:

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
# #為了增強平行框架的可控性並有選擇性地執行部分子任務,我們提出了可控影像合成模型Controllable Image Composition (ControlCom)。如下圖所示,我們使用一個指示向量作為擴散模型的條件訊息,以控制合成圖中前景物體的屬性。指示向量是一個二維的二值向量,其中每個維度分別控制是否調整前景物體的光照屬性和姿態屬性,其中1表示調整,0表示保留

具體來說,(0,0 )表示既不改變前景光照,也不改變前景姿態,只是將物體無縫融入背景圖片,相當於影像混合(image blending)。 (1,0)表示只改變前景光照使其與背景和諧,保留前景姿態,相當於影像和諧化(image harmonization)。 (0,1)表示只改變前景姿態使其與背景匹配,保留前景光照,相當於視角調整(view synthesis)。 (1,1)表示同時改變前景的光照和姿態,相當於現在的不可控平行影像合成

我們將四種任務納入同一個框架,透過指示向量實現了四合一物體傳送門的功能,可以將物件傳送到場景中的指定位置。這項工作是由上海交通大學和螞蟻集團合作完成的,程式碼和模型即將開源

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
請點擊以下連結查看論文:https://arxiv.org/ abs/2308.10040

程式碼模型連結:https://github.com/bcmi/ControlCom-Image-Composition

在下面的圖中,我們展示了可控圖像合成的功能

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
左邊一列,前景物體的姿態原本就和背景圖片適配,使用者可能希望保留前景物體的姿態。先前的方法 PbE [1]、ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態,將前景物體無縫融入背景圖片且光照和諧

右側的一列中,前景物體的光照本應與背景光照相同。過去的方法可能會導致前景物體的顏色發生意外的變化,例如車輛和服裝的顏色。我們的方法(版本0.1)能夠保留前景物體的顏色,並同時調整其姿態,使其自然地融入背景圖片中

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足使用者不同的需求。

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們需要重新寫的內容是:能夠實現四種功能的模型結構是什麼樣的呢?我們的方法採用了以下模型結構,模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特徵和指示向量結合到擴散模型中

我們重新提取了前景物體的全局特徵和局部特徵,並先融合全局特徵,再融合局部特徵。在局部融合的過程中,我們使用了對齊的前景特徵圖進行特徵調製,以實現更好的細節保留。同時,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物體的屬性

我們使用預訓練的穩定擴散演算法,基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務,我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息,請參閱論文

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成,所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示,PCTNet是一種影像和諧化方法,能夠保留物體的細節,但無法調整前景的姿態,也無法補足全前景物體。其他方法能夠產生相同種類的物體,但在細節保留方面效果較差,例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等

我們的方法相比之下能夠更好地保留前景物體的細節,補全不完整的前景物體,並且調整前景物體的光照、姿勢以及與背景的適配

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

這項工作是對可控影像合成的首次嘗試,任務非常困難,仍然存在許多不足之處,模型的表現不夠穩定和穩健。此外,除了光線和姿態之外,前景物體的屬性還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務

為了保持原意不變,需要重寫的內容是:參考文獻

楊,古,張,張,陳,孫,陳,文(2023年)。以範例為基礎的影像編輯與擴散模型。在CVPR中

[2] 宋永忠,張智,林志龍,科恩,S. D.,普萊斯,B. L.,張靜,金素英,阿里亞加,D. G. 2023。 ObjectStitch:生成式物件合成。在CVPR中

以上是「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除