在 AIGC 的神奇世界裡,我們可以在影像上透過「拖曳」的方式,改變並合成自己想要的影像。例如讓一頭獅子轉頭並張嘴:
#實現這一效果的研究出自華人一作領銜的「Drag Your GAN」論文,於上個月放出並已被SIGGRAPH 2023 會議接收。
一個多月過去了,研究團隊在近日放出了官方程式碼。短短三天時間,Star 量便已突破了 23k,足可見其火爆程度。
圖片
GitHub 網址:https://github.com/XingangPan/DragGAN
#無獨有偶,今日又有一項類似的研究- DragDiffusion 進入了人們的視線。先前的 DragGAN 實現了基於點的互動式影像編輯,並取得像素級精度的編輯效果。但是也有不足,DragGAN 是基於生成對抗網路(GAN),通用性會受到預訓練 GAN 模型容量的限制。
在新研究中,新加坡國立大學和位元組跳動的幾位研究者將這類編輯框架擴展到了擴散模型,提出了 DragDiffusion。他們利用大規模預訓練擴散模型,極大地提升了基於點的互動式編輯在現實世界場景中的適用性。
雖然現在大多數基於擴散的影像編輯方法都適用於文字嵌入,但 DragDiffusion 優化了擴散潛在表示,實現了精確的空間控制。
圖片
研究者表示,擴散模型以迭代方式產生影像,而「一步」優化擴散潛在表示足以產生連貫結果,使DragDiffusion 高效完成了高品質編輯。
他們在各種具有挑戰性的場景(如多物件、不同物件類別)下進行了廣泛實驗,驗證了 DragDiffusion 的可塑性和通用性。相關程式碼也將很快放出、
下面我們來看看 DragDiffusion 效果如何。
首先,我們想讓下圖中的小貓咪的頭再抬高一點,用戶只需將紅色的點拖曳至藍色的點就可以了:
接下來,我們想讓山峰變得再高一點,也沒有問題,拖曳紅色關鍵點就可以了:
圖片
也想讓雕塑的頭像轉個頭,拖曳一下就能辦到:
#圖片
讓岸邊的花,開的範圍更廣一點:
本文提出的DRAGDIFFUSION 旨在優化特定的擴散潛變量,以實現可交互的、基於點的圖像編輯。
為了實現這一目標,研究首先在擴散模型的基礎上微調 LoRA,以重建使用者輸入影像。這樣做可以確保輸入、輸出影像的風格保持一致。
接下來,研究者對輸入影像採用 DDIM inversion(這是一種探索擴散模型的逆變換和潛在空間操作的方法),以獲得特定步驟的擴散潛變數。
在編輯過程中,研究者反覆運用動作監督和點跟踪,以優化先前獲得的第t 步擴散潛變量,從而將處理點的內容「拖曳(drag )”到目標位置。編輯過程也套用了正規化項,以確保影像的未遮罩區域保持不變。
最後,透過 DDIM 對最佳化後的第 t 步潛變數進行去噪,得到編輯後的結果。整體概覽圖如下所示:
圖片
給定一張輸入影像,DRAGDIFFUSION 將關鍵點(紅色)的內容「拖曳」到對應的目標點(藍色)。例如圖(1)中,將小狗的頭轉過來,圖(7)將老虎的嘴巴合上等等。
圖片
以下是更多範例示範。如圖(4)將山峰變高,圖(7)將筆頭變大等等。
圖片
#以上是DragGAN開源三天Star量23k,這又來一個DragDiffusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!