首頁 >科技週邊 >人工智慧 >300多篇相關研究，復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究，復旦、南洋理工最新多模態影像編輯綜述論文

PHPz原創: 2024-06-29 06:14:41620瀏覽

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

該文章的第一作者帥欣成，目前在復旦大學FVL實驗室攻讀博士學位，畢業於上海交通大學。他的主要研究方向包括影像和影片編輯以及多模態學習。

前言

本文提出了解決一般性編輯任務的統一框架！近期，復旦大學 FVL 實驗室和南洋理工大學的研究人員對於多模態引導的基於文生圖大模型的影像編輯演算法進行了總結和回顧。綜述涵蓋 300 多篇相關研究，研究的最新模型截止至今年 6 月！此綜述拓展了關於控制條件（自然語言，影像，使用者介面）和編輯任務的討論（物件/ 屬性操作、空間變換、inpainting、風格轉換、影像翻譯，主體/ 屬性客製化），以從更新穎和更一般性的角度全面的探討編輯方法。此外，本綜述提出的統一框架將編輯過程表示為不同演算法族的組合，並透過全面的定性和定量實驗來說明各種組合的特性以及適應場景。該框架提供了友善的設計空間以滿足用戶不同的需求，並為研究者提供了一定的參考以開發新的演算法。

摘要

影像編輯旨在根據使用者的特定需求編輯給定的合成影像或真實影像。作為人工智慧生成內容（AIGC）領域中一個有前景且具有挑戰性的領域，影像編輯得到了廣泛研究。近期，大規模文生圖（T2I）擴散模型驅動了影像編輯技術的發展。這些模型根據文字提示生成圖像，展示了驚人的生成能力，已成為圖像編輯的常用工具。基於 T2I 的影像編輯方法顯著提升了編輯效能，為使用者提供了使用多模態條件引導進行內容修改的介面。我們對基於 T2I 擴散模型的多模態引導下的影像編輯技術進行了全面回顧。首先，我們從更一般性的角度定義了影像編輯任務的範圍，並詳細描述了各種控制訊號和編輯場景。然後，我們提出了一個統一框架來形式化編輯過程，將其表示為兩個演算法族的組合。這個框架為使用者提供了一個設計空間，以實現特定目標。接著，我們對該框架內的每個組件進行了深入分析，研究了不同組合的特性和適用場景。由於基於訓練的方法直接學習將來源影像映射到目標影像，我們對這些方法進行了單獨討論，並介紹了不同場景下來源影像的注入方案。此外，我們也回顧了 2D 技術在影片編輯中的應用，重點介紹了解決幀間不一致性的問題。最後，我們也討論了該領域的開放性挑戰，並提出了潛在的未來研究方向。

300多篇相關研究，復旦、南洋理工最新多模態影像編輯綜述論文

論文題目：A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
發表單位：復旦大學FVL 實驗室，南洋理工大學
發表單位：復旦大學FVL 實驗室，南洋理工大學
.org/abs/2406.14555

專案地址：https://github.com/xinchengshuai/Awesome-Image-Editing

1研究動機

1.1，在現實生活中，人們對於可控的、高品質的智慧化影像編輯工具的需求日益增加，因此有必要係統地總結與對比這個方向的方法與技術特點。

1.2，目前的編輯演算法與相關的綜述都將編輯場景局限於保留影像中的大部分與編輯無關的低階語義訊息，為此需要擴展編輯任務的範圍，從更具有一般性的視角討論編輯任務。

1.3，由於需求和場景具有多樣性，有必要將編輯過程形式化為一個統一框架，並為使用者提供一個設計空間來適應不同的編輯目標。

2．綜述亮點，與目前編輯綜述有何不同？

2.1 關於編輯任務的定義與討論範圍。相較於現有的演算法以及先前的編輯綜述，本文對於影像編輯任務的定義更加廣泛。具體的，本文將編輯任務分為 content-aware 和 content-free 場景群組。其中 content-aware 組內的場景為先前的文獻所討論的主要任務，它們的共通性是保留圖像中的一些低階語義特徵，如編輯無關區域的像素內容，或圖像結構。此外，我們開創性地將客製化任務（customization）納入到content-free 場景組中，將這一類保留高級語義（如主體身份信息，或者其他細粒度屬性）的任務作為對常規的編輯場景的補充。 300多篇相關研究，復旦、南洋理工最新多模態影像編輯綜述論文

性編輯演算法的統一框架。由於編輯場景的多樣性，現有的演算法無法很好的解決所有的需求。因此我們將現有的編輯過程形式化為一個統一的框架，將其表示為兩個演算法族的組合。此外我們也透過定性和定量實驗分析了不同組合的特性與適應場景，為使用者提供了一個良好的設計空間以適應不同的編輯目標。同時，該框架也為研究者提供了一個較好的參考，以設計出表現更優的演算法。

2.3 討論的全面性。我們研究了 300 多篇的相關論文，系統性且全面地闡述了各種模態的控制訊號在不同情境下的應用。對於基於訓練的編輯方法，本文也提供了在各種場景下將來源影像注入 T2I 模型的策略。此外，我們也探討了影像編輯技術在影片領域的應用，使得讀者能夠快速的理解不同領域間編輯演算法的連結。

3．一般性編輯演算法的統一框架

^{圖 2. 一般編輯演算法的統一架構}
ion 進行演算法
, Ed
3.1 Inversion 演算法。 Inversion 演算法
將來源影像集合
編碼到特定的特徵或參數空間，得到對應的表徵
（inversion clue），並以對應的來源文字描述
作為來源影像的識別碼。包括 tuning-based
和 forward-based兩種類型的 inversion 演算法。其可以形式化為：Tuning-based inversion透過原有的 diffusion 訓練過程將來源影像集合植入擴散模型的生成分佈中。形式化過程為：
其中
為引入的可學習的參數，且
。

Forward-based inversion
用於在擴散模型的反向過程中（
）還原某一條前向路徑中的噪音（
）。形式化過程為：
其中為方法中引入的參數，用於最小化，其中，。

3.2.Editing 演算法。 Editing 演算法根據和多模態引導集合來產生最終的編輯結果。包含 attention-based，blending-based，score-based以及 optimization-based的 editing 演算法。其可以被形式化為：

特別地，對於每一步的反向過程，進行瞭如下操作：

其中中的操作表示編輯演算法對於擴散模型的取樣，用於確保編輯後的影像與來源影像集合的一致性，並反應出中引導條件所指明的視覺變換。

特別地，我們將無幹預的編輯過程視作為普通版本的編輯演算法
。其形式化為:
Attention-based editing的形式化過程:

Blending-based editing的形式化過程:
🎎 based editing
的形式化過程:
3.3 Training-Based 的編輯方法。與 training-free 的方法不同的是，training-based 演算法透過在任務特定的資料集中直接學習來源影像集合到編輯影像的映射。這一類演算法可以看作是 tuning-based inversion 的擴展，即透過額外引入的參數將來源影像編碼到生成分佈中。在這類演算法中，最重要的是如何將來源影像注入 T2I 模型中，以下是針對不同編輯場景的注入方案。

Content-aware 任務的注入方案：

Content-free 任務的注入方案：

圖3. Content-free 任務的注入方案
統一架構在多模態編輯任務中的應用

本文透過定性實驗說明了各個組合在多模態編輯任務中的應用：
圖4. 關於attention-based editing

的演算法組合的應用

的演算法組合的應用
^{圖6.score-based editing}
圖 7.中關於optimization-based editing

詳細分析請查閱原始論文。

5．不同組合在文字引導編輯場景下的比較

對於常見的文本引導的編輯任務，本文透過設計了多個具有挑戰性的定性實驗，以說明不同組合所適合的編輯場景。此外，本文也相應地收集了高品質和具有一定難度的資料集，以定量地說明各種組合中的先進演算法在不同場景下的表現。
對於 content-aware 任務，我們主要考慮物件操作（增 / 刪除 / 替換），屬性改變，風格遷移。特別地，我們考慮了具有挑戰性的實驗設定：1. 多目標編輯。 2. 對於影像的語意佈局影響較大的用例。我們也收集了這些複雜場景的高品質圖片，並對不同組合中的先進演算法進行全面定量比較。

圖 8.Contum 一樣使用
結果分析以及更多實驗結果請查閱原始論文。

^{對於 content-free 任務，我們主要考慮基於主體驅動的（subject-driven）客製化任務。並考慮了多種場景，如更換背景，與物體交互，行為改變，以及風格改變。我們也定義了大量的文字引導模板，並對各個方法的整體表現進行定量分析。}
結果分析以及更多實驗結果請查閱原始論文。
6．未來可以研究的方向

此外本文也給了一些關於未來研究方向的分析。這裡以 content-aware 任務和 content-free 任務的挑戰為例。

6.1. Content-aware 任務的挑戰。對於 content-aware 編輯任務的挑戰，現有方法無法同時處理多種編輯場景和控制訊號。這項限制迫使應用在不同任務之間切換合適的後端演算法。此外，一些高級方法在易用性方面不友善。某些方法需要使用者調整關鍵參數以獲得最佳結果，而其他方法則需要繁瑣的輸入，例如來源和目標提示，或輔助遮罩。

6.2.Content-free 任務的挑戰。對於 content-free 編輯任務，現有方法在測試時調優過程冗長且存在過擬合問題。一些研究旨在透過優化少量參數或從頭開始訓練模型來緩解這個問題。然而，它們常常會失去個性化主體的細節，或表現出較差的泛化能力。此外，目前方法在從少量圖像中提取抽象概念方面也有所不足，它們無法完全將所需概念與其他視覺元素分開。

了解更多研究方向內容可以查閱原始論文。