多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

PHPz

Apr 09, 2023 pm 10:31 PM

影像模型

近期 OpenAI 發布的 DALLE-2 和Google發布的 Imagen 等實現了令人驚嘆的文字到圖像的生成效果，引發了廣泛關注並且衍生出了很多有趣的應用。而文字到影像的生成屬於多模態影像合成與編輯領域的典型任務。近日，來自馬普所和南洋理工等機構的研究人員對多模態影像合成與編輯這一大領域的研究現況與未來發展做了詳細的調查與分析。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

#論文網址：https://arxiv.org/pdf/2112.13592 .pdf
計畫網址：https://github.com/fnzhan/MISE

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

##在第一章節，該綜述描述了多模態影像合成與編輯任務的意義和整體發展，以及本論文的貢獻與總體結構。

在第二章節，根據引導圖片合成與編輯的資料模態，這篇綜述論文介紹了比較常用的視覺引導（例如語義圖，關鍵點圖，邊緣圖），文字引導，語音引導，場景圖（scene graph）引導和對應模態資料的處理方法以及統一的表示框架。

在第三章節，根據圖像合成與編輯的模型框架，該論文對目前的各種方法進行了分類，包括基於GAN 的方法，自回歸方法，擴散模型方法，和神經輻射場（NeRF）方法。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

由於基於GAN 的方法一般使用條件GAN 和無條件GAN 反演，因此該論文將這一類別進一步分為模態內條件（例如語義圖，邊緣圖），跨模態條件（例如文字和語音），和GAN 反演（統一模態）並進行了詳細描述。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

相比於基於GAN 的方法，自迴歸模型方法能夠更自然的處理多模態數據，以及利用目前流行的Transformer 模型。自迴歸方法一般先學習一個向量量化編碼器將圖片離散地表示為 token 序列，然後自回歸式建模 token 的分佈。由於文字和語音等數據都能表示為 token 並作為自回歸建模的條件，因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

#近期，火熱的擴散模型也廣泛應用於多模態合成與編輯任務。例如效果驚人的 DALLE-2 和 Imagen 都是基於擴散模型實現的。相較於 GAN，擴散式生成模型擁有一些良好的性質，例如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述 #

以上方法主要聚焦於 2D 影像的多模態合成與編輯。近期隨著神經輻射場（NeRF）的快速發展，3D 感知的多模態合成與編輯也吸引了越來越多的關注。由於需要考慮多視角一致性，3D 感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景最佳化 NeRF，生成式 NeRF 與 NeRF 反演的三種方法對現有工作進行了分類與總結。

隨後，該綜述對上述四種模型方法的進行了比較和討論。整體而言，相較於 GAN，目前最先進的模型更加偏好自回歸模型和擴散模型。而 NeRF 在多模態合成與編輯任務的應用為這個領域的研究開啟了一扇新的窗戶。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

在第四章節，該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標註，並且針對各模態典型任務（語義圖像合成，文字到圖像合成，語音引導圖像編輯）對當前方法進行了定量的比較。

在第五章節，該綜述對此領域目前的挑戰和未來方向進行了探討和分析，包括大規模的多模態資料集，準確可靠的評估指標，高效率的網路架構，以及3D 感知的發展方向。

在第六和第七章節，該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

以上是多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A