搜尋
首頁科技週邊人工智慧多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

近期 OpenAI 發布的 DALLE-2 和Google發布的 Imagen 等實現了令人驚嘆的文字到圖像的生成效果,引發了廣泛關注並且衍生出了很多有趣的應用。而文字到影像的生成屬於多模態影像合成與編輯領域的典型任務。近日,來自馬普所和南洋理工等機構的研究人員對多模態影像合成與編輯這一大領域的研究現況與未來發展做了詳細的調查與分析。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述


  • #論文網址:https://arxiv.org/pdf/2112.13592 .pdf
  • 計畫網址:https://github.com/fnzhan/MISE


多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

##在第一章節,該綜述描述了多模態影像合成與編輯任務的意義和整體發展,以及本論文的貢獻與總體結構。

在第二章節,根據引導圖片合成與編輯的資料模態,這篇綜述論文介紹了比較常用的視覺引導(例如語義圖,關鍵點圖,邊緣圖),文字引導,語音引導,場景圖(scene graph)引導和對應模態資料的處理方法以及統一的表示框架。

在第三章節,根據圖像合成與編輯的模型框架,該論文對目前的各種方法進行了分類,包括基於GAN 的方法,自回歸方法,擴散模型方法,和神經輻射場(NeRF)方法。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

由於基於GAN 的方法一般使用條件GAN 和無條件GAN 反演,因此該論文將這一類別進一步分為模態內條件(例如語義圖,邊緣圖),跨模態條件(例如文字和語音),和GAN 反演(統一模態)並進行了詳細描述。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

相比於基於GAN 的方法,自迴歸模型方法能夠更自然的處理多模態數據,以及利用目前流行的Transformer 模型。自迴歸方法一般先學習一個向量量化編碼器將圖片離散地表示為 token 序列,然後自回歸式建模 token 的分佈。由於文字和語音等數據都能表示為 token 並作為自回歸建模的條件,因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述


多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述

#近期,火熱的擴散模型也廣泛應用於多模態合成與編輯任務。例如效果驚人的 DALLE-2 和 Imagen 都是基於擴散模型實現的。相較於 GAN,擴散式生成模型擁有一些良好的性質,例如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述


多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述#

以上方法主要聚焦於 2D 影像的多模態合成與編輯。近期隨著神經輻射場(NeRF)的快速發展,3D 感知的多模態合成與編輯也吸引了越來越多的關注。由於需要考慮多視角一致性,3D 感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景最佳化 NeRF,生成式 NeRF 與 NeRF 反演的三種方法對現有工作進行了分類與總結。

隨後,該綜述對上述四種模型方法的進行了比較和討論。整體而言,相較於 GAN,目前最先進的模型更加偏好自回歸模型和擴散模型。而 NeRF 在多模態合成與編輯任務的應用為這個領域的研究開啟了一扇新的窗戶。

多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述


在第四章節,該綜述匯集了多模態合成與編輯領域流行的數據集以及相應的模態標註,並且針對各模態典型任務(語義圖像合成,文字到圖像合成,語音引導圖像編輯)對當前方法進行了定量的比較。

在第五章節,該綜述對此領域目前的挑戰和未來方向進行了探討和分析,包括大規模的多模態資料集,準確可靠的評估指標,高效率的網路架構,以及3D 感知的發展方向。

在第六和第七章節,該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。

以上是多模態影像合成與編輯這麼火,馬普所、南洋理工等出了份詳細綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。