搜尋
首頁科技週邊人工智慧多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

近年來,影像生成技術取得了許多關鍵性突破。特別是自從DALLE2、Stable Diffusion等大模型發布以來,文字生成影像技術逐漸成熟,高品質的影像生成有了廣闊的實用場景。然而,對於已有圖片的細化編輯依舊是一個難題

一方面,由於文字描述的局限性,現有的高品質文生圖模型,只能利用文字對圖片進行描述性的編輯,而對於某些具體效果,文字是難以描述的;另一方面,在實際應用場景中,圖像細化編輯任務往往只有少量的參考圖片,這讓許多需要大量數據進行訓練的方案,在少量數據,特別是只有一張參考圖像的情況下,難以發揮作用。

最近,來自網易互娛AI Lab 的研究人員提出了一種基於單張圖像引導的圖像到圖像編輯方案,給定單張參考圖像,即可把參考圖中的物件或風格遷移到來源影像,同時不改變來源影像的整體結構。 研究論文已被 ICCV 2023 接收,相關程式碼已開源。

  • 論文網址:https://arxiv.org/abs/2307.14352
  • 程式碼位址:https://github.com/CrystalNeuro/visual-concept-translator

#讓我們先來看一組圖,感受一下它的效果。

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

論文效果圖:每組圖片的左上角是來源圖,左下角是參考圖,右邊是產生的結果圖

主體框架

論文作者提出了一個基於反演-融合(Inversion-Fusion)的影像編輯框架-VCT (visual concept translator,視覺概念轉換器)。 如下圖所示,VCT 的整體架構包括兩個過程:內容-概念反演過程(Content-concept Inversion)和內容-概念融合過程(Content-concept Fusion)。內容- 概念反演過程透過兩種不同的反演算法,分別學習和表示原始影像的結構資訊和參考影像的語意資訊的隱向量;內容-概念融合過程則將結構資訊和語意資訊的隱向量進行融合,生成最後的結果。

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

需要重寫的內容是:論文主體框架

值得一提的是,在近年來的生成對抗網路(GAN)領域中,反演方法已經廣泛應用,並在許多影像生成任務上取得了顯著的效果【1】。 GAN重寫內容時,需要將原文改寫成中文,不需要出現原句可以將一張圖片映射到訓練過的GAN生成器的隱藏空間中,並透過對隱藏空間的控制來實現編輯的目的。這種反演方案可以充分利用預訓練生成模型的生成能力。本研究實際上是將GAN重寫內容時,需要將原文改寫成中文,不需要出現原句應用到以擴散模型為先驗的基於圖像引導的圖像編輯任務中


多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

#重寫內容時,需要將原文改寫成中文,不需要出現原句

方法介紹

基於反演的思路,VCT 設計了一個雙分支的擴散過程,其包含一個內容重建的分支B* 和一個用於編輯的主分支B。它們從同一個從DDIM 反演(DDIM Inversion【2】,一種利用擴散模型從影像計算雜訊的演算法)獲得的雜訊xT 出發,分別用於內容重建和內容編輯。論文所採用的預訓練模型為隱向量擴散模型(Latent Diffusion Models,簡稱LDM),擴散過程發生在隱向量空間z 空間中,雙分支過程可表示為:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現


多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

雙分支擴散過程

內容重建分支B* 學習T 個內容特徵向量 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現,用於還原原圖的結構訊息,並透過軟注意力控制(soft attention control)的方案,將結構訊息傳遞給編輯主分支B。軟注意力控制方案借鑒了Google的prompt2prompt【3】工作,公式為:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

即當擴散模型運行步數在一定區間時,將編輯主分支的注意力特徵圖取代內容重建分支的特徵圖,實現對生成圖片的結構控制。編輯主分支 B 則融合從原始影像學習的內容特徵向量 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現 與從參考影像學習的概念特徵向量 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現#,產生編輯的圖片。

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

雜訊空間( 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現#空間) 融合

##在擴散模型的每一步,特徵向量的融合都發生在雜訊空間空間,是特徵向量輸入擴散模型之後預測的雜訊的加權。內容重建分支的特徵混合發生在內容特徵向量多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現和空文本向量上,與免分類器(Classifier-free)擴散引導【4】的形式一致:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

編輯主分支的混合是內容特徵向量  多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現與概念特徵向量  多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現的混合,為

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

至此,研究的關鍵在於如何從單張來源圖片取得結構資訊的特徵向量多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現#,和從單張參考圖片取得概念資訊的特徵向量 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現。文章分別透過兩個不同的反演方案來實現這個目的。

為了復原來源圖片,文章參考 NULL-text【5】優化的方案,學習 T 個階段的特徵向量去匹配擬合來源影像。但與NULL-text 優化空文本向量去擬合DDIM 路徑不同的是,本文透過優化來源圖片特徵向量,去直接擬合估計的乾淨特徵向量,擬合公式為:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現#

與學習結構資訊不同的是,參考影像中的概念資訊需要以單一高度概括的特徵向量來表示,擴散模型的T 個階段共用一個概念特徵向量 多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現 。文章優化了現有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其採用一個多概念特徵向量來表示參考影像的內容,損失函數包含一項擴散模型的雜訊預估項和在隱向量空間的預估重建損失項:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現


實驗結果


#文章在主體替換與風格化任務上進行了實驗,可以在較好地保持來源圖片的結構資訊的情況下,將內容變成參考圖片的主體或風格。


多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

#重寫後的內容:實驗效果的論文

相較於以往的方案,這篇文章提出的VCT框架有以下優點:

(1)應用泛化性:與以往的基於影像引導的影像編輯任務相比,VCT 不需要大量的資料進行訓練,且生成品質和泛化性更好。其基於反演的思路,以在開放世界資料預訓練好的高品質文生圖模型為基礎,實際應用時,只需要一張輸入圖和一張參考圖就可以完成較好的圖片編輯效果。

(2)視覺準確度:相較於近期文字編輯影像的方案,VCT 利用圖片進行參考引導。圖片參考相較於文字描述,可以更精確地實現對圖片的編輯。下圖展示了VCT 與其它方案的比較結果:

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

#主體替換任務的效果進行比較

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

風格遷移任務比較效果

(3)不需要額外資訊:##比較相較於近期的一些需要添加額外控制資訊(如:遮罩圖或深度圖)等方案來進行引導控制的方案,VCT 直接從源圖像和參考圖像學習結構資訊和語義資訊來進行融合生成,下圖是一些對比結果。其中,Paint-by-example 透過提供一個來源影像的遮罩圖,來將對應的物件換成參考圖的物件;Controlnet 透過線稿圖、深度圖等控制產生的結果;而VCT 則直接從來源影像和參考圖像,學習結構資訊和內容資訊融合成目標圖像,不需要額外的限制。

多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現

基於影像引導的影像編輯方案的對比效果

網易互娛AI Lab

網易互娛AI實驗室成立於2017年,隸屬於網易互動娛樂事業群,是遊戲產業領先的人工智慧實驗室。實驗室專注於遊戲場景下的電腦視覺、語音和自然語言處理,以及強化學習等技術的研究和應用。旨在透過AI技術提升網易互娛旗下熱門遊戲和產品的技術水準。目前,該技術已應用於多款熱門遊戲,如《夢幻西遊》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西遊》等

以上是多樣化風格的VCT引導,一張圖片搞定,讓你輕鬆實現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)