擴散模型大火之後,許多人將注意力放到如何利用更有效的 prompt 來產生自己想要的影像。在對於一些AI 作畫模型的不斷嘗試中,人們甚至總結出了讓AI 好好出圖的關鍵字經驗:
也就是說,如果掌握了正確的AI 話術,作圖質量提升效果將非常明顯(參見:《#“羊駝打籃球”怎麼畫?有人花了13 美元逼DALL· E 2 亮出真本事# 》)。
此外,還有一部分研究者在往另一個方向努力:如何動動嘴皮就把一幅畫改成我們想要的樣子。
前段時間,我們報道了一項來自Google研究院等機構的研究# 。只要說出你想讓一幅圖變成什麼樣子,它就能基本滿足你的要求,產生照片級的圖像,例如讓一隻小狗坐下:
這裡給模型的輸入描述是「一隻坐下的狗」,但是按照人們的日常交流習慣,最自然的描述應該是「讓這隻狗坐下」。有研究者認為這是一個應該優化的問題,模型應該更符合人類的語言習慣。
最近,來自UC 伯克利的研究團隊提出了一種根據人類指令編輯圖像的新方法InstructPix2Pix:給定輸入圖像和告訴模型要做什麼的文本描述,模型就能遵循描述指令來編輯影像。
#論文網址:https://arxiv.org/pdf/2211.09800.pdf
例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」:
方法概覽
研究者將基於指令的圖像編輯視為一個監督學習問題:首先,他們產生了一個包含文字編輯指令和編輯前後圖像的成對訓練資料集(圖2a-c),然後在這個生成的資料集上訓練了一個影像編輯擴散模型(圖2d)。儘管訓練時使用的是產生的圖像和編輯指令,但模型仍然能夠使用人工編寫的任意指令來編輯真實的圖像。下圖 2 是方法概述。
產生一個多模態訓練資料集
在數據集生成階段,研究者結合了一個大型語言模型(GPT-3)和一個文字轉圖像模型(Stable Diffusion)的能力,產生了一個包含文字編輯指令和編輯前後對應圖像的多模態訓練資料集。這個過程包含以下步驟:
- 微調GPT-3 以產生文字編輯內容集合:給定一個描述圖像的prompt,產生一個描述要進行的更改的文本指令和一個描述更改後圖像的prompt(圖2a);
- 使用文字轉圖像模型將兩個文字prompt(即編輯之前和編輯之後)轉換為一對對應的圖像(圖2b)。
InstructPix2Pix
研究者使用產生的訓練資料來訓練條件擴散模型,該模型基於Stable Diffusion 模型,可以根據書面指示編輯圖片。
擴散模型學習透過一系列估計資料分佈分數(指向高密度資料的方向)的去噪自編碼器來產生資料樣本。 Latent diffusion 透過在預先訓練的具有編碼器和解碼器的變分自編碼器的潛空間中操作來提高擴散模型的效率和品質。
對於一個影像x,擴散過程會在編碼的latent 中加入噪聲,它產生一個有雜訊的latent z_t,其中雜訊水平隨時間步t∈T 而增加。研究者學習一個網路,它在給定圖像調節 C_I 和文字指令調節 C_T 的情況下,預測添加到帶噪 latent z_t 中的雜訊。研究者將以下latent 擴散目標最小化:
先前,曾有研究(Wang et al.)表明,對於圖像翻譯(image translation )任務,尤其是在成對訓練資料有限的情況下,微調大型影像擴散模型優於從頭訓練。因此在新研究中,作者使用預先訓練的 Stable Diffusion checkpoint 初始化模型的權重,利用其強大的文字到影像生成能力。
為了支援影像調節,研究人員在第一個卷積層中新增額外的輸入通道,連接 z_t 和。擴散模型的所有可用權重都從預先訓練的 checkpoint 初始化,同時在新新增的輸入通道上運行的權重被初始化為零。作者在這裡重複使用最初用於 caption 的相同的文字調節機制,而沒有將文字編輯指令 c_T 作為輸入。
實驗結果
在下面這些圖中,作者展示了他們新模型的圖像編輯結果。這些結果針對一組不同的真實照片和藝術品。新模型成功地執行了許多具有挑戰性的編輯,包括替換物件、改變季節和天氣、替換背景、修改材料屬性、轉換藝術媒介等等。
#研究人員將新方法與最近的一些技術,如SDEdit、Text2Live 等進行了比較。新模型遵循編輯影像的說明,而其他方法(包括基準方法)則需要對影像或編輯圖層進行描述。因此在比較時,作者對後者提供「編輯後」的文本標註代替編輯說明。作者也把新方法和 SDEdit 進行定量比較,使用兩個衡量影像一致性和編輯品質的指標。最後,作者展示了產生訓練資料的大小和品質如何影響模型表現的消融結果。
以上是GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版
好用的JavaScript開發工具

Dreamweaver CS6
視覺化網頁開發工具