搜尋
首頁科技週邊人工智慧GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

擴散模型大火之後,許多人將注意力放到如何利用更有效的 prompt 來產生自己想要的影像。在對於一些AI 作畫模型的不斷嘗試中,人們甚至總結出了讓AI 好好出圖的關鍵字經驗:

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

也就是說,如果掌握了正確的AI 話術,作圖質量提升效果將非常明顯(參見:《#“羊駝打籃球”怎麼畫?有人花了13 美元逼DALL· E 2 亮出真本事# 》)。

此外,還有一部分研究者在往另一個方向努力:如何動動嘴皮就把一幅畫改成我們想要的樣子。

前段時間,我們報道了一項來自Google研究院等機構的研究# 。只要說出你想讓一幅圖變成什麼樣子,它就能基本滿足你的要求,產生照片級的圖像,例如讓一隻小狗坐下:

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

這裡給模型的輸入描述是「一隻坐下的狗」,但是按照人們的日常交流習慣,最自然的描述應該是「讓這隻狗坐下」。有研究者認為這是一個應該優化的問題,模型應該更符合人類的語言習慣。

最近,來自UC 伯克利的研究團隊提出了一種根據人類指令編輯圖像的新方法InstructPix2Pix:給定輸入圖像和告訴模型要做什麼的文本描述,模型就能遵循描述指令來編輯影像。

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

#論文網址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」:

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

##################### ###為了獲得訓練數據,研究將兩個大型預訓練模型-語言模型(GPT-3) 和文字到影像生成模型(Stable Diffusion) 結合起來,產生影像編輯範例的大型成對訓練資料集。研究者在這個大型資料集上訓練了新模型 InstructPix2Pix,並在推理時泛化到真實圖像和使用者所寫的指令。 ############InstructPix2Pix 是一個條件擴散模型,給定一個輸入圖像和一個編輯圖像的文字指令,它就能產生編輯後的圖像。此模型直接在前向傳播(forward pass)中執行影像編輯,不需要任何額外的範例影像、輸入/ 輸出影像的完整描述或每個範例的微調,因此該模型僅需幾秒鐘就能快速編輯影像。 ############儘管InstructPix2Pix 完全是在合成範例(即GPT-3 生成的文字描述和Stable Diffusion 生成的圖像)上進行訓練的,但該模型實現了對任意真實圖像和人類編寫文本的零樣本泛化。該模型支援直覺的圖像編輯,包括替換物件、更改圖像風格等等。 ################

方法概覽

研究者將基於指令的圖像編輯視為一個監督學習問題:首先,他們產生了一個包含文字編輯指令和編輯前後圖像的成對訓練資料集(圖2a-c),然後在這個生成的資料集上訓練了一個影像編輯擴散模型(圖2d)。儘管訓練時使用的是產生的圖像和編輯指令,但模型仍然能夠使用人工編寫的任意指令來編輯真實的圖像。下圖 2 是方法概述。

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

產生一個多模態訓練資料集

在數據集生成階段,研究者結合了一個大型語言模型(GPT-3)和一個文字轉圖像模型(Stable Diffusion)的能力,產生了一個包含文字編輯指令和編輯前後對應圖像的多模態訓練資料集。這個過程包含以下步驟:

  • 微調GPT-3 以產生文字編輯內容集合:給定一個描述圖像的prompt,產生一個描述要進行的更改的文本指令和一個描述更改後圖像的prompt(圖2a);
  • 使用文字轉圖像模型將兩個文字prompt(即編輯之前和編輯之後)轉換為一對對應的圖像(圖2b)。

InstructPix2Pix 

研究者使用產生的訓練資料來訓練條件擴散模型,該模型基於Stable Diffusion 模型,可以根據書面指示編輯圖片。

擴散模型學習透過一系列估計資料分佈分數(指向高密度資料的方向)的去噪自編碼器來產生資料樣本。 Latent diffusion 透過在預先訓練的具有編碼器和解碼器的變分自編碼器的潛空間中操作來提高擴散模型的效率和品質。

對於一個影像x,擴散過程會在編碼的latent  中加入噪聲,它產生一個有雜訊的latent z_t,其中雜訊水平隨時間步t∈T 而增加。研究者學習一個網路,它在給定圖像調節 C_I 和文字指令調節 C_T 的情況下,預測添加到帶噪 latent z_t 中的雜訊。研究者將以下latent 擴散目標最小化:

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

先前,曾有研究(Wang et al.)表明,對於圖像翻譯(image translation )任務,尤其是在成對訓練資料有限的情況下,微調大型影像擴散模型優於從頭訓練。因此在新研究中,作者使用預先訓練的 Stable Diffusion checkpoint 初始化模型的權重,利用其強大的文字到影像生成能力。

為了支援影像調節,研究人員在第一個卷積層中新增額外的輸入通道,連接 z_t 和GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求。擴散模型的所有可用權重都從預先訓練的 checkpoint 初始化,同時在新新增的輸入通道上運行的權重被初始化為零。作者在這裡重複使用最初用於 caption 的相同的文字調節機制,而沒有將文字編輯指令 c_T 作為輸入。

實驗結果

在下面這些圖中,作者展示了他們新模型的圖像編輯結果。這些結果針對一組不同的真實照片和藝術品。新模型成功地執行了許多具有挑戰性的編輯,包括替換物件、改變季節和天氣、替換背景、修改材料屬性、轉換藝術媒介等等。

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

#研究人員將新方法與最近的一些技術,如SDEdit、Text2Live 等進行了比較。新模型遵循編輯影像的說明,而其他方法(包括基準方法)則需要對影像或編輯圖層進行描述。因此在比較時,作者對後者提供「編輯後」的文本標註代替編輯說明。作者也把新方法和 SDEdit 進行定量比較,使用兩個衡量影像一致性和編輯品質的指標。最後,作者展示了產生訓練資料的大小和品質如何影響模型表現的消融結果。

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

#

以上是GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具