近來,文字到圖像模型成為一個熱門的研究方向,無論是自然景觀大片,還是新奇的場景圖像,都可能使用簡單的文字描述自動生成的。
其中,渲染天馬行空的的想像場景是一項具有挑戰性的任務,需要在新的場景中合成特定主題(物體、動物等)的實例,以便它們自然無縫地融入場景。
一些大型文字到圖像模型基於用自然語言編寫的文字提示(prompt)實現了高品質和多樣化的圖像合成。這些模型的主要優點是從大量的圖像 - 文字描述對中學到強大的語義先驗,例如將“dog”這個詞與可以在圖像中以不同姿勢出現的各種狗的實例關聯在一起。
雖然這些模型的合成能力是前所未有的,但它們缺乏模仿給定參考主題的能力,以及在不同場景中合成主題相同、實例不同的新圖像的能力。可見,已有模型的輸出域的表達能力有限。
為了解決這個問題,來自Google和波士頓大學的研究者提出了一種「個人化」的文本到圖像擴散模型DreamBooth,能夠適應使用者特定的圖像生成需求。
論文網址:https://arxiv.org/pdf/2208.12242.pdf
項目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
該研究的目標是擴展模型的語言- 視覺字典,使其將新詞彙與使用者想要產生的特定主題綁定。一旦新字典嵌入模型中,它就可以使用這些單字來合成特定主題的新穎逼真的圖像,同時在不同的場景中進行情境化,保留關鍵識別特徵,效果如下圖 1 所示。
具體來說,該研究將給定主題的圖像植入模型的輸出域,以便可以使用唯一標識符對其進行合成。為此,該研究提出了一種以稀有token 標識符表示給定主題的方法,並微調了一個預訓練的、基於擴散的文本到圖像框架,該框架分兩步運行;從文本生成低分辨率影像,然後應用超解析度(SR)擴散模型。
首先該研究使用包含唯一標識符(帶有主題類名,例如“A [V] dog”)的輸入圖像和文字提示微調低解析度文字到圖像模型。為了防止模型將類別名稱與特定實例過擬合和語義漂移,該研究提出了一種自生的、特定於類別的先驗保存(preservation)損失,它利用嵌入模型中類別的先驗語義,鼓勵模型產生給定主題下同一類別中的不同實例。
第二步,研究使用輸入影像的低解析度和高解析度版本對超解析度元件進行微調。這允許模型對場景主題中小而重要細節保持高保真度。
我們來看看研究提出的具體方法。
給定3-5 張捕獲的圖像,這些圖像沒有文字描述,本文旨在產生具有高細節保真度和由文字提示引導變化的新影像。該研究不對輸入圖像施加任何限制,並且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出影像可對原始影像進行修改,如主體的位置,變更主體的屬性如顏色、形狀,並可修改主體的姿勢、表情、材質以及其他語意修改。
更具體的說,本文方法將一個主題(例如,一隻特定的狗)和相應類別名稱(例如,狗類別)的一些圖像(通常3 - 5 張圖)作為輸入,並返回一個經過微調/ 個性化的文字到圖像模型,該模型編碼了一個引用主題的唯一識別碼。然後,在推理時,可以在不同的句子中植入唯一標識符來合成不同語境中的主題。
該研究的第一個任務是將主題實例植入到模型的輸出域,並將主題與唯一識別碼綁定。該研究提出了設計標識符的方法,此外還設計了一種監督模型微調過程的新方法。
為了解決影像過度擬合以及語言漂移問題,該研究還提出了一種損失( Prior-Preservation Loss ),透過鼓勵擴散模型不斷生成與主題相同的類別的不同實例,進而減輕模型過擬合、語言漂移等問題。
為了保留圖像細節,該研究發現應該對模型的超解析度(SR)組件進行微調,本文在經過預訓練的 Imagen 模型的基礎上來完成。具體過程如圖4 所示,給定同一主題的3-5 張圖像,之後透過兩個步驟微調文字到圖像的擴散模型:
稀有token 標識符表示主題
該研究將主題的所有輸入圖像標記為“a [identifier] [class noun]”,其中[ identifier] 是連結到主題的唯一標識符,而[class noun] 是主題的粗略類別描述符(例如貓、狗、手錶等)。該研究在句子中特別使用了類別描述符,以便將類別的先驗與主題聯繫起來。
下面是 Dreambooth 一個穩定擴散的實作(參考項目連結)。定性結果:訓練圖像來自“Textual Inversion”庫:
#訓練完成後,在“photo of a sks container”提示下,模型生成的貨櫃照片如下:
在提示中加個位置“photo of a sks container on the beach”,貨櫃出現在沙灘上;
綠色的貨櫃顏色太單一了,想加點紅色,輸入提示「photo of a red sks container」就能搞定:
輸入提示「a dog on top of sks container」就能讓小狗坐在箱子裡:
以下是論文中展示的一些結果。產生不同畫家風格的關於狗狗的藝術圖:
該研究還可以合成輸入影像中沒有出現的各種表情,展示了模型的外推能力:
想要了解更多細節,請參考原論文。
以上是只要3個樣本一句話,AI就能客製化照片級影像,Google在玩一個很新的擴散模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!