近來,文字生成圖像領域取得了許多意想不到的突破,許多模型都可以實現基於文字指令創建高品質和多樣化圖像的功能。雖然生成的圖像已經很逼真,但當前模型往往善於生成風景、物體等實體圖像,但很難產生具有高度連貫細節的圖像,例如帶有漢字等複雜字形文字的圖像。
為了解決這個問題,來自OPPO 等機構的研究者提出了一個通用學習框架GlyphDraw,旨在讓模型能夠產生嵌入連貫文本的圖像,這是圖像合成領域首個解決漢字生成問題的工作。
#我們先來看看產生效果,例如為展覽館產生警示標語:
#產生廣告看板:
為圖片配上簡單的文字說明,文字樣式也可多樣化:
該研究提出了一種有效的訓練策略,限制了預訓練模型中可訓練參數的數量,以防止過度擬合和災難性遺忘(catastrophic forgetting),有效地保持了模型強大的開放域生成性能,同時實現了準確的漢字圖像生成。
該研究介紹了訓練資料集的建構過程,並提出了一個新的基準來使用 OCR 模型評估漢字影像產生品質。其中,GlyphDraw 獲得了 75% 的生成準確率,明顯優於先前的影像合成方法。
#########模型介紹#########該研究首先設計了複雜的圖像- 文字資料集建構策略,然後基於開源影像合成演算法Stable Diffusion 提出了通用學習架構GlyphDraw,如下圖2 所示。 #####################Stable Diffusion 的整體訓練目標可以表示為下列公式:##############GlyphDraw 是基於 Stable Diffusion 中的交叉注意力機制,原始輸入潛在向量 z_t 被圖像潛在向量的 z_t、文字掩碼 l_m 和字形圖像 l_g 的級聯取代。
此外,透過使用特定領域的融合模組,條件 C 配備了混合字形和文字特徵。文字遮罩和字形資訊的引入,讓整個訓練過程實現了細粒度的擴散控制,是提高模型性能的關鍵組成部分,最終得以產生帶有漢字文字的圖像。
具體來說,文字訊息的像素表徵,特別是像形漢字這種複雜的文字形式,與自然物體有明顯的不同。例如,中文詞語「天空(sky)」是由二維結構的多個筆畫組成,而其對應的自然圖像是「點綴著白雲的藍天」。相較之下,漢字有非常細粒度的特性,甚至是微小的移動或變形都會導致不正確的文字渲染,無法實現影像生成。
在自然圖像背景中嵌入字元還需要考慮一個關鍵問題,那就是在避免影響相鄰自然圖像像素的同時,還要精確地控製文字像素的生成。為了在自然圖像上呈現完美的漢字,作者精心設計了兩個整合到擴散合成模型中的關鍵組件,即位置控制和字形控制。
與其他模型的全域條件輸入不同,字元產生需要更專注於影像的特定局部區域,因為字元像素的潛在特徵分佈與自然影像像素的潛在特徵分佈有很大差異。為了防止模型學習崩潰,研究創新性地提出了細粒度位置區域控制來解耦不同區域之間的分佈。
除了位置控制,另一個重要的問題是漢字筆畫合成的精細控制。考慮到漢字的複雜性和多樣性,在沒有任何明確先驗知識的情況下,僅僅只是從大量的圖像 - 文字資料集中學習是極其困難的。為了準確地產生漢字,該研究將顯式字形影像作為額外條件的資訊納入模型擴散過程。
由於先前沒有專門用於漢字圖像生成的資料集,該研究首先建構了一個用於定性和定量評估的基準資料集ChineseDrawText,然後在ChineseDrawText 上測試比較了幾種方法的生成準確率(由OCR 識別模型評估)。
該研究提出的GlyphDraw 模型透過有效地使用輔助字形和位置資訊達到了75% 的平均準確率,從而證明了該模型出色的字元影像生成能力。幾種方法的視覺化比較結果如下圖所示:
#此外,GlyphDraw 還可以透過限制訓練參數來維持開放性區域影像合成效能,在MS-COCO FID-10k 上一般影像合成的FID 僅下降了2.3。
#有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是擴散模型生成帶漢字影像,一鍵輸出表情符號:OPPO等提出GlyphDraw的詳細內容。更多資訊請關注PHP中文網其他相關文章!