擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

王林

Apr 11, 2023 pm 08:13 PM

ai影像

近來，文字生成圖像領域取得了許多意想不到的突破，許多模型都可以實現基於文字指令創建高品質和多樣化圖像的功能。雖然生成的圖像已經很逼真，但當前模型往往善於生成風景、物體等實體圖像，但很難產生具有高度連貫細節的圖像，例如帶有漢字等複雜字形文字的圖像。

為了解決這個問題，來自OPPO 等機構的研究者提出了一個通用學習框架GlyphDraw，旨在讓模型能夠產生嵌入連貫文本的圖像，這是圖像合成領域首個解決漢字生成問題的工作。

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

論文網址：https://arxiv.org/abs/2303.17870
#專案首頁：https://1073521013.github.io/glyph-draw.github.io/

#我們先來看看產生效果，例如為展覽館產生警示標語：

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

#產生廣告看板：

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

為圖片配上簡單的文字說明，文字樣式也可多樣化：

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

##還有，最有趣也最實用的例子是產生表情包：

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

#該研究提出了首個漢字圖像生成框架GlyphDraw，其中利用一些輔助訊息，包括漢字字形和位置在整個生成過程中提供細粒度指導，從而使漢字圖像高品質無縫嵌入到圖像中；

該研究提出了一種有效的訓練策略，限制了預訓練模型中可訓練參數的數量，以防止過度擬合和災難性遺忘（catastrophic forgetting），有效地保持了模型強大的開放域生成性能，同時實現了準確的漢字圖像生成。

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

該研究介紹了訓練資料集的建構過程，並提出了一個新的基準來使用 OCR 模型評估漢字影像產生品質。其中，GlyphDraw 獲得了 75% 的生成準確率，明顯優於先前的影像合成方法。

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw

#########模型介紹#########該研究首先設計了複雜的圖像- 文字資料集建構策略，然後基於開源影像合成演算法Stable Diffusion 提出了通用學習架構GlyphDraw，如下圖2 所示。 #####################Stable Diffusion 的整體訓練目標可以表示為下列公式：##############

GlyphDraw 是基於 Stable Diffusion 中的交叉注意力機制，原始輸入潛在向量 z_t 被圖像潛在向量的 z_t、文字掩碼 l_m 和字形圖像 l_g 的級聯取代。

擴散模型生成帶漢字影像，一鍵輸出表情符號：OPPO等提出GlyphDraw