近來,文字生成圖像領域取得了許多意想不到的突破,許多模型都可以實現基於文字指令創建高品質和多樣化圖像的功能。雖然生成的圖像已經很逼真,但當前模型往往善於生成風景、物體等實體圖像,但很難產生具有高度連貫細節的圖像,例如帶有漢字等複雜字形文字的圖像。
為了解決這個問題,來自OPPO 等機構的研究者提出了一個通用學習框架GlyphDraw,旨在讓模型能夠產生嵌入連貫文本的圖像,這是圖像合成領域首個解決漢字生成問題的工作。
- 論文網址:https://arxiv.org/abs/2303.17870
- #專案首頁:https://1073521013.github.io/glyph-draw.github.io/
#我們先來看看產生效果,例如為展覽館產生警示標語:
#產生廣告看板:
為圖片配上簡單的文字說明,文字樣式也可多樣化:
- ##還有,最有趣也最實用的例子是產生表情包:
- #雖然結果有些瑕疵,但是整體生成效果已經很好了。總體來說,該研究的主要貢獻包括:
該研究提出了一種有效的訓練策略,限制了預訓練模型中可訓練參數的數量,以防止過度擬合和災難性遺忘(catastrophic forgetting),有效地保持了模型強大的開放域生成性能,同時實現了準確的漢字圖像生成。
該研究介紹了訓練資料集的建構過程,並提出了一個新的基準來使用 OCR 模型評估漢字影像產生品質。其中,GlyphDraw 獲得了 75% 的生成準確率,明顯優於先前的影像合成方法。
GlyphDraw 是基於 Stable Diffusion 中的交叉注意力機制,原始輸入潛在向量 z_t 被圖像潛在向量的 z_t、文字掩碼 l_m 和字形圖像 l_g 的級聯取代。
此外,透過使用特定領域的融合模組,條件 C 配備了混合字形和文字特徵。文字遮罩和字形資訊的引入,讓整個訓練過程實現了細粒度的擴散控制,是提高模型性能的關鍵組成部分,最終得以產生帶有漢字文字的圖像。
具體來說,文字訊息的像素表徵,特別是像形漢字這種複雜的文字形式,與自然物體有明顯的不同。例如,中文詞語「天空(sky)」是由二維結構的多個筆畫組成,而其對應的自然圖像是「點綴著白雲的藍天」。相較之下,漢字有非常細粒度的特性,甚至是微小的移動或變形都會導致不正確的文字渲染,無法實現影像生成。
在自然圖像背景中嵌入字元還需要考慮一個關鍵問題,那就是在避免影響相鄰自然圖像像素的同時,還要精確地控製文字像素的生成。為了在自然圖像上呈現完美的漢字,作者精心設計了兩個整合到擴散合成模型中的關鍵組件,即位置控制和字形控制。
與其他模型的全域條件輸入不同,字元產生需要更專注於影像的特定局部區域,因為字元像素的潛在特徵分佈與自然影像像素的潛在特徵分佈有很大差異。為了防止模型學習崩潰,研究創新性地提出了細粒度位置區域控制來解耦不同區域之間的分佈。
除了位置控制,另一個重要的問題是漢字筆畫合成的精細控制。考慮到漢字的複雜性和多樣性,在沒有任何明確先驗知識的情況下,僅僅只是從大量的圖像 - 文字資料集中學習是極其困難的。為了準確地產生漢字,該研究將顯式字形影像作為額外條件的資訊納入模型擴散過程。
實驗及結果
由於先前沒有專門用於漢字圖像生成的資料集,該研究首先建構了一個用於定性和定量評估的基準資料集ChineseDrawText,然後在ChineseDrawText 上測試比較了幾種方法的生成準確率(由OCR 識別模型評估)。
該研究提出的GlyphDraw 模型透過有效地使用輔助字形和位置資訊達到了75% 的平均準確率,從而證明了該模型出色的字元影像生成能力。幾種方法的視覺化比較結果如下圖所示:
#此外,GlyphDraw 還可以透過限制訓練參數來維持開放性區域影像合成效能,在MS-COCO FID-10k 上一般影像合成的FID 僅下降了2.3。
#有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是擴散模型生成帶漢字影像,一鍵輸出表情符號:OPPO等提出GlyphDraw的詳細內容。更多資訊請關注PHP中文網其他相關文章!

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境