首頁 >科技週邊 >人工智慧 >簡化文生圖prompt,LLM模型產生高品質影像

簡化文生圖prompt,LLM模型產生高品質影像

WBOY
WBOY轉載
2023-09-13 09:25:01866瀏覽

擴散模型已經成為主流的文字到圖像生成模型,它可以透過文字提示來引導產生高品質且內容豐富的圖像

如果輸入的提示過於簡潔,現有的模型在語義理解和常識推理方面都存在局限,這將導致生成的圖像品質明顯下降

中山大學HCP實驗室的林倞團隊提出了一種名為SUR-adapter的簡單而有效的微調方法,旨在提高模型對敘述性提示的理解能力。該方法是一種語義理解和推理適配器,適用於預訓練的擴散模型,並具有參數高效的特點

簡化文生圖prompt,LLM模型產生高品質影像

##請點擊以下鏈接檢視論文:https://arxiv.org/abs/2305.05189

開源位址:https://github.com/Qrange-group/SUR-adapter

#為了達到這個目標,研究者首先收集並標註了一個名為SURD的資料集。這個資料集包含了超過5.7萬個多模態樣本,每個樣本都包含一個簡單的敘述性提示、一個複雜的基於關鍵字的提示以及一張高質量的圖像

研究人員將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成。然後,他們將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成

簡化文生圖prompt,LLM模型產生高品質影像

我們透過整合多個LLM和預訓練擴散模型進行實驗,發現該方法能夠有效地使擴散模型理解和推理簡潔的自然語言描述,同時不會降低圖像品質

這種方法可以使得文字到圖像的擴散模型更易於使用,提供更好的用戶體驗,進一步推動用戶友好的文本到圖像生成模型的發展,並彌補簡單敘事提示和基於關鍵字提示之間的語義差距

背景介紹


目前,以穩定擴散為代表的文本到圖像預訓練模型已經成為人工智慧生成內容領域最重要的基礎模型之一,在圖像編輯、視頻生成、3D對像生成等任務中起著重要角色

目前,這些預先訓練的擴散模型的語意能力主要取決於文字編碼器(如CLIP),其語意理解能力直接影響到擴散模型的生成效果

本文首先透過建構視覺問答任務(VQA)中常見的問題類別,如"計數"、"顏色"和"動作",來測試Stable diffusion的圖文匹配準確度。我們將人工統計並進行測試

以下是建構各種提示的範例,詳見下表

簡化文生圖prompt,LLM模型產生高品質影像

##根據下表所示的結果,文章揭示了目前的文生圖預訓練擴散模型存在嚴重的語意理解問題。大量問題的圖文配對準確度不足50%,甚至在某些問題下,準確度僅為0%

簡化文生圖prompt,LLM模型產生高品質影像

為了獲得符合文本生成條件的圖像,我們需要找到方法來增強預訓練擴散模型中本文編碼器的語義能力

#方法概述


重寫後的內容:1. 資料預處理

#首先,我們可以從常用的擴散模型線上網站lexica.art、civitai.com和stablediffusionweb中獲取大量的圖片文字對。然後,我們需要對這些數據進行清洗和篩選,以獲得超過57000張高品質的三元組數據(包括複雜提示、簡單提示和圖片),並將其構成SURD數據集

#

簡化文生圖prompt,LLM模型產生高品質影像

在下圖中所示,複雜提示是指產生影像時擴散模型所需的文字提示條件,通常這些提示具有複雜的格式和描述。簡單提示是透過BLIP對圖像產生的文字描述,它採用符合人類描述的語言格式

#一般來說,符合正常人類語言描述的簡單提示很難讓擴散模型生成足夠符合語義的圖像,而複雜提示(用戶戲稱為擴散模型的「咒語」)則可以達到令人滿意的效果

需要重新編寫的內容是:2. 大型語言模型的語意蒸餾

本文介紹了一種使用Transformer結構的Adapter來蒸餾大型語言模型在特定隱藏層中的語意特徵的方法,並且透過將Adapter引導的大型語言模型訊息與原始文字編碼器輸出的語意特徵進行線性組合,得到最終的語意特徵

大語言模型選用的是不同大小的LLaMA模型,而擴散模型的UNet部分在整個訓練過程中的參數都是凍結的

簡化文生圖prompt,LLM模型產生高品質影像

需要重寫的內容是:3. 影像品質恢復

為了保持原意不變,需要將內容改寫為中文: 由於本文結構在預訓練大模型推理過程引入了可學習模組,一定程度破壞了預訓練模型的原圖生成質量,因此需要將圖像生成的質量拉回原預訓練模型的生成質量水平

簡化文生圖prompt,LLM模型產生高品質影像

本文使用SURD資料集中的三元組,在訓練過程中引入了對應的品質損失函數,以恢復影像產生的品質。具體而言,本文希望透過新模組後獲得的語意特徵能夠與複雜提示的語意特徵盡可能對齊

下圖展示了SUR-adapter對預訓練擴散模型的fine-tuning框架。右側為Adapter的網路結構

簡化文生圖prompt,LLM模型產生高品質影像

實驗結果

對於SUR-adapter的性能,本文從語義匹配和圖像質量兩個方面進行了分析

一方面,根據下表顯示,SUR-adapter能夠有效地解決文生圖擴散模型中常見的語義不匹配問題,適用於不同的實驗設定。在不同類別的語意準則下,準確度也有一定的提升

另一方面,本文利用常用的BRISQUE等常用的影像品質評估指標下,對原始pretrain擴散模型和使用了SUR-adapter後的擴散模型所產生圖片的品質進行統計檢驗,我們可以發現兩者沒有顯著的差異。

我們也進行了一個人類偏好的問卷測試

#透過以上分析,可以得出結論,所提出的方法能夠在保持圖像生成品質的同時,緩解預訓練文字到圖像的固有圖文不匹配問題

簡化文生圖prompt,LLM模型產生高品質影像

簡化文生圖prompt,LLM模型產生高品質影像

我們也可以透過以下影像產生的範例來定性展示,更詳細的分析和細節請參閱本文和開源倉庫

需要進行改寫的內容是:

簡化文生圖prompt,LLM模型產生高品質影像

簡化文生圖prompt,LLM模型產生高品質影像

HCP實驗室簡介

林倞教授於2010年創辦了中山大學人機物智慧融合實驗室(HCP Lab)。近年來,該實驗室在多模態內容理解、因果及認知推理、具身智能等領域取得了豐富的學術成果。實驗室多次榮獲國內外科技獎項和最佳論文獎,並致力於開發產品級的人工智慧技術和平台

以上是簡化文生圖prompt,LLM模型產生高品質影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除