擴散模型已經成為主流的文字到圖像生成模型,它可以透過文字提示來引導產生高品質且內容豐富的圖像
如果輸入的提示過於簡潔,現有的模型在語義理解和常識推理方面都存在局限,這將導致生成的圖像品質明顯下降
中山大學HCP實驗室的林倞團隊提出了一種名為SUR-adapter的簡單而有效的微調方法,旨在提高模型對敘述性提示的理解能力。該方法是一種語義理解和推理適配器,適用於預訓練的擴散模型,並具有參數高效的特點
##請點擊以下鏈接檢視論文:https://arxiv.org/abs/2305.05189
開源位址:https://github.com/Qrange-group/SUR-adapter
#為了達到這個目標,研究者首先收集並標註了一個名為SURD的資料集。這個資料集包含了超過5.7萬個多模態樣本,每個樣本都包含一個簡單的敘述性提示、一個複雜的基於關鍵字的提示以及一張高質量的圖像
研究人員將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成。然後,他們將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成
我們透過整合多個LLM和預訓練擴散模型進行實驗,發現該方法能夠有效地使擴散模型理解和推理簡潔的自然語言描述,同時不會降低圖像品質
這種方法可以使得文字到圖像的擴散模型更易於使用,提供更好的用戶體驗,進一步推動用戶友好的文本到圖像生成模型的發展,並彌補簡單敘事提示和基於關鍵字提示之間的語義差距
背景介紹目前,以穩定擴散為代表的文本到圖像預訓練模型已經成為人工智慧生成內容領域最重要的基礎模型之一,在圖像編輯、視頻生成、3D對像生成等任務中起著重要角色
目前,這些預先訓練的擴散模型的語意能力主要取決於文字編碼器(如CLIP),其語意理解能力直接影響到擴散模型的生成效果
本文首先透過建構視覺問答任務(VQA)中常見的問題類別,如"計數"、"顏色"和"動作",來測試Stable diffusion的圖文匹配準確度。我們將人工統計並進行測試
以下是建構各種提示的範例,詳見下表
#方法概述
重寫後的內容:1. 資料預處理
#首先,我們可以從常用的擴散模型線上網站lexica.art、civitai.com和stablediffusionweb中獲取大量的圖片文字對。然後,我們需要對這些數據進行清洗和篩選,以獲得超過57000張高品質的三元組數據(包括複雜提示、簡單提示和圖片),並將其構成SURD數據集# 在下圖中所示,複雜提示是指產生影像時擴散模型所需的文字提示條件,通常這些提示具有複雜的格式和描述。簡單提示是透過BLIP對圖像產生的文字描述,它採用符合人類描述的語言格式 #一般來說,符合正常人類語言描述的簡單提示很難讓擴散模型生成足夠符合語義的圖像,而複雜提示(用戶戲稱為擴散模型的「咒語」)則可以達到令人滿意的效果 需要重新編寫的內容是:2. 大型語言模型的語意蒸餾 本文介紹了一種使用Transformer結構的Adapter來蒸餾大型語言模型在特定隱藏層中的語意特徵的方法,並且透過將Adapter引導的大型語言模型訊息與原始文字編碼器輸出的語意特徵進行線性組合,得到最終的語意特徵 大語言模型選用的是不同大小的LLaMA模型,而擴散模型的UNet部分在整個訓練過程中的參數都是凍結的 需要重寫的內容是:3. 影像品質恢復 為了保持原意不變,需要將內容改寫為中文:
由於本文結構在預訓練大模型推理過程引入了可學習模組,一定程度破壞了預訓練模型的原圖生成質量,因此需要將圖像生成的質量拉回原預訓練模型的生成質量水平 本文使用SURD資料集中的三元組,在訓練過程中引入了對應的品質損失函數,以恢復影像產生的品質。具體而言,本文希望透過新模組後獲得的語意特徵能夠與複雜提示的語意特徵盡可能對齊 下圖展示了SUR-adapter對預訓練擴散模型的fine-tuning框架。右側為Adapter的網路結構 對於SUR-adapter的性能,本文從語義匹配和圖像質量兩個方面進行了分析 一方面,根據下表顯示,SUR-adapter能夠有效地解決文生圖擴散模型中常見的語義不匹配問題,適用於不同的實驗設定。在不同類別的語意準則下,準確度也有一定的提升 另一方面,本文利用常用的BRISQUE等常用的影像品質評估指標下,對原始pretrain擴散模型和使用了SUR-adapter後的擴散模型所產生圖片的品質進行統計檢驗,我們可以發現兩者沒有顯著的差異。 我們也進行了一個人類偏好的問卷測試 #透過以上分析,可以得出結論,所提出的方法能夠在保持圖像生成品質的同時,緩解預訓練文字到圖像的固有圖文不匹配問題 我們也可以透過以下影像產生的範例來定性展示,更詳細的分析和細節請參閱本文和開源倉庫 需要進行改寫的內容是: 林倞教授於2010年創辦了中山大學人機物智慧融合實驗室(HCP Lab)。近年來,該實驗室在多模態內容理解、因果及認知推理、具身智能等領域取得了豐富的學術成果。實驗室多次榮獲國內外科技獎項和最佳論文獎,並致力於開發產品級的人工智慧技術和平台實驗結果
HCP實驗室簡介
以上是簡化文生圖prompt,LLM模型產生高品質影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver CS6
視覺化網頁開發工具