搜尋
首頁科技週邊人工智慧簡化文生圖prompt,LLM模型產生高品質影像

擴散模型已經成為主流的文字到圖像生成模型,它可以透過文字提示來引導產生高品質且內容豐富的圖像

如果輸入的提示過於簡潔,現有的模型在語義理解和常識推理方面都存在局限,這將導致生成的圖像品質明顯下降

中山大學HCP實驗室的林倞團隊提出了一種名為SUR-adapter的簡單而有效的微調方法,旨在提高模型對敘述性提示的理解能力。該方法是一種語義理解和推理適配器,適用於預訓練的擴散模型,並具有參數高效的特點

簡化文生圖prompt,LLM模型產生高品質影像

##請點擊以下鏈接檢視論文:https://arxiv.org/abs/2305.05189

開源位址:https://github.com/Qrange-group/SUR-adapter

#為了達到這個目標,研究者首先收集並標註了一個名為SURD的資料集。這個資料集包含了超過5.7萬個多模態樣本,每個樣本都包含一個簡單的敘述性提示、一個複雜的基於關鍵字的提示以及一張高質量的圖像

研究人員將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成。然後,他們將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成

簡化文生圖prompt,LLM模型產生高品質影像

我們透過整合多個LLM和預訓練擴散模型進行實驗,發現該方法能夠有效地使擴散模型理解和推理簡潔的自然語言描述,同時不會降低圖像品質

這種方法可以使得文字到圖像的擴散模型更易於使用,提供更好的用戶體驗,進一步推動用戶友好的文本到圖像生成模型的發展,並彌補簡單敘事提示和基於關鍵字提示之間的語義差距

背景介紹


目前,以穩定擴散為代表的文本到圖像預訓練模型已經成為人工智慧生成內容領域最重要的基礎模型之一,在圖像編輯、視頻生成、3D對像生成等任務中起著重要角色

目前,這些預先訓練的擴散模型的語意能力主要取決於文字編碼器(如CLIP),其語意理解能力直接影響到擴散模型的生成效果

本文首先透過建構視覺問答任務(VQA)中常見的問題類別,如"計數"、"顏色"和"動作",來測試Stable diffusion的圖文匹配準確度。我們將人工統計並進行測試

以下是建構各種提示的範例,詳見下表

簡化文生圖prompt,LLM模型產生高品質影像

##根據下表所示的結果,文章揭示了目前的文生圖預訓練擴散模型存在嚴重的語意理解問題。大量問題的圖文配對準確度不足50%,甚至在某些問題下,準確度僅為0%

簡化文生圖prompt,LLM模型產生高品質影像

為了獲得符合文本生成條件的圖像,我們需要找到方法來增強預訓練擴散模型中本文編碼器的語義能力

#方法概述


重寫後的內容:1. 資料預處理

#首先,我們可以從常用的擴散模型線上網站lexica.art、civitai.com和stablediffusionweb中獲取大量的圖片文字對。然後,我們需要對這些數據進行清洗和篩選,以獲得超過57000張高品質的三元組數據(包括複雜提示、簡單提示和圖片),並將其構成SURD數據集

#

簡化文生圖prompt,LLM模型產生高品質影像

在下圖中所示,複雜提示是指產生影像時擴散模型所需的文字提示條件,通常這些提示具有複雜的格式和描述。簡單提示是透過BLIP對圖像產生的文字描述,它採用符合人類描述的語言格式

#一般來說,符合正常人類語言描述的簡單提示很難讓擴散模型生成足夠符合語義的圖像,而複雜提示(用戶戲稱為擴散模型的「咒語」)則可以達到令人滿意的效果

需要重新編寫的內容是:2. 大型語言模型的語意蒸餾

本文介紹了一種使用Transformer結構的Adapter來蒸餾大型語言模型在特定隱藏層中的語意特徵的方法,並且透過將Adapter引導的大型語言模型訊息與原始文字編碼器輸出的語意特徵進行線性組合,得到最終的語意特徵

大語言模型選用的是不同大小的LLaMA模型,而擴散模型的UNet部分在整個訓練過程中的參數都是凍結的

簡化文生圖prompt,LLM模型產生高品質影像

需要重寫的內容是:3. 影像品質恢復

為了保持原意不變,需要將內容改寫為中文: 由於本文結構在預訓練大模型推理過程引入了可學習模組,一定程度破壞了預訓練模型的原圖生成質量,因此需要將圖像生成的質量拉回原預訓練模型的生成質量水平

簡化文生圖prompt,LLM模型產生高品質影像

本文使用SURD資料集中的三元組,在訓練過程中引入了對應的品質損失函數,以恢復影像產生的品質。具體而言,本文希望透過新模組後獲得的語意特徵能夠與複雜提示的語意特徵盡可能對齊

下圖展示了SUR-adapter對預訓練擴散模型的fine-tuning框架。右側為Adapter的網路結構

簡化文生圖prompt,LLM模型產生高品質影像

實驗結果

對於SUR-adapter的性能,本文從語義匹配和圖像質量兩個方面進行了分析

一方面,根據下表顯示,SUR-adapter能夠有效地解決文生圖擴散模型中常見的語義不匹配問題,適用於不同的實驗設定。在不同類別的語意準則下,準確度也有一定的提升

另一方面,本文利用常用的BRISQUE等常用的影像品質評估指標下,對原始pretrain擴散模型和使用了SUR-adapter後的擴散模型所產生圖片的品質進行統計檢驗,我們可以發現兩者沒有顯著的差異。

我們也進行了一個人類偏好的問卷測試

#透過以上分析,可以得出結論,所提出的方法能夠在保持圖像生成品質的同時,緩解預訓練文字到圖像的固有圖文不匹配問題

簡化文生圖prompt,LLM模型產生高品質影像

簡化文生圖prompt,LLM模型產生高品質影像

我們也可以透過以下影像產生的範例來定性展示,更詳細的分析和細節請參閱本文和開源倉庫

需要進行改寫的內容是:

簡化文生圖prompt,LLM模型產生高品質影像

簡化文生圖prompt,LLM模型產生高品質影像

HCP實驗室簡介

林倞教授於2010年創辦了中山大學人機物智慧融合實驗室(HCP Lab)。近年來,該實驗室在多模態內容理解、因果及認知推理、具身智能等領域取得了豐富的學術成果。實驗室多次榮獲國內外科技獎項和最佳論文獎,並致力於開發產品級的人工智慧技術和平台

以上是簡化文生圖prompt,LLM模型產生高品質影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具