搜尋
首頁科技週邊人工智慧AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍


  • 論文網址:https://arxiv.org/pdf/2302.09778v2.pdf
  • 專案網址:https://github.com/damo-vilab/composer

近年來來,在大數據上學習的大規模生成模型能夠出色地合成影像,但可控性有限。可控影像生成的關鍵不僅依賴條件,更重要的是依賴組合性。後者可以透過引入龐大數量的潛在組合來指數級地擴展控制空間(例如 100 個圖像,每個有 8 個表徵,產生大約 100^8 種組合)。類似的概念在語言和場景理解領域得到了探索,其中的組合性被稱為組合泛化,即從有限的已知成分中識別或生成潛在的無限數量的新組合的技能。

最新的一項研究提供了一種新的生成範式—— 可以在靈活控制輸出圖像(如空間佈局和調色板)的同時保持合成品質和模型創造力。

這項研究以組合性為核心思想,首先將圖像分解為具有代表性的因子,然後以這些因子為條件訓練擴散模型,對輸入進行重組。在推理階段,豐富的中間表徵形式作為可組合元素,為可自訂內容的創建提供了巨大的設計空間 (即與分解因子的數量成指數比例)。值得注意的是,名為 Composer 的方法支援各種層級的條件,例如將文字描述作為全局訊息,將深度圖和草圖作為局部指導,將顏色直方圖作為低級細節等。

除了提高可控性之外,該研究還確認了 Composer 可以作為通用框架,在無需再訓練的情況下促進廣泛的經典生成任務。

方法

本文所介紹的架構包含分解階段(影像被分成一組獨立的元件)與合成階段(元件利用條件擴散模型重新組合) 。這裡首先簡要介紹擴散模型和使用 Composer 實現的導引方向,然後將詳細說明影像分解和合成的實現。

2.1. 擴散模型

#擴散模型是一種生成模型,透過迭代去噪過程從高斯噪聲中產生數據。通常使用簡單的均方誤差作為去雜訊目標: 

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

#其中,x_0 是具有可選條件c 的訓練數據,AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍是加性高斯噪聲,a_t、σ_t 是t 的標量函數,AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍是具有可學習參數θ 的擴散模型。無分類器引導在最近的工作中得到了最廣泛的應用,用於擴散模型的條件資料取樣,其中預測的雜訊透過以下方式進行調整: 

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

公式AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

#中,ω 為引導權重。 DDIM 和 DPM-Solver 常被用來加速擴散模型的取樣過程。 DDIM 也可用於將樣本 x_0 反推到其純雜訊潛在 x_T,從而實現各種影像編輯操作。

#

引導方向:Composer 是一個可以接受多種條件的擴散模型,可以在無分類器引導下實現各種方向:

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

c_1 和c_2 是兩組條件。 c_1 和 c_2 的不同選擇表徵對條件的不同強調。

(c_2 c_1) 內的條件強調為ω, (c_1 c_2) 內的條件抑制為(1−ω), c1∩c2 內的條件的指導權重為1.0. 。雙向指導:透過使用條件c_1 將影像x_0 反轉到潛在的x_T,然後使用另一個條件c_2 從x_T 取樣,研究能夠使用Composer 以解糾纏的方式操作影像,其中操作方向由c_2 和c_1 之間的差異來定義。

分解

#研究將影像分解為捕捉影像各個方面的去耦表徵,並且描述了該任務中使用的八種表徵,這幾種表徵都是在訓練過程中即時提取的。

說明(Caption)#:研究直接使用圖像- 文字訓練資料中的標題或描述資訊(例如,LAION-5B (Schuhmann et al., 2022))作為圖像說明。當註解不可用時,也可以利用預先訓練好的圖像說明模型。研究使用預先訓練的 CLIP ViT-L /14@336px (Radford et al., 2021) 模型提取的句子和單字嵌入來表徵這些標題。

語意與風格(Semantics and style):研究使用預先訓練的CLIP ViT-L/14@336px 模型擷取的影像嵌入來表徵影像的語意和風格,類似unCLIP。

顏色(Color):研究使用平滑的 CIELab 直方圖來表徵影像的色彩統計。將 CIELab 色彩空間量化為 11 個色調值,5 個飽和度和 5 個光值,使用平滑 sigma 為 10。經驗所得,這樣設定的效果更好。

草圖(Sketch):研究應用邊緣偵測模型,然後使用草圖簡化演算法來擷取影像的草圖。草圖捕捉影像的局部細節,具有較少的語義。

實例(Instances):研究使用預訓練的 YOLOv5 模型對影像應用實例分割來提取其實例遮罩。實例分割遮罩反映了視覺物件的類別和形狀資訊。

深度圖(Depthmap)#:研究使用預訓練的單目深度估計模型來擷取影像的深度圖,大致捕捉影像的佈局。

強度(Intensity):研究引入原始灰階影像作為表徵,迫使模型學習處理顏色的解糾纏自由度。為了引入隨機性,研究統一從一組預先定義的 RGB 通道權重中取樣來創建灰階影像。

掩碼(Masking):研究引入影像掩碼,使Composer 能夠將影像產生或操作限制在可編輯的區域。使用 4 通道表徵,其中前 3 個通道對應於遮罩 RGB 影像,而最後一個通道對應於二進位遮罩。

要注意的是,雖然本文使用上述八種條件進行了實驗,但使用者可以使用 Composer 自由自訂條件。

構成

研究使用擴散模型從一組表徵中重新組合影像。具體來說,研究利用 GLIDE 架構並修改其調節模組。研究探討了兩種不同的機制來根據表徵調整模型:

全局調節:對於包括 CLIP 句子嵌入、影像嵌入和調色板在內的全局表徵,研究將它們投影並添加到時間步嵌入中。此外,研究還將圖像嵌入和調色板投射到八個額外的 token 中,並將它們與 CLIP 單字嵌入連接起來,然後將其用作 GLIDE 中交叉注意的上下文,類似於 unCLIP 。由於條件要麼是相加的,要麼可以在交叉注意中選擇性地掩蓋,所以在訓練和推理期間可以直接放棄條件,或者引入新的全局條件。

局部化調節:對於局部化表徵,包括草圖、分割遮罩、深度映射、強度影像和遮罩影像,研究使用堆疊卷積層將它們投射到與雜訊潛在x_t 具有相同空間大小的均維嵌入。然後計算這些嵌入的和,並將結果連接到 x_t,然後將其輸入到 UNet。由於嵌入是可添加的,因此很容易適應缺失的條件或合併新的局部化條件。

共同訓練策略:設計一種聯合訓練策略,使模型能夠從各種條件組合中學習解碼圖像,這一點很重要。該研究對幾種配置進行了實驗,並確定了一個簡單而有效的配置,其中對每個條件使用獨立的退出機率為 0.5,刪除所有條件的機率為 0.1,保留所有條件的機率為 0.1。對於強度影像使用 0.7 的特殊退出機率,因為它們包含了關於影像的絕大多數信息,並且在訓練過程中可能會弱化其他條件。

基本擴散模型產生 64 × 64 解析度的影像。為了產生高解析度影像,研究訓練了兩個無條件擴散模型用於上取樣,分別將影像從 64 × 64 提升到 256 × 256,以及從 256 × 256 提升到 1024 × 1024 解析度。上採樣模型的架構是從 unCLIP 修改的,其中研究在低解析度層中使用更多通道,並引入自註意區塊來擴大容量。此外還引入了一個可選的先驗模型,該模型從字幕生成圖像嵌入。根據經驗,先驗模型能夠在特定的條件組合下提高生成影像的多樣性。

實驗

變體:使用Composer 可以創建與給定圖像相似的新圖像,但透過對其表徵的特定子集所進行的條件反射在某些方面有些不同。透過仔細選擇不同表徵的組合,人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後,研究所介紹的方法比僅以圖像嵌入為條件的unCLIP 生成變體:使用Composer 可以創建與給定圖像相似的新圖像,但透過對其表徵的特定子集進行條件反射,在某些方面有所不同。透過仔細選擇不同表徵的組合,人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後,研究所介紹的方法比僅以影像嵌入為條件的 unCLIP 的重建準確率更高。

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍

###################################

以上是AI繪畫新想法:國產開源50億參數新模型,合成可控性、品質實現飛躍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。