AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

PHPz

Apr 13, 2023 am 10:37 AM

ai繪畫

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

論文網址：https://arxiv.org/pdf/2302.09778v2.pdf
專案網址：https://github.com/damo-vilab/composer

近年來來，在大數據上學習的大規模生成模型能夠出色地合成影像，但可控性有限。可控影像生成的關鍵不僅依賴條件，更重要的是依賴組合性。後者可以透過引入龐大數量的潛在組合來指數級地擴展控制空間（例如 100 個圖像，每個有 8 個表徵，產生大約 100^8 種組合）。類似的概念在語言和場景理解領域得到了探索，其中的組合性被稱為組合泛化，即從有限的已知成分中識別或生成潛在的無限數量的新組合的技能。

最新的一項研究提供了一種新的生成範式—— 可以在靈活控制輸出圖像（如空間佈局和調色板）的同時保持合成品質和模型創造力。

這項研究以組合性為核心思想，首先將圖像分解為具有代表性的因子，然後以這些因子為條件訓練擴散模型，對輸入進行重組。在推理階段，豐富的中間表徵形式作為可組合元素，為可自訂內容的創建提供了巨大的設計空間 (即與分解因子的數量成指數比例)。值得注意的是，名為 Composer 的方法支援各種層級的條件，例如將文字描述作為全局訊息，將深度圖和草圖作為局部指導，將顏色直方圖作為低級細節等。

除了提高可控性之外，該研究還確認了 Composer 可以作為通用框架，在無需再訓練的情況下促進廣泛的經典生成任務。

方法

本文所介紹的架構包含分解階段（影像被分成一組獨立的元件）與合成階段（元件利用條件擴散模型重新組合）。這裡首先簡要介紹擴散模型和使用 Composer 實現的導引方向，然後將詳細說明影像分解和合成的實現。

2.1. 擴散模型

#擴散模型是一種生成模型，透過迭代去噪過程從高斯噪聲中產生數據。通常使用簡單的均方誤差作為去雜訊目標：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

#其中，x_0 是具有可選條件c 的訓練數據， AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍是加性高斯噪聲，a_t、σ_t 是t 的標量函數，是具有可學習參數θ 的擴散模型。無分類器引導在最近的工作中得到了最廣泛的應用，用於擴散模型的條件資料取樣，其中預測的雜訊透過以下方式進行調整：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

公式 AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

#中，ω 為引導權重。 DDIM 和 DPM-Solver 常被用來加速擴散模型的取樣過程。 DDIM 也可用於將樣本 x_0 反推到其純雜訊潛在 x_T，從而實現各種影像編輯操作。

引導方向：Composer 是一個可以接受多種條件的擴散模型，可以在無分類器引導下實現各種方向：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

c_1 和c_2 是兩組條件。 c_1 和 c_2 的不同選擇表徵對條件的不同強調。

(c_2 c_1) 內的條件強調為ω， (c_1 c_2) 內的條件抑制為(1−ω)， c1∩c2 內的條件的指導權重為1.0. 。雙向指導：透過使用條件c_1 將影像x_0 反轉到潛在的x_T，然後使用另一個條件c_2 從x_T 取樣，研究能夠使用Composer 以解糾纏的方式操作影像，其中操作方向由c_2 和c_1 之間的差異來定義。

分解

#研究將影像分解為捕捉影像各個方面的去耦表徵，並且描述了該任務中使用的八種表徵，這幾種表徵都是在訓練過程中即時提取的。

說明（Caption）#：研究直接使用圖像- 文字訓練資料中的標題或描述資訊（例如，LAION-5B (Schuhmann et al., 2022)）作為圖像說明。當註解不可用時，也可以利用預先訓練好的圖像說明模型。研究使用預先訓練的 CLIP ViT-L /14@336px (Radford et al., 2021) 模型提取的句子和單字嵌入來表徵這些標題。

語意與風格（Semantics and style）：研究使用預先訓練的CLIP ViT-L/14@336px 模型擷取的影像嵌入來表徵影像的語意和風格，類似unCLIP。

顏色（Color）：研究使用平滑的 CIELab 直方圖來表徵影像的色彩統計。將 CIELab 色彩空間量化為 11 個色調值，5 個飽和度和 5 個光值，使用平滑 sigma 為 10。經驗所得，這樣設定的效果更好。

草圖（Sketch）：研究應用邊緣偵測模型，然後使用草圖簡化演算法來擷取影像的草圖。草圖捕捉影像的局部細節，具有較少的語義。

實例（Instances）：研究使用預訓練的 YOLOv5 模型對影像應用實例分割來提取其實例遮罩。實例分割遮罩反映了視覺物件的類別和形狀資訊。

深度圖（Depthmap）#：研究使用預訓練的單目深度估計模型來擷取影像的深度圖，大致捕捉影像的佈局。

強度（Intensity）：研究引入原始灰階影像作為表徵，迫使模型學習處理顏色的解糾纏自由度。為了引入隨機性，研究統一從一組預先定義的 RGB 通道權重中取樣來創建灰階影像。

掩碼（Masking）：研究引入影像掩碼，使Composer 能夠將影像產生或操作限制在可編輯的區域。使用 4 通道表徵，其中前 3 個通道對應於遮罩 RGB 影像，而最後一個通道對應於二進位遮罩。

要注意的是，雖然本文使用上述八種條件進行了實驗，但使用者可以使用 Composer 自由自訂條件。

構成

研究使用擴散模型從一組表徵中重新組合影像。具體來說，研究利用 GLIDE 架構並修改其調節模組。研究探討了兩種不同的機制來根據表徵調整模型：

全局調節：對於包括 CLIP 句子嵌入、影像嵌入和調色板在內的全局表徵，研究將它們投影並添加到時間步嵌入中。此外，研究還將圖像嵌入和調色板投射到八個額外的 token 中，並將它們與 CLIP 單字嵌入連接起來，然後將其用作 GLIDE 中交叉注意的上下文，類似於 unCLIP 。由於條件要麼是相加的，要麼可以在交叉注意中選擇性地掩蓋，所以在訓練和推理期間可以直接放棄條件，或者引入新的全局條件。

局部化調節：對於局部化表徵，包括草圖、分割遮罩、深度映射、強度影像和遮罩影像，研究使用堆疊卷積層將它們投射到與雜訊潛在x_t 具有相同空間大小的均維嵌入。然後計算這些嵌入的和，並將結果連接到 x_t，然後將其輸入到 UNet。由於嵌入是可添加的，因此很容易適應缺失的條件或合併新的局部化條件。

共同訓練策略：設計一種聯合訓練策略，使模型能夠從各種條件組合中學習解碼圖像，這一點很重要。該研究對幾種配置進行了實驗，並確定了一個簡單而有效的配置，其中對每個條件使用獨立的退出機率為 0.5，刪除所有條件的機率為 0.1，保留所有條件的機率為 0.1。對於強度影像使用 0.7 的特殊退出機率，因為它們包含了關於影像的絕大多數信息，並且在訓練過程中可能會弱化其他條件。

基本擴散模型產生 64 × 64 解析度的影像。為了產生高解析度影像，研究訓練了兩個無條件擴散模型用於上取樣，分別將影像從 64 × 64 提升到 256 × 256，以及從 256 × 256 提升到 1024 × 1024 解析度。上採樣模型的架構是從 unCLIP 修改的，其中研究在低解析度層中使用更多通道，並引入自註意區塊來擴大容量。此外還引入了一個可選的先驗模型，該模型從字幕生成圖像嵌入。根據經驗，先驗模型能夠在特定的條件組合下提高生成影像的多樣性。

實驗

變體：使用Composer 可以創建與給定圖像相似的新圖像，但透過對其表徵的特定子集所進行的條件反射在某些方面有些不同。透過仔細選擇不同表徵的組合，人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後，研究所介紹的方法比僅以圖像嵌入為條件的unCLIP 生成變體：使用Composer 可以創建與給定圖像相似的新圖像，但透過對其表徵的特定子集進行條件反射，在某些方面有所不同。透過仔細選擇不同表徵的組合，人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後，研究所介紹的方法比僅以影像嵌入為條件的 unCLIP 的重建準確率更高。

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

###################################

以上是AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用LM Studio在本地運行LLM？ - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型：LM Studio 使用指南近年來，軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM，涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇，本指南都將提供寶貴的見解和實用技巧。讓我們開始吧！概述了解在本地運行 LLM 的基本要求。在您的電腦上設置 LM Studi