蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 30, 2023 pm 07:29 PM

產業matryoshka diffusion modelsmdm

習慣了 Stable Diffusion，如今終於又迎來一個俄羅斯娃娃式（Matryoshka）Diffusion 模型，還是蘋果做的。

在生成式 AI 時代，擴散模型已成為圖像、視訊、3D、音訊和文字生成等生成式 AI 應用的流行工具。然而將擴散模型拓展到高解析度領域仍然面臨巨大挑戰，這是因為模型必須在每個步驟重新編碼所有的高解析度輸入。解決這些挑戰需要使用具有註意力塊的深層架構，這使得優化更困難，消耗的算力和記憶體也更多。

怎麼辦呢？最近的一些工作專注於研究用於高解析度影像的高效網路架構。但現有方法都沒有顯示出超過 512×512 解析度的效果，並且產生品質落後於主流的級聯或 latent 方法。

我們以OpenAI DALL-E 2、GoogleIMAGEN 和英偉達eDiffI 為例，它們透過學習一個低解析度模型和多個超解析度擴散模型來節省算力，其中每個組件都單獨訓練。另一方面，latent 擴散模型（LDM）僅學習低解析度擴散模型，並依賴單獨訓練的高解析度自編碼器。對於這兩種方案，多階段式 pipeline 使訓練與推理複雜化，從而往往需要精心調整或進行超參。

本文中，研究者提出了俄羅斯娃娃式擴散模型（Matryoshka Diffusion Models，MDM）它是用於端到端高解析度影像生成的全新擴散模型。代碼很快將釋出。

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率

論文網址：https://arxiv.org/pdf/2310.15111.pdf

該研究提出的主要觀點是將低解析度擴散過程作為高解析度產生的一部分，透過使用嵌套UNet 架構在多個解析度上執行聯合擴散過程。

研究發現：MDM 與嵌套UNet 架構一起實現了1）多重解析度損失：大幅提高了高解析度輸入去噪的收斂速度；2）高效的漸進式訓練計劃，從訓練低解析度擴散模型開始，按照計劃逐步添加高解析度輸入和輸出。實驗結果表明，多解析度損失與漸進式訓練相結合可以讓訓練成本和模型品質獲得更好的平衡。

該研究在類別條件影像生成以及文字條件影像和視訊生成方面評估了 MDM。 MDM 讓訓練高解析度模型無需使用級聯或潛在擴散（latent diffusion）。消融研究表明，多分辨率損失和漸進訓練都極大地提高了訓練效率和品質。

我們來欣賞以下 MDM 產生的圖片和影片。

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率

方法概覽

研究者介紹稱，MDM 擴散模型在高解析度中進行端到端訓練，同時利用層級結構的資料形成。 MDM 首先在擴散空間中泛化了標準擴散模型，然後提出了專用的嵌套架構和訓練流程。

首先來看如何在擴展空間中對標準擴散模型進行泛化。

與級聯或latent 方法的不同之處在於，MDM 透過在一個擴展空間中引入多解析度擴散過程，學習了具有層級結構的單一擴散過程。具體如下圖 2 所示。

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率

具體來講，給定一個資料點x ∈ R^N，研究者定義了與時間相關的隱變數z_t = z_t^1 , . . . , z_t^R ∈ R^N_1 ...NR。

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率

研究者表示，在擴展空間中進行擴散建模有以下兩點優點。其一，我們在推理期間通常關心全分辨率輸出 z_t^R，那麼所有其他中等分辨率被看作是額外的隱變量 z_t^r，增加了建模分佈的複雜度。其二，多分辨率依賴性為跨 z_t^r 共享權重和計算提供了機會，從而以更高效的方式重新分配計算，並實現高效訓練和推理。

接下來看嵌套架構（NestedUNet）如何運作。

與典型的擴散模型類似，研究者使用 UNet 網路結構來實現 MDM，其中並行使用殘差連接和計算區塊以保留細粒度的輸入資訊。這裡的計算區塊包含多層卷積和自註意力層。 NestedUNet 與標準 UNet 的代碼分別如下。

蘋果文生圖大模型亮相：俄羅斯娃娃式擴散，支援1024x1024分辨率