搜尋
首頁科技週邊人工智慧蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

習慣了 Stable Diffusion,如今終於又迎來一個俄羅斯娃娃式(Matryoshka)Diffusion 模型,還是蘋果做的。

在生成式 AI 時代,擴散模型已成為圖像、視訊、3D、音訊和文字生成等生成式 AI 應用的流行工具。然而將擴散模型拓展到高解析度領域仍然面臨巨大挑戰,這是因為模型必須在每個步驟重新編碼所有的高解析度輸入。解決這些挑戰需要使用具有註意力塊的深層架構,這使得優化更困難,消耗的算力和記憶體也更多。

怎麼辦呢?最近的一些工作專注於研究用於高解析度影像的高效網路架構。但現有方法都沒有顯示出超過 512×512 解析度的效果,並且產生品質落後於主流的級聯或 latent 方法。

我們以OpenAI DALL-E 2、GoogleIMAGEN 和英偉達eDiffI 為例,它們透過學習一個低解析度模型和多個超解析度擴散模型來節省算力,其中每個組件都單獨訓練。另一方面,latent 擴散模型(LDM)僅學習低解析度擴散模型,並依賴單獨訓練的高解析度自編碼器。對於這兩種方案,多階段式 pipeline 使訓練與推理複雜化,從而往往需要精心調整或進行超參。

本文中,研究者提出了俄羅斯娃娃式擴散模型(Matryoshka Diffusion Models,MDM)它是用於端到端高解析度影像生成的全新擴散模型。代碼很快將釋出。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

論文網址:https://arxiv.org/pdf/2310.15111.pdf

該研究提出的主要觀點是將低解析度擴散過程作為高解析度產生的一部分,透過使用嵌套UNet 架構在多個解析度上執行聯合擴散過程。

研究發現:MDM 與嵌套UNet 架構一起實現了1)多重解析度損失:大幅提高了高解析度輸入去噪的收斂速度;2)高效的漸進式訓練計劃,從訓練低解析度擴散模型開始,按照計劃逐步添加高解析度輸入和輸出。實驗結果表明,多解析度損失與漸進式訓練相結合可以讓訓練成本和模型品質獲得更好的平衡。

該研究在類別條件影像生成以及文字條件影像和視訊生成方面評估了 MDM。 MDM 讓訓練高解析度模型無需使用級聯或潛在擴散(latent diffusion)。消融研究表明,多分辨率損失和漸進訓練都極大地提高了訓練效率和品質。

我們來欣賞以下 MDM 產生的圖片和影片。
蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

方法概覽

研究者介紹稱,MDM 擴散模型在高解析度中進行端到端訓練,同時利用層級結構的資料形成。 MDM 首先在擴散空間中泛化了標準擴散模型,然後提出了專用的嵌套架構和訓練流程。

首先來看如何在擴展空間中對標準擴散模型進行泛化

與級聯或latent 方法的不同之處在於,MDM 透過在一個擴展空間中引入多解析度擴散過程,學習了具有層級結構的單一擴散過程。具體如下圖 2 所示。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

具體來講,給定一個資料點x ∈ R^N,研究者定義了與時間相關的隱變數z_t =  z_t^1 , . . . , z_t^R  ∈ R^N_1 ...NR。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

研究者表示,在擴展空間中進行擴散建模有以下兩點優點。其一,我們在推理期間通常關心全分辨率輸出 z_t^R,那麼所有其他中等分辨率被看作是額外的隱變量 z_t^r,增加了建模分佈的複雜度。其二,多分辨率依賴性為跨 z_t^r 共享權重和計算提供了機會,從而以更高效的方式重新分配計算,並實現高效訓練和推理。

接下來看嵌套架構(NestedUNet)如何運作

與典型的擴散模型類似,研究者使用 UNet 網路結構來實現 MDM,其中並行使用殘差連接和計算區塊以保留細粒度的輸入資訊。這裡的計算區塊包含多層卷積和自註意力層。 NestedUNet 與標準 UNet 的代碼分別如下。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

除了相較於其他層級方法的簡單性,NestedUNet 允許以最高效的方式對計算進行分配。如下圖 3 所示,研究者早期探索發現,當以最低解析度分配大部分參數和計算時,MDM 實現了明顯更好的擴展性。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

最後是學習

研究者使用常規去噪目標在多個解析度下訓練 MDM,如下公式 (3) 所示。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

這裡用到了漸進式訓練。研究者按照上述公式 (3) 直接對 MDM 進行端到端訓練,並展示了比原始基線方法更好的收斂性。他們發現,使用類似於 GAN 論文中提出的簡單漸進式訓練方法,大大加速了高解析度模型的訓練。

此訓練方法從一開始就避免了高成本的高解析度訓練,加速了整體收斂。不僅如此,他們還合併了混合解析度訓練,該訓練方法在單一 batch 中同時訓練具有不同最終解析度的樣本。

實驗及結果

#MDM 是通用技術,適用於可以逐步壓縮輸入維度的任何問題。 MDM 與基準方法的比較如下圖 4 所示。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

表 1 給出了在 ImageNet(FID-50K)和 COCO(FID-30K)上的比較結果。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

下圖5、6、7 展示了MDM 在圖像生成(圖5)、文字到圖像(圖6)和文字到影片(圖7)方面的結果。儘管是在相對較小的資料集上進行訓練的,但 MDM 仍顯示出生成高解析度影像和影片的強大零樣本(zero-shot)能力。

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率

#有興趣的讀者可以閱讀論文原文,了解更多研究內容。

以上是蘋果文生圖大模型亮相:俄羅斯娃娃式擴散,支援1024x1024分辨率的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境