首頁  >  文章  >  科技週邊  >  朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

PHPz
PHPz轉載
2023-05-08 20:34:081349瀏覽

據悉 GPT-4 將於本週發布,多模態將成為其一大亮點。目前的大語言模型正在成為理解各種模態的通用接口,能夠根據不同模態資訊來給出回應文本,但大語言模型生成的內容也僅限於文本。另一方面,目前的擴散模型DALL・E 2、Imagen、Stable Diffusion 等在視覺創作上掀起一場革命,但這些模型僅僅支持文到圖的單一跨模態功能,離通用式生成模型還有一定距離。而多模態大模型將能打通各種模態能力,實現任意模態之間轉化,被認為是通用式生成模型的未來發展方向。

清華大學電腦系朱軍教授帶領的TSAIL 團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先發布了對多模態生成式模型的一些探索工作,實現了任意模態之間的相互轉換。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。


#論文連結:https://ml.cs. tsinghua.edu.cn/diffusion/unidiffuser.pdf

開原始碼:https://github.com/thu-ml/unidiffuser

該論文提出了一個為多模態設計的機率建模框架UniDiffuser,並採用該團隊提出的基於transformer 的網路架構U-ViT,在開源的大規模圖文數據集LAION-5B 上訓練了一個十億參數量的模型,使得一個底層模型能夠高品質地完成多種生成任務(圖1)。簡單來講,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,大幅提昇文圖內容的生產效率,也進一步提升了生成式模型的應用想像。

該論文一作鮑凡目前博士在讀,是此前Analytic-DPM 的提出者,憑藉在擴散模型方面的優秀工作榮獲ICLR 2022 的outstanding paper award(目前唯一一篇大陸單位獨立完成的獲獎論文)。

此外,機器之心先前也曾通報過 TSAIL 團隊提出的 DPM-Solver 快速演算法,目前仍是擴散模式最快的生成演算法。多模態大模型正是該團隊在深度機率模型的演算法和原理方面長期深入累積的一個集中展示。工作的合作者包括人民大學高瓴人工智慧學院的李崇軒、北京智源研究院的曹越等。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

值得注意的是,該專案的論文和程式碼都已開源。

效果展示

如下的圖8 展示了UniDiffuser 在圖文共同產生的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

##如下的圖9 展示了UniDiffuser 在文到圖上的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

##如下的圖10 展示了UniDiffuser 在圖到文上的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

#如下的圖11展示了UniDiffuser 在無條件影像生成上的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。#

如下的圖12 展示了UniDiffuser 在影像改寫上的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

如下的圖15 展示了UniDiffuser 能夠實現圖文兩個模態之間的來回跳躍:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

如下圖16 展示了UniDiffuser 能對真實的兩張圖像進行插值:

方法概覽

研究團隊將針對通用生成式模型的設計劃分成了兩個子問題:

  • 機率建模框架:是否能尋找到一個機率建模框架,能同時建模出模態之間所有的分佈,例如圖文之間的邊緣分佈、條件分佈、聯合分佈等?
  • 網路架構:是否能設計出一個統一的網路架構,來支援各種不同模態的輸入?

機率建模框架

#針對機率建模框架,研究團隊提出UniDiffuser,一個基於擴散模型的機率建模框架。 UniDiffuser 能夠顯示地建模多模態資料中包含邊緣分佈、條件分佈、聯合分佈在內的所有分佈。研究團隊發現,關於不同分佈的擴散模型學習都可以統一成一個視角:首先向兩個模態的資料分別加入某種大小的噪聲,然後再預測兩個模態資料上的噪聲。其中兩個模態資料上的雜訊大小決定了具體的分佈。例如,將文字的雜訊大小設為0,則對應了文生圖的條件分佈;將文字雜訊大小設為最大值,則對應了無條件影像產生的分佈;將圖文雜訊大小設為相同,則對應了圖文的聯合分佈。根據此統一的視角,UniDiffuser 只需要將原始擴散模型的訓練演算法做少許的修改,便能同時學習上述的所有分佈— 如下圖所示,UniDiffuser 同時向所有模態加噪而非單一模態,輸入所有模態對應的雜訊大小,以及預測所有模態上的雜訊。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

以雙模態為例子,最終的訓練目標函數如下所示:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

#其中

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

代表數據,

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

代表加入到兩個模態中的標準高斯噪聲,

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

#代表兩個模態加入雜訊的大小(即時間),兩者獨立的從{1,2,…,T} 取樣,

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

為雜訊預測網絡,同時預測兩個模態上的雜訊。

在訓練後,透過向雜訊預測網路設定兩個模態適當的時間,UniDiffuser 能夠實現無條件、條件以及聯合生成。例如將文字的時間設為 0,可以實現文到圖生成;將文字的時間設定為最大值,可以實現無條件圖像生成;將圖文時間設定為相同值,可以實現圖文聯合生成。

下面羅列了 UniDiffuser 的訓練和取樣演算法,可見這些演算法相對原始的擴散模型均只做了微小的改動,易於實現。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

此外,由於UniDiffuser 同時建模了條件分佈和無條件分佈,因此UniDiffuser 天然地支援classifier-free guidance 。下面的圖3 展示了UniDiffuser 的條件生成和聯合生成在不同的guidance scale 下的效果:

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

#網路架構

針對網路架構,研究團隊提出使用基於transformer 的架構來參數化雜訊預測網路。具體地,研究團隊採用了最近提出的 U-ViT 架構。 U-ViT 將所有的輸入視為 token,並在 transformer 區塊之間加入了 U 型連接。研究團隊也採用了 Stable Diffusion 的策略,將不同模態的資料都轉換到了隱空間再進行擴散模型的建模。值得注意的是,U-ViT 架構同樣來自該研究團隊,並且已開源在 https://github.com/baofff/U-ViT。

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。

實驗結果

朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。UniDiffuser 首先和 Versatile Diffusion 進行了比較。 Versatile Diffusion 是過去的一個基於多任務框架的多模態擴散模型。首先 UniDiffuser 和 Versatile Diffusion 進行了文到圖上的效果比較。如下面的圖 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指標上均優於 Versatile Diffusion。

#####################然後 UniDiffuser 和 Versatile Diffusion 進行了圖到文上的效果比較。如下面的圖 6 所示,UniDiffuser 在圖到文上有更好的 CLIP Score。 ###########################UniDiffuser 也和專用的文到圖模型在 MS-COCO 上進行了 zero-shot FID 的比較。如下面的表 1 所示,UniDiffuser 可以和專用的文到圖模型取得可比較的效果。 #####################

以上是朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除