1.1 起源
2015年在Deep Unsupervised Learning using Nonequilibrium Thermodynamics 這篇文章中提出,當時的生成模型例如VAE,有一個很大的難點,就是這類模型是先定義了條件分佈,然後再定義變分後驗去適配,最後會導致需要同時優化條件分佈和變分後驗,然而這是很困難的。如果我們可以定義一個簡單的過程,把資料分佈映射到標準高斯,「生成器」的任務就變成了簡單的擬合這個過程的逆過程的每一小步,這,就是diffusion model的核心思想。然而這篇文章當時並沒有掀起什麼波瀾。
1.2 發展
#時間來到2020年,基於前人的思想,提出了DDPM模型(Denoising Diffusion Probabilistic Models),相對於基礎的擴散模型,作者結合了擴散模型和去噪分數,來引導訓練以及採樣的過程,帶來了生成圖像樣本適量的提升,使其在訓練更簡單穩定的條件下,最後的結果可以和GAN模型相當。
圖2-DDPM的產生結果
然而DDPM模型也並非完美無缺,由於擴散過程是一個馬爾科夫鏈,其缺點就是需要比較大的擴散步數才可以獲得比較良好的效果,這導致了樣本生成很慢。
於是繼DDPM之後,時間來到2021年,Song等人提出了DDIM(Denoising Diffusioin Implicit Model),其改造了DDPM的擴散過程的採樣方法,將傳統的馬可夫擴散過程推廣到了非馬可夫過程,可以用更小的採樣步數來加速樣本生成,大大的提高了效率。
後續也有一些改進的工作,將擴散模型和傳統的生成網路進行融合,例如將VAE和DM模型結合,GAN DM的結合等等,筆者再此就不一一贅述了。1.3 爆發
#2022年,Google基於擴散模型推出了新的AI系統,可以將文字描述轉為逼真影像。
#圖3
############################## ###########################################################################由Google給出的原理圖可以看出,輸入的文字首先經過編碼,然後由一個文字轉圖像的擴散模型轉化為64*64的小圖,進一步的,利用超分辨率擴散模型對小圖進行處理,在進一步的迭代過程中提升影像的分辨率,得到最後的生成結果-一張1024*1024的最終影像。這個神奇的過程就像是大家使用中所感受到的一樣,輸入了一段文字——一隻穿著紅色點點高領衫,戴著藍色方格帽子的金毛狗狗,然後程式就自動生成了上面你所看到的狗狗圖片。 ##########另一款熱度頗高的現象級應用——novalAI,這本來是一個致力於AI寫作的網站,基於當前火熱的圖像生成,它結合網絡上的圖片資源,訓練了一個專注於二次元的圖像生成模型,從效果上看已經初具人類畫手的水平。
#圖5
除了傳統的輸入文字從而產出圖片之外,它還支援輸入圖片作為參考,可以讓AI基於已知的圖片基礎上產生新的圖片,一定程度上解決了AI生成結果不可控的問題。
●
那麼,如此強大的AI技術,其工作過程到底是怎樣的呢?這裡我們以比較經典的DDPM模型作為例子給出簡單的過程:2.1 前向過程##前向過程是一個往圖片上加雜訊的過程,目的是為了建構訓練樣本GT。
對於給定的初始資料分佈x0~q(x),我們逐步在資料分佈中加入高斯噪聲,這個過程有T次,每一步的結果是x1,x2,...,xt,雜訊的標準差表示為#,則加噪過程可以表述為:
#如前文所述,這是一個馬爾科夫鏈過程。最終會使得資料趨向於各向同性的高斯分佈。
#逆向過程是去雜訊的過程,如果得知,就可以從完全的標準高斯分佈中還原出x0, 經過證明如果滿足高斯分佈且 夠小,那麼仍然是一個高斯分佈,然後#無法簡單推論得到,所以我們利用一個參數為的深度學習模型去預測它,所以有:
######
如果得知x0,則透過貝葉斯公式有:
##2.3 訓練過程 如果對於機器學習有所了解的讀者應該知道,所有模型的訓練都是為了能夠最優化模型的參數,從而得到可靠的均值和方差,我們最大化模型預測分佈的對數似然,即:
經過一系列的推導, DDPM模型得到了最後的loss函數表達:
#3.計算損失並迭代最小化損失函數
● 總結
##● ########################################################################################################## ####擴散模型已經展示出了巨大的潛力,其相對於VAE模型不需要對準後驗分佈,也不需要像GAN那樣訓練額外的判別器,在包括計算機視覺,生物信息學,語音處理等方面都有應用,其在圖像生成方面的應用,將助力於提升圖像創作的效率,可能讓AI生成根據條件生成若干圖片,人類對其結果進行篩選和修改會是將來2D繪畫領域的新的工作模式,這可能會很大程度上提升2D數位資產的生產效率。 ##########然而伴隨著AI技術的發展,總是會有一些爭議,圖像生成領域也不例外,除了AI技術本身的問題,如生成的圖片結構錯誤,不合理之外,也伴隨著一些法律上的糾紛,例如AI作品本身的版權問題。技術的問題可以透過技術本身的發展來解決,我們有理由相信隨著AI技術的發展,圖像生成最後會達到一個很高的水平,這會消滅大部分低端的繪畫相關的工作,極大的解放人類的生產力。版權問題可能還是需要政府部門對於相關產業的發展投入足夠多的關注,完善相關的政策和製度,需要我們對於新興的領域有更多的思考,從而讓AI技術更好的服務於我們。
#https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2
##https://www.php.cn/link/6872937617af85db5a39a5243e858d1f
################################################################ #################https://www.php.cn/link/831da40e5907987235ebe5616446e083############################################################################# ##########以上是基於Diffusion Model的影像生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!