「擴散模型」也能攻克演算法難題?
圖片
一位博士研究人員做了一個有趣的實驗,用「離散擴散」尋找用圖像表示的迷宮中的最短路徑。
圖片
作者介紹,每個迷宮都是透過重複添加水平和垂直牆生成的。
其中,起始點和目標點隨機選取。
從起點到目標點的最短路徑中,隨機取樣一條作為解的路徑。最短路徑是透過精確演算法算出來的。
圖片
然後使用離散擴散模型和U-Net。
將起點和目標的迷宮被編碼在一個通道中,而模型在另一個通道中用解來消除迷宮的雜訊。
圖片
再難一點的迷宮,也能做的很好。
圖片
為了估算去雜訊步驟p(x_{t-1} | x_t),演算法會估算p( x_0 | x_t)。在這個過程中可視化這一估計值(底行),顯示“當前假設”,最終聚焦在結果上。
圖片
英偉達資深科學家Jim Fan表示,這是一個有趣的實驗,擴散模型可以「渲染」演算法。它可以只從像素實現迷宮遍歷,甚至使用了比Transforme弱得多的U-Net。
我一直認為擴散模型是渲染器,而Transformer是推理引擎。看起來,渲染器本身也可以編碼非常複雜的順序演算法。
圖片
這個實驗簡直驚呆了網友,「擴散模型還能做什麼?!」
圖片
也有人表示,一旦有人在足夠好的資料集上訓練擴散Transformer,AGI就解決了。
圖片
不過這項研究尚未正式發布,作者表示稍後更新在arxiv上。
值得一提的是,在這個實驗中,他們採用了Google腦團隊曾在2021年提出的離散擴散模型。
圖片
就在最近,這項研究重新更新了一版。
「生成模型」是機器學習中的核心問題。
它既可用於衡量我們擷取自然資料集統計資料的能力,也可用於需要產生影像、文字和語音等高維度資料的下游應用程式。
GAN、VAE、大型自回歸神經網路模型、歸一化流等方法,在樣本品質、取樣速度、對數似然,以及訓練穩定性方面都各有千秋。
最近,「擴散模型」已成為圖像、音訊生成,最受歡迎的替代方案。
它可以用更少的推理步驟,實現了與GAN相當的樣本質量,以及與自回歸模型相當的對數似然。
圖片
論文網址:https://www.php.cn/link/46994a3cd8d943d03b44b8fc9792d435
#雖然已有人提出了離散和連續狀態空間的擴散模型,但最近的研究主要集中在,連續狀態空間中運行的高斯擴散過程(如實值圖像和波形資料)。
離散狀態空間的擴散模型,已在文本和圖像分割領域進行了探索,但是還沒有在文本和圖像的大規模生成任務中,證明是一個有競爭力的模型。
Google研究團隊提出了一個全新的離散去噪擴散機率模型(D3PM)。
研究中,作者證明了過度矩陣的選擇是一個重要的設計決策,它能改善圖像和文字領域的結果。
此外,他們也提出了一個新的損失函數,它結合了變分下界和輔助的交叉熵損失。
在文本方面,這個模型在字元級文本生成方面取得了很好的效果,同時可以擴展到大詞彙量的LM1B資料集上。
在CIFAR-10影像資料集上,最新模型接近了連續空間DDPM模型的樣本質量,並超過了連續空間 DDPM 模型的對數似然。
圖片
Arnaud Pannatier
#Arnaud Pannatier從2020年3月在導師François Fleuret的機器學習小組開始攻讀博士學位。
他最近開發了HyperMixer,使用超級網路讓MLPMixer能夠處理各種長度輸入。這使得模型能夠以一種排列不變的方式處理輸入,並證明了它給了模型一種隨著輸入長度線性擴展的注意力行為。
在EPFL,他先後獲得了物理學學士學位和電腦科學與工程碩士學位(CSE-MASH)。
以上是擴散模型攻克演算法難題,AGI不遠了!谷歌大腦找到迷宮最短路徑的詳細內容。更多資訊請關注PHP中文網其他相關文章!