「擴散模型」也能攻克演算法難題?
圖片
一位博士研究人員做了一個有趣的實驗,用「離散擴散」尋找用圖像表示的迷宮中的最短路徑。
圖片
作者介紹,每個迷宮都是透過重複添加水平和垂直牆生成的。
其中,起始點和目標點隨機選取。
從起點到目標點的最短路徑中,隨機取樣一條作為解的路徑。最短路徑是透過精確演算法算出來的。
圖片
然後使用離散擴散模型和U-Net。
將起點和目標的迷宮被編碼在一個通道中,而模型在另一個通道中用解來消除迷宮的雜訊。
圖片
再難一點的迷宮,也能做的很好。
圖片
為了估算去雜訊步驟p(x_{t-1} | x_t),演算法會估算p( x_0 | x_t)。在這個過程中可視化這一估計值(底行),顯示“當前假設”,最終聚焦在結果上。
圖片
英偉達資深科學家Jim Fan表示,這是一個有趣的實驗,擴散模型可以「渲染」演算法。它可以只從像素實現迷宮遍歷,甚至使用了比Transforme弱得多的U-Net。
我一直認為擴散模型是渲染器,而Transformer是推理引擎。看起來,渲染器本身也可以編碼非常複雜的順序演算法。
圖片
這個實驗簡直驚呆了網友,「擴散模型還能做什麼?!」
圖片
也有人表示,一旦有人在足夠好的資料集上訓練擴散Transformer,AGI就解決了。
圖片
不過這項研究尚未正式發布,作者表示稍後更新在arxiv上。
值得一提的是,在這個實驗中,他們採用了Google腦團隊曾在2021年提出的離散擴散模型。
圖片
就在最近,這項研究重新更新了一版。
離散擴散模型
「生成模型」是機器學習中的核心問題。
它既可用於衡量我們擷取自然資料集統計資料的能力,也可用於需要產生影像、文字和語音等高維度資料的下游應用程式。
GAN、VAE、大型自回歸神經網路模型、歸一化流等方法,在樣本品質、取樣速度、對數似然,以及訓練穩定性方面都各有千秋。
最近,「擴散模型」已成為圖像、音訊生成,最受歡迎的替代方案。
它可以用更少的推理步驟,實現了與GAN相當的樣本質量,以及與自回歸模型相當的對數似然。
圖片
論文網址:https://www.php.cn/link/46994a3cd8d943d03b44b8fc9792d435
#雖然已有人提出了離散和連續狀態空間的擴散模型,但最近的研究主要集中在,連續狀態空間中運行的高斯擴散過程(如實值圖像和波形資料)。
離散狀態空間的擴散模型,已在文本和圖像分割領域進行了探索,但是還沒有在文本和圖像的大規模生成任務中,證明是一個有競爭力的模型。
Google研究團隊提出了一個全新的離散去噪擴散機率模型(D3PM)。
研究中,作者證明了過度矩陣的選擇是一個重要的設計決策,它能改善圖像和文字領域的結果。
此外,他們也提出了一個新的損失函數,它結合了變分下界和輔助的交叉熵損失。
在文本方面,這個模型在字元級文本生成方面取得了很好的效果,同時可以擴展到大詞彙量的LM1B資料集上。
在CIFAR-10影像資料集上,最新模型接近了連續空間DDPM模型的樣本質量,並超過了連續空間 DDPM 模型的對數似然。
圖片
#專案作者
Arnaud Pannatier
#Arnaud Pannatier從2020年3月在導師François Fleuret的機器學習小組開始攻讀博士學位。
他最近開發了HyperMixer,使用超級網路讓MLPMixer能夠處理各種長度輸入。這使得模型能夠以一種排列不變的方式處理輸入,並證明了它給了模型一種隨著輸入長度線性擴展的注意力行為。
在EPFL,他先後獲得了物理學學士學位和電腦科學與工程碩士學位(CSE-MASH)。
參考資料:
以上是擴散模型攻克演算法難題,AGI不遠了!谷歌大腦找到迷宮最短路徑的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),