擴散模型,迎來了一個重大新應用程式-
像Sora生成影片一樣,給神經網路產生參數,直接打入了AI的底層!
這是新加坡國立大學尤洋教授團隊聯合UCB、Meta AI實驗室等機構最新開源的研究成果。
具體來說,研究團隊提出了一種用於產生神經網路參數的擴散模型p(arameter)-diff。
用它來產生網路參數,速度比直接訓練最多提高44倍,而且表現毫不遜色。
該模型一經發布後,在AI社區迅速引起了激烈的討論,圈內專家對其表現出了與普通人看到Sora時一樣的驚嘆態度。
甚至有人直接驚呼,這基本上相當於AI在創造新的AI了。
就連AI巨頭LeCun看了之後,也點讚了這一成果,表示這真的是個cute idea。
而實質上,p-diff也確實具有和Sora一樣重大的意義,對此同實驗室的Fuzhao Xue(薛復昭)博士進行了詳細解釋:
Sora產生高維度數據,即視頻,這使得Sora成為世界模擬器(從一個維度接近AGI)。
而這項工作,神經網路擴散,可以產生模型中的參數,具有成為元世界級學習器/優化器的潛力,從另一個新的重要維度向AGI邁進。
言歸正傳,p-diff到底是如何產生神經網路參數的呢?
將自編碼器與擴散模型結合
要弄清楚這個問題,首先要了解擴散模型和神經網路各自的工作特性。
擴散生成過程,是從隨機分佈到高度特定分佈的轉變,透過複合雜訊添加,將視覺資訊降級為簡單雜訊分佈。
而神經網路訓練,同樣遵循這樣的轉變過程,也同樣可以透過添加雜訊的方式來降級,研究人員正是在這一特點的啟發之下提出p-diff方法的。
從結構上看,p-diff是研究團隊在標準潛擴散模型的基礎之上,結合自編碼器設計的。
研究者首先從訓練完成、表現較好的網路參數中選取一部分,並展開為一維向量形式。
然後用自編碼器從一維向量中提取潛在表示,作為擴散模型的訓練數據,這樣做可以捕捉到原有參數的關鍵特徵。
訓練過程中,研究人員讓p-diff透過正向和反向過程來學習參數的分佈,完成後,擴散模型像產生視覺訊息的過程一樣,從隨機噪音中合成這些潛在表示。
最後,新產生的潛在表示再被與編碼器對應的解碼器還原成網路參數,並用於建構新模型。
下圖是透過p-diff、使用3個隨機種子從頭開始訓練的ResNet-18模型的參數分佈,展示了不同層之間以及同一層不同參數之間的分佈模式。
為了評估p-diff所產生參數的質量,研究人員利用3種類型、每種兩個規模的神經網絡,在8個資料集上對其進行了測試。
下表中,每組的三個數字依序表示原始模型、整合模型和p-diff產生的模型的評估成績。
結果可以看到,用p-diff產生的模型表現基本上都接近甚至超過了人工訓練的原始模型。
效率上,在不损失准确度的情况下,p-diff生成ResNet-18网络的速度是传统训练的15倍,生成Vit-Base的速度更是达到了44倍。
额外的测试结果证明,p-diff生成的模型与训练数据有显著差异。
从下图(a)可以看到,p-diff生成的模型之间的相似度低于各原始模型之间的相似度,以及p-diff与原始模型的相似度。
而从(b)和(c)中可知,与微调、噪声添加方式相比,p-diff的相似度同样更低。
这些结果说明,p-diff是真正生成了新的模型,而非仅仅记忆训练样本,同时也表明其具有良好的泛化能力,能够生成与训练数据不同的新模型。
目前,p-diff的代码已经开源,感兴趣的话可以到GitHub中查看。
论文地址:https://arxiv.org/abs/2402.13144
GitHub:https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion
以上是打入AI底層! NUS尤洋團隊以擴散模型建構神經網路參數,LeCun按讚的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器