搜尋
首頁科技週邊人工智慧OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

影像生成領域,看來又要變天了。

就在剛剛,OpenAI開源了比擴散模型更快、性能更好的一致性模型:

#無需對抗訓練,就能生成高品質圖片!

這個重磅消息一經發出,立刻引爆學術圈。

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

雖說論文本身在3月份就已低調發布,但當時大夥兒普遍認為它只是個OpenAI的前沿研究,並不會真正將細節公開。

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

沒想到這次直接來了個開源。有網友立刻上手實測了一波效果,發現只需要3.5秒左右就能生成64張左右256×256的影像:

##遊戲結束!

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

這是這位網友產生的圖像效果,看起來還不錯:

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

還有網友調侃:這次OpenAI終於Open了!

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

值得一提的是,論文一作OpenAI科學家宋颮,是一位清華校友,16歲就透過領導計畫進入清華數理基礎科學班求學。

一起來看看這次OpenAI開源了一項怎樣的​​研究。

開源了一個怎樣的重磅研究?

作為一個影像產生AI,一致性模型(Consistency Model)最大的特點在於快又好。

相比擴散模型,它主要有兩大優點:

其一,無需對抗訓練(adversarial training),就能直接生成高品質的影像樣本。

其二,相較於擴散模型可能需要數百甚至上千次迭代,一致性模型只需要一兩步驟就能搞定多種影像任務-

#包括上色、去雜訊、超分等,都可以在幾步之內搞定,而不需要對這些任務進行明確訓練。 (當然,如果進行少樣本學習的話,生成效果也會更好)

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

#所以一致性模型究竟是如何實現這種效果的?

從原理來看,一致性模型的誕生與ODE(常微分方程)式產生擴散模型有關。

圖中可見,ODE會先一步步將圖片資料轉換成噪聲,隨後再進行一個逆向求解,從噪聲中學習生成影像。

而就在這個過程中,作者們試圖將ODE軌跡上的任何點(如Xt、Xt和Xr)映射到它的原點(如X0)進行生成建模。

隨後,這個映射的模型被命名為一致性模型,因為它們的輸出都是同一軌跡上的同一點:

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作##基於這種思路,一致性模型不需要再經過漫長的迭代,才能產生一個相對品質比較高的影像,而是能做到一步生成。

下圖是一致性模型(CD)和擴散模型(PD)在影像生成指標FID上的對比。

其中,PD是去年史丹佛和Google大腦提出的一種最新擴散模型方法漸進式蒸餾(progressive distillation)的簡稱,CD(consistency distillation)則是一致性蒸餾方法。

可以看出,幾乎在所有資料集上,一致性模型的影像產生效果都要比擴散模型更好,唯一的例外是256×256的房間資料集上:

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作除此之外,作者們也將擴散模型、一致性模型和GAN等模型在其他各種資料集上進行了對比:

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

不過也有網友提到,這次開源的AI一致性模型,能產生的圖像還是太小:

很難過,這次開源的版本生成的圖像還是太小了,如果能給出生成更大圖像的開源版本,肯定會非常讓人興奮。

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

也有網友猜測,可能只是OpenAI還沒訓練出來。不過可能訓練出來了我們也不一定能搞到程式碼(手動狗頭)。

不過對於這項工作的意義,TechCrunch表示:

你若是有一堆GPU,那用擴散模型在一兩分鐘內迭代1500多次,生成圖片的效果當然是極好的。

但如果你想在手機上或聊天對話的時候即時產生圖片,那顯然擴散模型不是最好的選擇。

一致性模型是OpenAI下一個重要動作。

期待OpenAI會開源一波解析度更高的圖像生成AI~

清華校友宋颮一作

論文一作宋颯,目前是OpenAI的研究科學家。

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

他14歲時,曾以17位評審全票通過的成績,入選「清華大學新百年領軍計畫」。在隔年高考中,他又成為連雲港市理科狀元,順利考入清華。

2016年,宋颯從清華大學數理基礎科學班畢業,此後赴史丹佛深造。 2022年,宋颮獲史丹佛電腦科學博士學位,而後加入OpenAI。

在博士期間,他的一作論文「Score-Based Generative Modeling through Stochastic Differential Equations」也獲得過ICLR 2021的傑出論文獎。

OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作

根據其個人主頁信息,從2024年1月開始,宋颮將正式加入加州理工學院電子系和計算數學科學系,擔任助理教授。

專案地址:
##https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f

#論文地址:


##論文地址:

https://www.php.cn/link/5f25fbe144e4a81a1b0080b6c1032778#########參考連結:###[1]https://twitter.com/alfredplpl/status/1646217811898 ###[2]https://twitter.com/_akhaliq/status/1646168119658831874###

以上是OpenAI新生成模式開源炸場!比Diffusion更快更強,清華校友宋颯一作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
您必須在無知的面紗後面建立工作場所您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

決策,決策……實用應用AI的下一步決策,決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼Apr 29, 2025 am 11:13 AM

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

為什麼同情在AI驅動的未來中比控制者更重要為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

用於產品分類的AI:機器可以總稅法嗎?用於產品分類的AI:機器可以總稅法嗎?Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心的需求會引發氣候技術反彈嗎?數據中心的需求會引發氣候技術反彈嗎?Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

AI和好萊塢的下一個黃金時代AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man?Chatgpt是否會慢慢成為AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器