首頁  >  文章  >  科技週邊  >  效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

王林
王林轉載
2023-04-11 13:49:031515瀏覽

新年伊始,GoogleAI又開始發力文字-圖像生成模型了。

這次,他們的新模型Muse(繆斯)在CC3M資料集上達成了新SOTA(目前最佳水準)。

且其效率遠超熱門全球的DALL·E 2和Imagen (這兩個都屬於擴散模型),以及Parti (屬於自回歸模型)。

——單張512x512解析度影像的生成時間被壓縮到僅1.3秒。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

在影像編輯方面,只需一句文字指令,就可以對原始影像進行編輯。

(似乎不用再為學ps頭禿了~)

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

#如果想要效果更精準,還能選定遮罩位置,編輯特定區域。例如,把背景的建築換成熱氣球。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

Muse一經官宣,很快就吸引了大波關注,目前原貼已收穫4000 點讚。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

看到Google的又一力作,有人甚至已經開始預言:

現在AI開發者的競爭非常激烈,看來2023將會是非常精彩的一年。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS
效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

比DALL·E 2和Imagen更有效率

說回Google剛剛公開的Muse。

首先,就生成圖片的品質來說,Muse的作品大都畫質清晰、效果自然。

來看看更多例子感受一下~

例如戴著毛線帽的樹懶寶寶正在操作電腦;再例如酒杯中的一隻羊:

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

平時八竿子打不著的各種主體,在一張圖裡和諧共存,沒啥違和感。

要是你覺得這些還只能算AIGC的基操,那不妨再看看Muse的編輯功能。

例如一鍵換裝(還能換性別):

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

這既不需要加什麼遮罩,還能一句話搞定。

而如果用上遮罩的話,就能實現更6的操作,包括一鍵切換背景,從原地切換到紐約、巴黎、再到舊金山。


還能從海邊到倫敦、到花海,甚至飛到太空中的土星環上,玩一把刺激的滑板海豚跳。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

(好傢伙,不僅能輕鬆雲旅遊,還能一鍵上天......)

效果著實挺出色。那Muse背後都有哪些技術支援?為什麼效率比DALL·E 2和Imagen更高?

一個重要的原因是,DALL·E 2和Imagen在訓練過程中,需要將所有學到的知識都儲存在模型參數中。

於是,它們不得不需要越來越大的模型、越來越多的訓練資料來獲取更多知識——將Better和Bigger綁在了一起。

代價就是參數量龐大,效率也受到了影響。

而根據GoogleAI團隊介紹,他們採用的主要方法名曰:掩碼影像建模 (Masked image modeling)。

這是一種新興的自我監督預訓練方法,其基本想法簡單來說就是:

輸入影像的一部分被隨機屏蔽掉,然後透過預訓練文字任務進行重建。

Muse模型在離散標記的空間遮罩上訓練,並結合從預訓練語言大模型中提取的文本,預測隨機遮蔽的圖像標記。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

從上到下依序為:預訓練的文字編碼器、基礎模型、超解析度模型

Google團隊發現,使用預先訓練好的大語言模型,可以讓AI對語言的理解更加細緻透徹。

就輸出而言,由於AI對物體的空間關係、姿態等要素把握得很不錯,所以生成的圖像可以做到高保真。

與DALL·E 2、Imagen等像素空間的擴散模型相比,Muse用的是離散的token,且取樣迭代較少。

另外,和Parti等自迴歸模型相比,Muse使用了平行解碼,效率也更高。

FID上獲SOTA分數

前文提到,Muse不僅在效率上取得了提升,在生成影像品質上也非常優秀。

研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti進行PK,測試了它們的FID和CLIP分數。

(FID分數用於評估生成影像的質量,分數越低質量越高;CLIP分數則代表文字與影像的契合程度,分數越高越好。)

結果顯示,Muse-3B模型在COCO驗證集中的zero-shot FID-30K得分為7.88,僅次於參數較大的Imagen-3.4B和Parti-20B模型。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

更優秀的是,Muse-900M模型在CC3M資料集上實現了新的SOTA,FID分數為6.06,這也意味著它與文字的匹配度是最高的。

同時,此模型的CLIP分數為0.26,也達到了同期最高水準。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

除此之外,為了進一步證實Muse的出圖效率,研究者也比較了Muse與其他模型的單張影像產生時間:

#在256x256、512x512的解析度上Muse均達到了最快速度:0.5s和1.3s。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

研究團隊

Muse的研究團隊來自Google,兩位共同一作分別是Huiwen Chang和Han Zhang。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

Huiwen Chang,現為Google資深研究員。

她本科就讀於清華大學,博士畢業於普林斯頓大學,有在Adobe、Facebook等的實習經驗。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

Han Zhang,本科畢業於中國農業大學,碩士就讀於北京郵電大學,後在羅格斯大學取得了電腦科學博士學位。

其研究方向為電腦視覺,深度學習和醫學影像分析等。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

不過值得一提的是,目前Muse還沒有正式發布。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

有網友調侃,雖然它應該很香,但以穀歌的“尿性”,Muse離正式發布可能還有很長時間——畢竟他們還有18年的AI都沒發呢。

效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS

話說回來,你覺得Muse的效果怎麼樣?

對於其正式發布之事,有木有一點期待?

傳送門:​​https://www.php.cn/link/854f1fb6f65734d9e49f708d6cd84ad6​

參考鏈接:https://twitter.com/AlphaSignalAI/status/ 1610404589966180360

以上是效率碾壓DALL·E 2和Imagen,Google新模型達成新SOTA,還能一句話搞定PS的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除