搜尋
首頁科技週邊人工智慧Midjourney勁敵來了! GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈

GoogleStyleDrop一出,瞬間在網路上刷螢幕了。

給定梵谷的星空,AI化身梵谷大師,對這種抽象風格頂級理解後,做出無數幅類似的畫作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再來一張卡片通風,想要繪製的物件呆萌了很多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至,它還能精確把控細節,設計出原風格的logo。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在於,只需要一張圖作為參考,無論多麼複雜的藝術風格,都能解構再復刻。

網友紛紛表示,又是淘汰設計師的那種AI工具。

StyleDrop爆火研究便是來自Google研究團隊最新出品。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#論文網址:https://arxiv.org/pdf/2306.00983.pdf

現在,有了StyleDrop這樣的工具,不但可以更可控地繪畫,還可以完成之前難以想像的精細工作,例如繪製logo。

就連英偉達科學家稱之為「現象級」成果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「客製化」大師

論文作者介紹道,StyleDrop的靈感來源Eyedropper(吸色/取色工具)。

同樣,StyleDrop同樣希望大家可以快速、毫不費力地從單一/少數參考圖像中「挑選」樣式,以產生該樣式的圖像。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一隻樹懶能夠有18種風格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#一隻熊貓有24種風格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#小朋友畫的水彩畫,StyleDrop完美把控,甚至連紙張的褶皺都還原出來了。

不得不說,太強了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

還有StyleDrop參考不同風格對英文字母的設計:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

同樣是梵谷風的字母。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

還有線條畫。線條畫是對影像的高度抽象,對畫面生成構成合理性要求非常高,過去的方法一直很難成功。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原文中起司陰影的筆觸還原到每個圖片的物件上。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

參考安卓LOGO創作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外,研究人員也拓展了StyleDrop的能力,不僅能客製化風格,結合DreamBooth,還能客製化內容。

例如,還是梵谷風,為小柯基生成類似風格的畫作:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再來一個,下面這隻柯基有種埃及金字塔上的「獅身人面像」的感覺。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如何運作?

StyleDrop基於Muse構建,由兩個關鍵部分組成:

一個是產生視覺Transformer的參數有效微調,另一個是帶有回饋的迭代訓練。在

之後,研究人員再從兩個微調模型合成影像。

Muse是一種基於掩碼生成圖像Transformer最新的文字到圖像的合成模型。它包含兩個用於基礎影像生成(256 × 256)和超解析度(512 × 512或1024 × 1024)的合成模組。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每個模組都由一個文字編碼器T,一個transformer G,一個取樣器S,一個圖像編碼器E和解碼器D組成。

T將文字提示t∈T對應到連續嵌入空間E。 G處理文字嵌入e∈E以產生視覺token序列的對數l∈L。 S透過迭代解碼從對數中提取視覺token序列v∈V,該迭代解碼運行幾步的transformer推理,條件是文本嵌入e和從前面步驟解碼的視覺token。

最後,D將離散token序列對應到像素空間I。總的來說,給定一個文字提示t,圖像I的合成如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#圖2是一個簡化了的Muse transformer層的架構,它進行了部分修改,為的是支援參數高效微調(PEFT)與適配器。

使用L層的transformer處理在文字嵌入e的條件下以綠色顯示的視覺token序列。學習參數θ被用來建構適配器調優的權重。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#

為了訓練θ,在許多情況下,研究人員可能只給出圖片作為風格參考。

研究人員需要手動附加文字提示。他們提出了一個簡單的、模板化的方法來建構文字提示,包括對內容的描述,後面跟著描述風格的短語。

例如,研究者在表1中以「貓」描述一個對象,並附加「水彩畫」作為風格描述。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文字提示中包含內容和風格的描述至關重要,因為它有助於從風格中分離出內容,這是研究人員的主要目標。

圖3則是帶有回饋的迭代訓練。

當在單一風格參考圖像(橙色框)上進行訓練時,StyleDrop生成的一些圖像可能會顯示出從風格參考圖像中提取的內容(紅色框,圖像背景中含有與風格圖像類似的房子)。

其他圖像(藍色框)則能更好地從內容中分割出風格。對StyleDrop進行好樣本(藍色框)的迭代訓練,結果在風格和文字保真度之間取得了更好的平衡(綠色框)。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

這裡研究者也用到了兩個方法:

-CLIP分數

此方法用於測量影像和文字的對齊程度。因此,它可以透過測量CLIP分數(即視覺和文字CLIP嵌入的餘弦相似度)來評估生成影像的品質。

研究人員可以選擇得分最高的CLIP影像。他們稱這種方法為CLIP回饋的迭代訓練(CF)。

在實驗中,研究人員發現,使用CLIP得分來評估合成影像的品質是提高召回率(即文字保真度)的有效方式,而不會過多損失風格保真度。

然而從另一方面看,CLIP分數可能無法完全與人類的意圖對齊,也無法捕捉到微妙的風格屬性。

-HF

#人工回饋(HF)是一種將使用者意圖直接注入到合成影像品質評估中的更直接的方式。

在強化學習的LLM微調中,HF已經證明了它的強大和有效。

HF可以用來補償CLIP分數無法捕捉到微妙風格屬性的問題。

目前,已有大量研究關注了文本到圖像的擴散模型的個人化問題,以合成包含多種個人風格的圖像。

研究人員展示瞭如何以簡單的方式將DreamBooth和StyleDrop結合起來,從而使風格和內容都能個性化。

這是透過從兩個修改後的生成分佈中取樣來完成的,分別由風格的θs和內容的θc指導,分別是在風格和內容參考影像上獨立訓練的適配器參數。

與現有的成品不同,團隊的方法不需要在多個概念上對可學習的參數進行聯合訓練,這就帶來了更大的組合能力,因為預先訓練的適配器是分別在單一主題和風格上進行訓練的。

研究人員的整體取樣過程遵循等式(1)的迭代解碼,每個解碼步驟中取樣對數的方式有所不同。

設t為文字提示,c為無風格描述符的文字提示,在步驟k計算對數如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#其中:γ用於平衡StyleDrop和DreamBooth——如果γ為0,我們得到StyleDrop,如果為1,我們得到DreamBooth。

透過合理設定γ,我們就可以得到合適的圖像。

實驗設定

#目前為止,還沒對文字-圖像生成模型的風格調整進行廣泛的研究。

因此,研究者提出了一個全新實驗方案:

#-資料收集

研究者收集了數十張不同風格的圖片,從水彩和油畫,平面插圖,3D生動到不同材質的雕塑。

-模型配置

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈研究人員使用適配器調優基於Muse的StyleDrop 。所有實驗,使用Adam優化器更新1000步驟的轉接器權重,學習速率為0.00003。除非另有說明,研究人員使用StyleDrop來表示第二輪模型,該模型在10多個帶有人工回饋的合成圖像上進行訓練。

-評估

研究報告的量化評估是基於CLIP,衡量風格一致性和文字對齊。此外,研究人員進行了使用者偏好研究,以評估風格一致性和文字對齊。 Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如圖,研究人員收集的18個不同風格的圖片,StyleDrop處理的結果。

可以看到,StyleDrop能夠捕捉各種樣式的紋理、陰影和結構的細微差別,並且能夠比以前更好地控制風格。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

為了比較,研究人員也介紹了DreamBooth在Imagen上的結果,DreamBooth在Stable Diffusion上的LoRA實現和文本反演的結果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

具體結果如表所示,圖像-文字對齊(Text)和視覺風格對齊(Style)的人類評分(上)及CLIP評分(下)的評估指標。

##################(a) DreamBooth,(b) StyleDrop,和(c) DreamBooth StyleDrop的質性比較:### ########################這裡,研究人員應用了上述的CLIP分數的兩個指標-文字和風格分數。 ############對於文字得分,研究人員測量圖像和文字嵌入之間的餘弦相似度。對於風格得分,研究人員測量風格參考和合成影像嵌入之間的餘弦相似度。 ######

研究人員為190個文字提示產生總共1520個圖像。雖然研究人員希望最終得分能高一些,但其實這些指標並不完美。

而迭代訓練(IT)提高了文字得分,這符合研究人員的目標。

然而,作為權衡,它們在第一輪模型上的風格得分有所降低,因為它們是在合成圖像上訓練的,風格可能因選擇偏見而偏移。

Imagen上的DreamBooth在風格分數上不如StyleDrop(HF的0.644對比0.694)。

研究人員注意到,Imagen上的DreamBooth的風格分數增加並不明顯(0.569 → 0.644),而Muse上的StyleDrop的增加更加明顯(0.556 →0.694)。

研究人員分析,Muse上的風格微調比Imagen上的風格更有效。

另外,在細粒度控制上, StyleDrop捕捉微妙的風格差異,如顏色偏移,層次,或銳角的把控。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

網友熱評

要是設計師有了StyleDrop,10倍速工作效率,已經起飛。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天,人間10年,AIGC正以光速發展,那種晃瞎人眼的光速!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

工具只是順應了潮流,該被淘汰的已經早被淘汰了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

對於製作Logo來說這個工具比Midjourney好用很多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

以上是Midjourney勁敵來了! GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

4個新的雙子座功能您可以錯過4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

Camunda為經紀人AI編排編寫了新的分數Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

策劃的企業AI體驗是否有價值?策劃的企業AI體驗是否有價值?Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

如何為抹布找到最佳的多語言嵌入模型?如何為抹布找到最佳的多語言嵌入模型?Apr 23, 2025 am 11:44 AM

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

麝香:奧斯汀的機器人需要每10,000英里進行干預麝香:奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

AI震驚的樞軸:從工作工具到數字治療師和生活教練AI震驚的樞軸:從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將

公司競爭AI代理的採用公司競爭AI代理的採用Apr 23, 2025 am 11:40 AM

AI代理商的興起正在改變業務格局。 與雲革命相比,預計AI代理的影響呈指數增長,有望徹底改變知識工作。 模擬人類決策的能力

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),