搜尋
首頁科技週邊人工智慧楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

不得不說,現在拍寫真是「簡單到放肆」了。

真人不用出鏡頭,不用費心凹姿勢、搞髮型,只需一張本人圖像,等待幾秒鐘,就能獲得7種完全不同風格:

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

仔細看,造型/pose全都給你整得明明白白,原圖直出修也不用修了。

這擱以前,不得在寫真館耗上至少整整一天,把咱和攝影師、化妝師都累個半死不活。

以上,便是一個叫做InstantID AI的厲害之處。

除了現實寫真,它還能整點「非人類的」:

例如貓頭貓身,但仔細看又有你的臉部特徵。

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

各種虛擬風格就更不用說了:

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

#像style 2,真人直接變石像。

當然,輸入石像也能直接變:

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

#對了,還能進行兩個人臉融合的高能操作,看看20%的楊冪80%的泰勒長什麼樣子:

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

一張圖無限高品質變身,可是叫它玩明白了。

所以,這是怎麼做到的?

基於擴散模型,可與SD無縫整合

作者介紹,目前的影像風格化技術已經可以做到只需一次前向推理即可完成任務(即基於ID embedding)

但這種技術也有問題:要麼需要對眾多模型參數進行廣泛微調,要麼與社群開發的預訓練模型缺乏相容性,要麼無法保持高保真度的臉部特徵。

為了解決這些挑戰,他們開發了InstantID。

InstantID基於擴散模型打造,其即插即用(plug-and-play)模組僅靠單張面部圖像即可熟練地處理各種風格化變身,同時確實高保真度。

最值得一提的是,它可與時下流行的文本到圖像預訓練擴散模型無縫集成(例如SD1.5、SDXL),作為插件使用。

具體來看,InstantID由三個關鍵組成部分:

(1)捕捉魯棒語義人臉資訊的ID embedding;

(2)具有解耦交叉注意力的輕量級適配模組,方便圖像作為視覺提示;

(3)IdentityNet網絡,它通過額外的空間控制對參考圖像的詳細特徵進行編碼,最終完成圖像生成。

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

而比業界先前的工作,InstantID有幾點不同:

一是不用訓練UNet,因此可以保留原始文字到圖像模型的生成能力,並與社區中現有的預訓練模型和ControlNet相容。

二是不需要test-time調整,因此對於特定風格,不需要收集多張影像進行微調,只需要對單一影像進行一次推斷即可。

三是除了實現更好的臉部保真度,也保留了文字可編輯性。如下圖所示,只需幾個字,即可讓形象變性別、換套裝、改髮型以及髮色。

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

再次強調,以上所有效果只需1張參考影像在幾秒鐘內即可完成。

如下圖實驗證明,多來幾張參考圖的作用基本上不大,1張就能做得很好

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

以下是一些具體對比。

比較物件是現有的免調優SOTA方法:IP-Adapter (IPA)、IP-Adapter-FaceID以及前兩天騰訊剛出品的PhotoMaker

可以看到,大家都挺「卷」的,效果都不賴——但仔細對比的話,PhotoMaker和IP-Adapter-FaceID保真度都不錯,但文字控制能力明顯差一點。

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

相比之下,InstantID的臉和樣式能更好地融合,在實現了更好保真度的同時,還保留了良好的文本可編輯性。

除此之外,還有與InsightFace Swapper模型的比較,你覺得哪個效果比較好呢?

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

作者介紹

本文共5位作者,來自神秘的InstantX團隊(網路上沒有搜到太多資訊)

不過一作是來自小紅書的Qixun Wang。

通訊作者王浩帆也是小紅書的工程師,從事可控和條件內容生成(AIGC)方面的研究,是CMU’20屆校友。

楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格

以上是楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)