不得不說,現在拍寫真是「簡單到放肆」了。
真人不用出鏡頭,不用費心凹姿勢、搞髮型,只需一張本人圖像,等待幾秒鐘,就能獲得7種完全不同風格:
仔細看,造型/pose全都給你整得明明白白,原圖直出修也不用修了。
這擱以前,不得在寫真館耗上至少整整一天,把咱和攝影師、化妝師都累個半死不活。
以上,便是一個叫做InstantID AI的厲害之處。
除了現實寫真,它還能整點「非人類的」:
例如貓頭貓身,但仔細看又有你的臉部特徵。
各種虛擬風格就更不用說了:
#像style 2,真人直接變石像。
當然,輸入石像也能直接變:
#對了,還能進行兩個人臉融合的高能操作,看看20%的楊冪80%的泰勒長什麼樣子:
一張圖無限高品質變身,可是叫它玩明白了。
所以,這是怎麼做到的?
作者介紹,目前的影像風格化技術已經可以做到只需一次前向推理即可完成任務(即基於ID embedding)。
但這種技術也有問題:要麼需要對眾多模型參數進行廣泛微調,要麼與社群開發的預訓練模型缺乏相容性,要麼無法保持高保真度的臉部特徵。
為了解決這些挑戰,他們開發了InstantID。
InstantID基於擴散模型打造,其即插即用(plug-and-play)模組僅靠單張面部圖像即可熟練地處理各種風格化變身,同時確實高保真度。
最值得一提的是,它可與時下流行的文本到圖像預訓練擴散模型無縫集成(例如SD1.5、SDXL),作為插件使用。
具體來看,InstantID由三個關鍵組成部分:
(1)捕捉魯棒語義人臉資訊的ID embedding;
(2)具有解耦交叉注意力的輕量級適配模組,方便圖像作為視覺提示;
(3)IdentityNet網絡,它通過額外的空間控制對參考圖像的詳細特徵進行編碼,最終完成圖像生成。
而比業界先前的工作,InstantID有幾點不同:
一是不用訓練UNet,因此可以保留原始文字到圖像模型的生成能力,並與社區中現有的預訓練模型和ControlNet相容。
二是不需要test-time調整,因此對於特定風格,不需要收集多張影像進行微調,只需要對單一影像進行一次推斷即可。
三是除了實現更好的臉部保真度,也保留了文字可編輯性。如下圖所示,只需幾個字,即可讓形象變性別、換套裝、改髮型以及髮色。
再次強調,以上所有效果只需1張參考影像在幾秒鐘內即可完成。
如下圖實驗證明,多來幾張參考圖的作用基本上不大,1張就能做得很好。
以下是一些具體對比。
比較物件是現有的免調優SOTA方法:IP-Adapter (IPA)、IP-Adapter-FaceID以及前兩天騰訊剛出品的PhotoMaker。
可以看到,大家都挺「卷」的,效果都不賴——但仔細對比的話,PhotoMaker和IP-Adapter-FaceID保真度都不錯,但文字控制能力明顯差一點。
相比之下,InstantID的臉和樣式能更好地融合,在實現了更好保真度的同時,還保留了良好的文本可編輯性。
除此之外,還有與InsightFace Swapper模型的比較,你覺得哪個效果比較好呢?
本文共5位作者,來自神秘的InstantX團隊(網路上沒有搜到太多資訊)。
不過一作是來自小紅書的Qixun Wang。
通訊作者王浩帆也是小紅書的工程師,從事可控和條件內容生成(AIGC)方面的研究,是CMU’20屆校友。
以上是楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格的詳細內容。更多資訊請關注PHP中文網其他相關文章!