最近,「AI擴圖」功能以其突如其來的擴大效果引發了轟動,其滑稽而又有趣的自動填充結果頻頻走紅,在網路上掀起了熱潮。用戶積極嘗試這項功能,其180度的巨大轉變也讓人們感嘆不可思議,話題熱度持續攀升。
在引發笑聲和熱情的同時,也意味著人們不斷關注著AI是否能夠真正幫助他們解決現實問題並改善使用者體驗。隨著AIGC技術的快速發展,AI應用場景正在加速實現落地,這預示著我們將迎來一場全新的生產力變革。
近日,美圖公司旗下WHEE等產品上線AI擴圖及AI改圖功能,只需簡單的提示性輸入,用戶就可以任意修改圖像、移除畫面元素、擴充畫面,憑藉便捷的操作與驚豔的效果,大幅降低工具使用門檻,為使用者帶來高效率、高品質的影像創作體驗。
MiracleVision(奇想智慧)消除結果
MiracleVision(奇想智慧)替換效果前
MiracleVision(奇想智能)替換效果後
MiracleVision(奇想智能)AI改圖效果
#強大模型能力,讓影像編輯隨心所欲
美圖AI局部重繪模型基於擴散模型(Diffision Model)技術建構了完整的inpaint & outpaint模型框架,將內部區域重繪、前景目標消除以及外部區域擴展等任務統一到同一個方案中進行解決,並針對一些特定的效果問題做了專門的最佳化設計。
MiracleVision(奇想智慧)模型屬於文生圖模型,雖然可以透過改造第一卷積層,並將unet整體微調的方式,使其適應inpaint任務,但這樣需要修改unet原有的權重,在訓練資料量不足時可能會導致模型效能的下降。
因此,為了充分利用MiracleVision(奇想智能)已有的生成能力,團隊在局部重繪模型中不對MiracleVision(奇想智能)的unet模型進行直接微調,而是使用controlnet的方式增加一個mask的輸入分支進行控制。
同時,為了節省訓練成本,加快推理速度,使用壓縮後的controlnet模組進行訓練,盡可能減少計算量。在訓練的過程中,unet模型的參數會被固定,只有controlnet模組會更新,最後讓整個模型獲得inpaint的能力。
美圖AI局部重繪模型架構圖
#outpaint任務則是crop任務的反向操作。 crop任務是沿著圖像邊界對原始圖像進行剪裁,只保留需要的部分,是一種圖像內容的減法操作;而outpiant任務則是沿著圖像邊界向外進行擴展,借助模型的生成能力來憑空創造出原本不存在的內容,是一種圖像內容的加法操作。
本質上,outpaint任務也可以看作是一種特殊的inpaint任務,只不過mask區域位於圖像的外圍。
MiracleVision(奇想智慧)AI擴圖效果
由於outpaint任務中的mask區域只能從影像內部獲取引導訊息,其他的方向上都是影像邊界,因此生成的內容更具有隨機性,會更加的發散。為了填補影像外圍的空白區域,同時確保畫面拓展的準確性,團隊依托場景辨識演算法對影像風格及內容進行推斷,並充分利用影像內容的相關性,透過在擴展邊緣處鏡像複製原圖中的像素並疊加隨機噪聲,為模型提供適合的初始先驗,從而確保生成內容的合理性,並使得邊界過渡更加平滑。
透過多種訓練策略,自由控制物件生成與消除
一般的擴散模型在執行inpaint任務時更擅長替換而不是消除,當需要消除某一目標時,模型很容易在mask區域中繪製出一些原本不存在的新前景目標,特別是當mask區域的面積比較大的時候這現象尤其明顯,即使這些目標並沒有出現在prompt中。究其原因,主要是以下3個面向:
1.訓練集的prompt中,一般只描述了圖像中有什麼,而不會描述圖像中沒有什麼,因此讓訓練後的模型根據提示產生某一目標很容易,但是不要讓它產生目標卻很難。即使有Classifier-Free Guidance策略,可以透過把不想要的物體加到負詞中的方式來抑制該目標的生成,但始終無法將所有可能的目標全部寫到負詞中,因此模型還是會傾向於產生一些意想不到的目標;
2.從訓練資料的分佈來看,由於大規模圖像訓練集中的絕大部分圖像都是由前景和背景組合而成的,純背景的圖像佔比較小,這意味著擴散模型在訓練時就已經學習到了一種潛在的規律,即一幅圖像中大概率存在著某一個目標前景(即使prompt中並沒有提到它),這也導致模型在執行inpaint任務時更傾向於在mask區域中生成些什麼,從而使輸出圖像更接近於訓練時的分佈;
3.待填充的mask區域的形狀有時也會包含一定的語義訊息,例如在沒有其他引導的情況下,模型會更傾向於在一個形狀為貓的mask區域內填充一隻新的貓,從而導致消除任務失敗。
為了使MiracleVision(奇想智能)同時具備目標生成以及目標消除的能力,團隊採用了多任務的訓練策略:
1.在訓練階段,當mask區域落在紋理當較少的純背景區域上時,增加一個特定的prompt關鍵字作為觸發引導詞,並在模型推理階段,將這個關鍵字作為正向引導詞加入到prompt embedding 中,促使模型更多地產生背景區域。
2.由於純背景圖像在整個訓練集中佔比較小,為了提高其對於訓練的貢獻程度,在每個訓練batch中,手動採樣一定比例的背景圖像加入到訓練,使背景圖像在訓練樣本中的佔比總體保持穩定。
3.為了降低模型對於mask形狀的語意依賴,在訓練階段還會隨機產生各種不同形態mask,增加mask形狀的多樣性。
高精度紋理生成,融合更自然
由於訓練集中高清的紋理資料只佔全部訓練資料的一小部分,因此在執行inpaint任務時,通常不會產生紋理非常豐富的結果,導致在原圖紋理比較豐富的場景中,容易出現融合不自然、存在邊界感的情況。
為了解決這個問題,團隊基於自研紋理細節模型作為引導模型,以此來輔助MiracleVision(奇想智能)提高生成質量,抑制過擬合,使得生成區域和原圖的其他區域之間能夠更好地貼合在一起。
原圖v.s未增加紋理細節v.sMiracleVision擴圖效果
速度更快、效果更優、互動更有效率!
擴散模型類別方案在推理時通常需要進行多步驟逆擴散過程,導致單張圖片的處理耗時過長。為了在維持生成品質的同時優化使用者體驗,美圖影像研究院(MT Lab)團隊為AI局部重繪技術打造了專案調優方案,最終達到效能與效果的最佳平衡。
首先,將MiracleVision(奇想智能)前後處理與推理過程中大量的矩陣計算,盡可能地移植到GPU上並行計算,從而有效地加快了計算速度,並減少CPU端的負載。同時,在組圖的過程中,盡可能的對layer進行fuse,使用FlashAttention來降低顯存佔用,提升推理性能,並對Kernel實現進行Tuning,針對NVIDIA不同的顯示卡最大化GPU算力使用。
除此之外,依託自研的模型參數量化方法,將MiracleVision量化至8bit而不明顯損失精度。由於不同的GPU顯示卡對8bit量化的支援存在差異性,因此創新性採用混合精度策略,在不同的伺服器資源環境下自適應地選取最優算子,從而實現整體加速的最優解。
而對於解析度較高的使用者輸入影像,由於受限於伺服器資源與時間成本,很難在原始解析度情況下直接進行推理。對此,團隊透過先壓縮影像解析度至適當的大小,再基於MiracleVision(奇想智慧)進行推理,其後使用超分演算法復原影像至初始解析度下,再與原圖進行影像融合,從而既保持產生影像的清晰效果,又節約推理過程中的顯存佔用和執行時間。
美圖與三星深度合作,以AI打造手機影像編輯新體驗
#1月25日,三星電子舉辦Galaxy S24系列中國新品發表會。美圖公司深化與三星合作,為三星新品Galaxy S24系列手機相簿打造全新的AI影像編輯體驗,美圖影像研究院(MT Lab)自主研發的生成式編輯-AI擴圖與AI改圖功能也已正式上線,協助手機影像編輯創作開啟新空間。
透過AI改圖功能,使用者只需長按要編輯的影像,即可輕鬆移動、消除或調整影像大小。此外,在畫面水平線不垂直時,AI擴圖功能可以在使用者調整角度後,智慧填滿照片的缺失區域,修正畫面構圖。
基於MiracleVision(奇想智能)帶來的AI功能,美圖不僅助力用戶在手機端輕鬆實現專業級的編輯效果,創造出更具個性的照片作品,也將持續推動和提升整個手機產業的AI影像處理能力。
依托美圖影像研究院(MT Lab)強大的技術能力,MiracleVision(奇想智能)在不到半年時間已經迭代至4.0版本。未來,美圖將持續致力於提昇在電商、廣告、遊戲等產業的使用者體驗,並協助不同場景的從業人員工作流程。
以上是美圖AI局部重繪技術大揭密!想怎麼改,就怎麼改!美圖局部重繪讓你隨心所欲的詳細內容。更多資訊請關注PHP中文網其他相關文章!