最近一段時間,你可能或多或少的聽過「科目三」,搖花手、半崴不崴的腳,配合著節奏鮮明的音樂,這一舞蹈動作遭全網模仿。
如果相似的舞蹈,讓 AI 生成會怎麼樣?就像下圖所展示的,不管是現代人、還是紙片人,都做著整齊劃一的動作。你可能猜不到的是,這是根據一張圖片生成的舞蹈影片。
人物動作難度加大,產生的影片也非常絲滑(最右邊):
讓梅西、鋼鐵人動起來,也不在話下:
##還有各種動畫小姐姐。
##論文網址:https://arxiv.org/pdf/2311.17117.pdf
計畫網址:https://humanaigc.github.io/ animate-anyone/########################為了讓外觀保持一致性,研究引進了ReferenceNet。此網路採用對稱的UNet結構,旨在捕捉參考影像的空間細節。在每個對應的UNet塊層中,研究使用空間-注意力機制將ReferenceNet的特徵整合到去雜訊UNet中。這種架構使得模型能夠在一致的特徵空間中全面地學習與參考圖像的關係############為了確保姿態可控性,該研究設計了一種輕量級姿態引導器,以有效地將姿態控制訊號整合到去噪過程中。為了實現時間穩定性,本文引入了時間層( temporal layer)來對多個幀之間的關係進行建模,從而在模擬連續且平滑的時間運動過程的同時保留視覺品質的高解析度細節。 ############Animate Anybody 經過在 5K 角色影片剪輯的內部資料集上的訓練而得到,如圖 1 所示,展示了各種角色的動畫結果。與以往的方法相比,本文的方法有幾個明顯的優點:######
本文在兩個特定的人類影片合成基準(UBC 時尚影片資料集和 TikTok 資料集)上進行了評估。結果顯示,Animate Anybody 取得了 SOTA 結果。此外,該研究還將 Animate Anybody 方法與在大規模資料上訓練的一般圖像到影片方法進行了比較,結果顯示 Animate Anybody 在角色動畫方面展示了卓越的能力。
Animate Anybody 與其他方法的比較:
本文的處理方式如圖2 所示,網路的原始輸入由多幀雜訊構成。為了實現去噪效果,研究者採用了基於 SD 設計的配置方式,並使用了相同的框架和區塊單元,並繼承了來自 SD 的訓練權重。具體來說,這個方法包括三個關鍵部分,分別是:
ReferenceNet
ReferenceNet 是參考影像特徵提取網絡,它的框架與去噪UNet 大致相同,僅有時間層不同。因此,ReferenceNet 繼承了與去噪 UNet 類似的原始 SD 權重,並且每個權重更新都是獨立進行的。研究者解釋了將 ReferenceNet 的特徵整合到去噪 UNet 的方法。
ReferenceNet 的設計有兩個優點。第一,ReferenceNet 可以利用原始 SD 的預訓練影像特徵建模能力,產生初始化良好的特徵。第二,由於 ReferenceNet 與去噪 UNet 本質上具有相同的網絡結構和共享初始化權重,因而去噪 UNet 可以選擇性地從 ReferenceNet 中學習在同一特徵空間關聯的特徵。
姿態引導器
#重寫後的內容為:此輕量級姿態引導器採用了四個卷積層(4×4內核,2×2步幅),通道數分別為16、32、64、128,類似於[56]中的條件編碼器,用於對齊解析度與潛在雜訊相同的姿態影像。處理後的姿態影像被加入到潛在雜訊中,然後輸入到去雜訊UNet進行處理。姿態引導器使用高斯權重進行初始化,並在最終的映射層中使用了零卷積
時間層
時間層的設計靈感來自AnimateDiff。對於一個特徵圖x∈R^b×t×h×w×c,研究者先將它變形為x∈R^(b×h×w)×t×c,然後執行時間注意力,即沿著維度t 的自註意力。時間層的特徵透過殘差連接合併到了原始特徵中,這種設計與下文的雙階段訓練方法一致。時間層專門在去雜訊 UNet 的 Res-Trans 區塊內使用。
訓練策略
#訓練過程分成兩個階段。
重寫後的內容: 在第一階段的訓練中,使用單一視訊畫面進行訓練。在去噪 UNet 模型中,研究者暫時排除了時間層,將單幀雜訊作為輸入。同時,也對參考網路和姿態引導器進行了訓練。參考影像是從整個影片片段中隨機選擇的。他們使用了預訓練權重來初始化去噪 UNet 和 ReferenceNet 模型。姿態引導器的初始化使用了高斯權重,但最後的投影層除外,該層使用了零卷積。 VAE 的編碼器和解碼器以及 CLIP 影像編碼器的權重保持不變。這一階段的最佳化目標是在給定參考圖像和目標姿態的條件下生成高品質的動畫圖像
在第二階段,研究者將時間層引入先前訓練好的模型,並使用AnimateDiff 中預先訓練好的權重來初始化。模型的輸入包括一個 24 幀的視訊片段。在這階段,只訓練時間層,同時固定網路其他部分的權重。
定性結果:如圖3 顯示,本文方法可以製作任意角色的動畫,包括全身人像、半身人像、卡通人物和仿人角色。該方法能夠產生高清晰度和逼真的人物細節。即使在大幅度運動的情況下,它也能與參考影像保持時間上的一致性,並在影格與影格之間表現出時間上的連續性。
時尚影片合成。時尚影片合成的目的是利用驅動姿態序列將時尚照片轉化為逼真的動畫影片。實驗在 UBC 時尚影片資料集上進行,該資料集由 500 個訓練影片和 100 個測試影片組成,每個影片包含約 350 個幀。定量比較見表 1。在結果中可以發現,本文方法優於其他方法,尤其是在視訊度量指標方面表現出明顯的領先優勢。
定性比較如圖 4 所示。為了進行公平比較,研究者使用 DreamPose 的開源程式碼獲得了未進行樣本微調的結果。在時尚影片領域,對服裝細節的要求非常嚴格。然而,DreamPose 和 BDMM 生成的影片無法保持服裝細節的一致性,並在顏色和精細結構元素方面表現出明顯的誤差。相較之下,本文方法產生的結果能更有效地保持服裝細節的一致性。
人類舞蹈生成是一項研究,其目標是透過對現實舞蹈場景圖像進行動畫處理來產生人類舞蹈。研究者使用了TikTok資料集,其中包括340個訓練影片和100個測試影片。他們按照DisCo的資料集劃分方法,使用相同的測試集進行了定量比較,其中包含10個TikTok風格的影片。透過表2可以看出,本文的方法取得了最佳結果。為了增強模型的泛化能力,DisCo結合了人類屬性預訓練,並利用大量影像對進行了模型預訓練。相較之下,其他研究者只在TikTok資料集上進行訓練,但結果仍優於DisCo
圖5 中展示了與DisCo 的定性比較。考慮到場景的複雜性,DisCo 的方法需要額外使用 SAM 來產生人類前景遮罩。相反,本文方法表明,即使沒有明確的人體遮罩學習,模型也能從被攝體的運動中掌握前景與背景的關係,而無需事先進行人體分割。此外,在複雜的舞蹈序列中,該模型在保持整個動作的視覺連續性方面表現突出,並在處理不同的角色外觀方面表現出更強的穩健性。
圖像 - 視訊的通用方法。目前,許多研究都提出了基於大規模訓練資料、具有強大生成能力的視訊擴散模型。研究者選擇了兩種最著名、最有效的圖像 - 視訊方法進行比較:AnimateDiff 和 Gen2。由於這兩種方法不進行姿態控制,因此研究者只比較了它們保持參考影像外觀保真度的能力。如圖 6 所示,目前的圖像 - 視訊方法在產生大量角色動作方面面臨挑戰,並且難以在影片中保持長期的外觀一致性,從而阻礙了對一致角色動畫的有效支持。
請查閱原始論文以獲取更多資訊
以上是全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付的詳細內容。更多資訊請關注PHP中文網其他相關文章!