表
現有動畫模型的的限制 當前的人類動畫模型經常受到限制。 他們經常依靠小型專業數據集,導致低質量,僵化的動畫。 許多人在各種環境中的概括中掙扎,缺乏現實主義和流動性。 對單個輸入方式的依賴(例如,僅文本或圖像)嚴重限制了其捕獲人類運動和表達細微差別的能力。
> Omnihuman-1通過多模式方法來應對這些挑戰。它將文本,音頻和姿勢信息集成為條件信號,從而創建上下文豐富而逼真的動畫。 創新的Omni條件設計可以從參考圖像中保留主題身份和背景細節,從而確保一致性。獨特的培訓策略可最大化數據利用,防止過度擬合和提高性能。
示例Omnihuman-1視頻
僅從圖像和音頻中生成逼真的視頻。它處理各種視覺和音頻樣式,以任何縱橫比和身體比例製作視頻。 最終的動畫具有詳細的運動,照明和紋理。 (注意:簡短省略參考圖像,但可應要求可用。)> >說話
您的瀏覽器不支持視頻標籤。唱歌
您的瀏覽器不支持視頻標籤。多樣性
您的瀏覽器不支持視頻標籤。>半身案件
您的瀏覽器不支持視頻標籤。模型培訓和體系結構
Omnihuman-1的訓練利用了多條件擴散模型。 核心是預先訓練的海藻模型(MMDIT體系結構),最初是在一般文本視頻對中訓練的。 然後,通過整合文本,音頻和姿勢信號來適應人類視頻的生成。 因果3D變量自動編碼器(3DVAE)將視頻投放到潛在空間,以進行有效的降級。 該體系結構巧妙地重新重新重複了從參考圖像中保留主題身份和背景的剝落過程。模型體系結構圖
OMNI條件培訓策略>
這個三階段的過程逐漸完善了擴散模型。 它根據其運動相關強度(弱到強),依次介紹了調節方式(文本,音頻,姿勢)。這樣可以確保每種模式的平衡貢獻,從而優化動畫質量。 音頻調節使用WAV2VEC進行特徵提取,姿勢調節會集成姿勢熱圖。
> >本文使用大量數據集(18.7萬小時的與人類相關數據)進行了嚴格的實驗驗證。 Omnihuman-1優於各種指標(IQA,ASE,SYNC-C,FID,FVD)的現有方法,在處理不同的輸入配置時演示了其出色的性能和多功能性。
>
擴展視覺結果:演示多功能
擴展的視覺結果展示了Omnihuman-1生成多樣化和高質量動畫的能力,突出了其處理各種樣式,對象相互作用和姿勢驅動的方案的能力。
結論
Omnihuman-1代表了人類視頻生成中的一個重大飛躍。它可以從有限的輸入及其多模式功能中創建現實動畫的能力,使其成為一項非常出色的成就。 該模型有望徹底改變數字動畫領域。
以上是Bytedance剛剛使AI視頻吹噓! - Omnihuman 1的詳細內容。更多資訊請關注PHP中文網其他相關文章!