讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

王林

Mar 01, 2024 am 11:34 AM

產業emo

有了阿里的 EMO，AI 生成或真實的圖像「動起來說話或唱歌」變得更容易了。

最近，以 OpenAI Sora 為代表的文生視訊模型又火紅了起來。

除了文字生成視頻，以人為中心的視頻合成一直備受關注。例如，專注於「說話者頭部」的視訊生成，其目標是根據用戶提供的音訊片段生成面部表情。

在技術層面上，生成表情需要準確捕捉說話者微妙且多樣化的臉部動作，這對於類似影片合成任務而言是一個巨大的挑戰。

傳統方法通常會施加一些限制以簡化視訊生成任務。例如，有些方法利用3D模型來約束臉部關鍵點，有些方法則從原始影片中提取頭部運動序列以引導整體運動。儘管這些限制降低了影片生成的複雜性，但也會限制最終面部表情的豐富度和自然度。

最近在阿里智能計算研究院發表的一篇論文中，研究者著重探討了音訊提示與臉部動作之間微妙的關聯，以提高說話者頭部視訊的真實性、自然度和表現力。

研究者發現，傳統方法通常無法充分捕捉不同說話者的臉部表情和獨特風格。因此，他們提出了 EMO（Emote Portrait Alive）框架，該框架透過音訊 - 視訊合成方法直接呈現面部表情，而無需使用中間的3D模型或臉部標誌。

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

論文標題：EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
#論文地址：https://arxiv.org/pdf/2402.17485.pdf
專案首頁：https://humanaigc.github.io/emote-portrait-alive/

就效果而言，阿里的方法可以確保整個視頻的無縫幀過渡，並保持身份一致，進而產生表現力強和更加逼真的角色化身視頻，在表現力和真實感方面顯著優於當前SOTA 方法。

例如 EMO 可以讓 Sora 生成的東京女郎角色開口唱歌，歌曲為英國 / 阿爾巴尼亞雙國籍女歌手 Dua Lipa 演唱的《Don't Start Now》。 EMO 支援包含英文、中文在內等不同語言的歌曲，可以直觀地識別音訊的音調變化，產生動態、表情豐富的 AI 角色化身。例如讓 AI 繪畫模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。

EMO 也能讓角色化身跟上快節奏的 Rap 歌曲，例如讓小李子來一段美國饒舌歌手 Eminem 的《哥吉拉》（Godzilla）。當然，EMO 不僅僅能讓角色開口唱歌，還支援各種語言的口語音頻，將不同風格的肖像畫、繪畫以及3D 模型和AI 生成的內容製作成栩栩如生的動畫視頻。例如奧黛麗赫本的談話。

最後，EMO 也能實現不同角色之間的連結，例如《狂飆》高啟強連動羅翔老師。

方法概覽

給定人物肖像的單張參考圖像，本文方法可以生成與輸入語音音頻片段同步的視頻，還能保留人物非常自然的頭部運動和生動的表情，並且與所提供的聲音音頻的音調變化相協調。透過創建一系列無縫的級聯視頻，該模型有助於生成具有一致身份和連貫運動的長時間說話肖像視頻，這對於現實應用至關重要。

網路 Pipeline

方法概覽如下圖所示。主幹網路接收多幀雜訊潛在輸入，並嘗試在每個時間步驟中將它們去噪為連續的視訊幀，主幹網路具有與原始SD 1.5 版本相似的UNet 結構配置，具體而言

#與先前的工作相似，為了確保生成幀之間的連續性，主幹網路嵌入了時間模組。
為了保持生成影格中人像的 ID 一致性，研究者部署了一個與主幹網路並行的 UNet 結構，稱為 ReferenceNet，它輸入參考影像以取得參考特徵。
為了驅動角色說話時的動作，研究者使用了音訊層來編碼聲音特徵。
為了讓說話角色的動作可控且穩定，研究者使用臉部定位器和速度層提供弱條件。

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

對於主幹網絡，研究者沒有使用提示嵌入，因此，他們將SD 1.5 UNet 結構中的交叉注意力層調整為參考注意力層。這些修改後的層將從 ReferenceNet 取得的參考特徵作為輸入，而非文字嵌入。

訓練策略

訓練過程分為三個階段：

第一階段是影像預訓練，其中主幹網路、ReferenceNet 和臉部定位器被納入訓練過程中，在這個階段，主幹網路以單一幀作為輸入，而ReferenceNet 處理來自同一視訊剪輯的不同的、隨機選擇的幀。主幹網路和 ReferenceNet 都從原始 SD 初始化權重。

在第二階段，研究者引入了視訊訓練，並且加入了時間模組和音訊層，從視訊剪輯中取樣 n f 個連續幀，其中起始的 n 幀為運動幀。時間模組從 AnimateDiff 初始化權重。

最後一個階段整合了速度層，研究者只在這個階段訓練時間模組和速度層。這種做法是為了故意忽略訓練過程中的音訊層。因為說話者的表情、嘴部運動和頭部運動的頻率主要受音頻的影響。因此，這些元素之間似乎存在相關性，模型可能會根據速度訊號而不是音訊來驅動角色的運動。實驗結果表明，同時訓練速度層和音訊層削弱了音訊對角色運動的驅動能力。

實驗結果

實驗過程中參與比較的方法包括 Wav2Lip、SadTalker、DreamTalk。

圖 3 展示了本文方法與先前方法的比較結果。可以觀察到，當提供單一參考影像作為輸入時，Wav2Lip 通常會合成模糊的嘴部區域並產生以靜態頭部姿態和最小眼部運動為特徵的影片。就 DreamTalk 而言，其結果可能會扭曲原始面孔，也會限制面部表情和頭部運動的範圍。與 SadTalker 和 DreamTalk 相比，研究提出的方法能夠產生更大範圍的頭部運動和更生動的面部表情。

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

該研究進一步探索了各種肖像風格的頭像影片生成，如現實、動漫和 3D。這些角色使用相同的聲音音訊輸入進行動畫處理，結果顯示，產生的影片在不同風格之間產生大致一致的唇形同步。

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

圖 5 顯示本文方法在處理具有明顯音調特徵的音訊時能夠產生更豐富的面部表情和動作。例如下圖第三行，高音調會引發角色更強烈、更生動的表情。此外，借助運動幀還可以擴展生成的視頻，即根據輸入音頻的長度生成持續時間較長的視頻。如圖 5 和圖 6 所示，本文方法即使在大幅運動中也能在擴展序列中保留角色的身份。

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了