搜尋
首頁科技週邊人工智慧讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

有了阿里的 EMO,AI 生成或真實的圖像「動起來說話或唱歌」變得更容易了。

最近,以 OpenAI Sora 為代表的文生視訊模型又火紅了起來。

除了文字生成視頻,以人為中心的視頻合成一直備受關注。例如,專注於「說話者頭部」的視訊生成,其目標是根據用戶提供的音訊片段生成面部表情。

在技術層面上,生成表情需要準確捕捉說話者微妙且多樣化的臉部動作,這對於類似影片合成任務而言是一個巨大的挑戰。

傳統方法通常會施加一些限制以簡化視訊生成任務。例如,有些方法利用3D模型來約束臉部關鍵點,有些方法則從原始影片中提取頭部運動序列以引導整體運動。儘管這些限制降低了影片生成的複雜性,但也會限制最終面部表情的豐富度和自然度。

最近在阿里智能計算研究院發表的一篇論文中,研究者著重探討了音訊提示與臉部動作之間微妙的關聯,以提高說話者頭部視訊的真實性、自然度和表現力。

研究者發現,傳統方法通常無法充分捕捉不同說話者的臉部表情和獨特風格。因此,他們提出了 EMO(Emote Portrait Alive)框架,該框架透過音訊 - 視訊合成方法直接呈現面部表情,而無需使用中間的3D模型或臉部標誌。

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

  • 論文標題:EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

  • #論文地址:https://arxiv.org/pdf/2402.17485.pdf

  • 專案首頁:https://humanaigc.github.io/emote-portrait-alive/

就效果而言,阿里的方法可以確保整個視頻的無縫幀過渡,並保持身份一致,進而產生表現力強和更加逼真的角色化身視頻,在表現力和真實感方面顯著優於當前SOTA 方法。

例如 EMO 可以讓 Sora 生成的東京女郎角色開口唱歌,歌曲為英國 / 阿爾巴尼亞雙國籍女歌手 Dua Lipa 演唱的《Don't Start Now》。 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了EMO 支援包含英文、中文在內等不同語言的歌曲,可以直觀地識別音訊的音調變化,產生動態、表情豐富的 AI 角色化身。例如讓 AI 繪畫模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

EMO 也能讓角色化身跟上快節奏的 Rap 歌曲,例如讓小李子來一段美國饒舌歌手 Eminem 的《哥吉拉》(Godzilla)。 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了當然,EMO 不僅僅能讓角色開口唱歌,還支援各種語言的口語音頻,將不同風格的肖像畫、繪畫以及3D 模型和AI 生成的內容製作成栩栩如生的動畫視頻。例如奧黛麗赫本的談話。 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

最後,EMO 也能實現不同角色之間的連結,例如《狂飆》高啟強連動羅翔老師。 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

方法概覽

給定人物肖像的單張參考圖像,本文方法可以生成與輸入語音音頻片段同步的視頻,還能保留人物非常自然的頭部運動和生動的表情,並且與所提供的聲音音頻的音調變化相協調。透過創建一系列無縫的級聯視頻,該模型有助於生成具有一致身份和連貫運動的長時間說話肖像視頻,這對於現實應用至關重要。

網路 Pipeline

方法概覽如下圖所示。主幹網路接收多幀雜訊潛在輸入,並嘗試在每個時間步驟中將它們去噪為連續的視訊幀,主幹網路具有與原始SD 1.5 版本相似的UNet 結構配置,具體而言

  1. #與先前的工作相似,為了確保生成幀之間的連續性,主幹網路嵌入了時間模組。

  2. 為了保持生成影格中人像的 ID 一致性,研究者部署了一個與主幹網路並行的 UNet 結構,稱為 ReferenceNet,它輸入參考影像以取得參考特徵。

  3. 為了驅動角色說話時的動作,研究者使用了音訊層來編碼聲音特徵。

  4. 為了讓說話角色的動作可控且穩定,研究者使用臉部定位器和速度層提供弱條件。

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

對於主幹網絡,研究者沒有使用提示嵌入,因此,他們將SD 1.5 UNet 結構中的交叉注意力層調整為參考注意力層。這些修改後的層將從 ReferenceNet 取得的參考特徵作為輸入,而非文字嵌入。

訓練策略

訓練過程分為三個階段:

第一階段是影像預訓練,其中主幹網路、ReferenceNet 和臉部定位器被納入訓練過程中,在這個階段,主幹網路以單一幀作為輸入,而ReferenceNet 處理來自同一視訊剪輯的不同的、隨機選擇的幀。主幹網路和 ReferenceNet 都從原始 SD 初始化權重。

在第二階段,研究者引入了視訊訓練,並且加入了時間模組和音訊層,從視訊剪輯中取樣 n f 個連續幀,其中起始的 n 幀為運動幀。時間模組從 AnimateDiff 初始化權重。

最後一個階段整合了速度層,研究者只在這個階段訓練時間模組和速度層。這種做法是為了故意忽略訓練過程中的音訊層。因為說話者的表情、嘴部運動和頭部運動的頻率主要受音頻的影響。因此,這些元素之間似乎存在相關性,模型可能會根據速度訊號而不是音訊來驅動角色的運動。實驗結果表明,同時訓練速度層和音訊層削弱了音訊對角色運動的驅動能力。

實驗結果

實驗過程中參與比較的方法包括 Wav2Lip、SadTalker、DreamTalk。

圖 3 展示了本文方法與先前方法的比較結果。可以觀察到,當提供單一參考影像作為輸入時,Wav2Lip 通常會合成模糊的嘴部區域並產生以靜態頭部姿態和最小眼部運動為特徵的影片。就 DreamTalk 而言,其結果可能會扭曲原始面孔,也會限制面部表情和頭部運動的範圍。與 SadTalker 和 DreamTalk 相比,研究提出的方法能夠產生更大範圍的頭部運動和更生動的面部表情。

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

該研究進一步探索了各種肖像風格的頭像影片生成,如現實、動漫和 3D。這些角色使用相同的聲音音訊輸入進行動畫處理,結果顯示,產生的影片在不同風格之間產生大致一致的唇形同步。

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

圖 5 顯示本文方法在處理具有明顯音調特徵的音訊時能夠產生更豐富的面部表情和動作。例如下圖第三行,高音調會引發角色更強烈、更生動的表情。此外,借助運動幀還可以擴展生成的視頻,即根據輸入音頻的長度生成持續時間較長的視頻。如圖 5 和圖 6 所示,本文方法即使在大幅運動中也能在擴展序列中保留角色的身份。

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

表 1 結果顯示本文方法在影片品質評估上有顯著優勢:

讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了

#

以上是讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器