搜尋
首頁科技週邊人工智慧Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

AniPortrait 模型是開源的,可以自由暢玩。


「小破站鬼畜區的新質生產力工具。」

近日,騰訊開源發布的一個新項目在推上獲得瞭如此評價。這個項目是 AniPortrait,可基於音訊和一張參考圖像生成高品質動畫人像。

話不說多,我們先來看看可能會被律師函警告的demo:Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話
##動畫圖片也能輕鬆開口說話:
Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話
該專案剛上線幾天,就已經收穫了廣泛好評:GitHub Star 數已經突破2800。

Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

下面我們來看看 AniPortrait 的創新之處。

Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

  • 論文標題:AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
  • #論文網址:https ://arxiv.org/pdf/2403.17694.pdf
  • 程式碼位址:https://github.com/Zejun-Yang/AniPortrait

#AniPortrait

#騰訊新提出的AniPortrait 框架包含兩個模組:Audio2Lmk 和Lmk2Video。

Audio2Lmk 的作用是提取 Landmark 序列,其能從音訊輸入中捕捉複雜的面部表情和嘴唇動作。 Lmk2Video 是利用這種 Landmark 序列來產生時間上穩定一致的高品質人像影片。

圖 1 給出了 AniPortrait 框架的概況。

Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

Audio2Lmk

對於一段語音片段序列,這裡的目標是預測對應的 3D 人臉網格序列和姿勢序列。

該團隊採用了預先訓練的 wav2vec 來提取音訊特徵。該模型具有很好的泛化性能,並且可以準確識別音訊中的發音和語調 —— 這對產生具有真實感的人臉動畫至關重要。透過利用所獲得的魯棒的語音特徵,使用一種包含兩個 fc 層的簡單架構就可以有效地將它們轉換成 3D 人臉網格。團隊觀察到,這種簡單直接的設計不僅能確保準確度,還能提升推理過程的效率。

在將音訊轉換成姿勢的任務中,該團隊使用的骨幹網路依然是同樣的 wav2vec。但是,這一個網路的權重不同於音訊到網格模組的網路。這是因為:姿勢與音訊中的節奏和音調的關聯更加緊密,而音訊到網格任務關注的重點(發音和語調)卻不一樣。為了將先前狀態的影響納入考量,團隊採用了 transformer 解碼器來解碼姿勢序列。在這個過程中,該模組使用交叉注意力機制將音訊特徵整合進解碼器。對於上述兩個模組,訓練所使用的損失函數都是簡單的 L1 損失。

在獲得了網格和姿勢序列之後,再使用透視投影將它們轉換為 2D 的人臉 Landmark 序列。這些 Landmark 是下一階段的輸入訊號。

Lmk2Video

#給定一張參考人像和一個人臉Landmark 序列,該團隊提出的Lmk2Video 可以創建具有時間一致性的人像動畫。這個動畫過程是將動作與 Landmark 序列對齊,同時維持與參考影像一致的外觀。該團隊採取的想法是將人像動畫表示成一個人像幀構成的序列。

Lmk2Video 的這個網路結構設計的靈感來自 AnimateAnyone。其中的骨幹網路是 SD1.5,整合了一個時間運動模組,能有效地將多幀雜訊輸入轉換成一個視訊幀序列。

另外,他們也使用了一個ReferenceNet,其同樣採用了SD1.5 的結構,作用是提取參考影像的外觀資訊並將其整合進骨幹網路中。此策略設計可確保人臉 ID 在整個輸出影片中保持一致。

不同於 AnimateAnyone,這裡提升了 PoseGuider 的設計的複雜性。原來的版本只是整合了幾個卷積層,之後 Landmark 特徵與骨幹網路的輸入層的隱含特徵融合。而騰訊的這個團隊發現,這種初級設計無法捕捉嘴唇的複雜運動。因此,他們採用了 ControlNet 的多尺度策略:將對應尺度的 Landmark 特徵整合進骨幹網路的不同模組。儘管有這些改進,但最終模型的參數數量仍然相當低。

該團隊還引入了另一項改進:將參考映像的 Landmark 用作額外的輸入。 PoseGuider 的交叉注意力模組能促進參考 Landmark 和每個畫面的目標 Landmark 之間的互動。這個過程能為網路提供額外的線索,使其能夠理解人臉 Landmark 和外觀之間的關聯,由此可幫助人像動畫產生更精準的動作。
 
實驗

實作細節

Audio2Lmk 階段使用的骨幹網路是wav2vec2.0。用於提取 3D 網格和 6D 姿勢的工具是 MediaPipe。 Audio2Mesh 的訓練資料來自騰訊的內部資料集,其中包含接近一個小時的來自單一說話者的高品質語音資料。

為了確保 MediaPipe 提取出的 3D 網格的穩定性,在記錄期間,表演者頭部位置穩定並且面向相機。訓練 Audio2Pose 使用的是 HDTF。所有的訓練操作都在單一A100 上執行,使用了Adam 優化器,學習率設定為1e-5.

Lmk2Video 過程則採用了兩步式訓練方法。

起始步驟階段關注的重點是訓練骨幹網路 ReferenceNet 以及 PoseGuider 的 2D 元件,而不管運動模組。在後續步驟,則會凍結其它所有組件,專注於訓練運動模組。為了訓練模型,這裡使用了兩個大規模高品質人臉視訊資料集:VFHQ 和 CelebV-HQ。所有資料都經由 MediaPipe 提取 2D 臉部 Landmark。為了提升網路對嘴唇運動的敏感性,該團隊的做法是在根據 2D Landmark 渲染姿勢圖像時,給上下唇標註不同的顏色。

所有影像的解析度都重新調整變成了 512x512。模型的訓練使用了 4 台 A100 GPU,每一步耗時 2 天。優化器是 AdamW,學習率固定為 1e-5。

實驗結果

#如圖2 所示,新方法得到的動畫在品質和真實度上都非常出色。

Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話

此外,使用者還可以編輯其中間的 3D 表徵,從而對最終輸出進行修改。舉個例子,使用者可從某個來源提取 Landmark 並修改其 ID 訊息,從而實現臉部重現效果,如下影片所示:Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話更多細節請參考原論文。 

以上是Up主已經開始鬼畜,騰訊開源「AniPortrait」讓照片唱歌說話的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中