首頁 >科技週邊 >人工智慧 >央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

王林
王林原創
2024-07-15 17:09:10895瀏覽
沉睡了兩千多年的兵馬俑,甦醒了?

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

一句秦腔開場,將我們帶到了黃土高原。如果不是親眼所見,許多觀眾可能難以想像,有生之年還能看到兵馬俑和寶石 Gem 同台對唱《從軍行》。

「青海長雲闇雪山,孤城遙望玉門關。」古調雖存音樂變,聲音依舊動人情:

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

這場表演背後的「AI 復活」,「AI 復活」,「AI來自阿里巴巴通義實驗室。僅僅一張照片、一個音頻,EMO 就能讓靜止形象變為惟妙惟肖的唱演視頻,且精準卡點音頻中的跌宕起伏、抑揚頓挫。

在央視《2024 中國・AI 盛典》中,同樣基於 EMO 技術,北宋文學家蘇遼被「復活」,與李玉剛同台合唱了一曲《水調歌頭》。 「AI 蘇軾」動作古樸自然,彷彿穿越時空而來:

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

在EMO 等AI 領域前沿技術的激發下,首個以人工智慧為核心的國家級科技盛宴《2024 中國・AI 盛典》盛大開幕,以「媒體+ 科技+ 藝術」的融合形式將最前沿的國產AI 技術力量傳遞給節目前的每一位觀眾:央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?這不是EMO 第一次「出圈」。曾在社群媒體爆紅的「高啟強化身羅翔普法」,也是出自EMO 之手: 央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?
登陸通義APP 之後,借助玩家各種腦洞大開的試玩,EMO 火熱程度至今不減。還沒嘗試的朋友可以前去下載這款應用,進入「頻道」選擇「全民舞台」,就可以絲滑體驗了。

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

實際上,早在今年 2 月,通義實驗室就公開了 EMO(Emote Portrait Alive) 相關論文。這篇論文上線之初就好評如潮,更是有人稱讚:「EMO 是一項革命性的研究。」

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

  • 論文地址:https://arxiv.org/pdf/2402.17485
  • 專案首頁:https://humanaigc.github.io/emote-portrait-alive/
獲得如此高度的評價?這也要從目前視訊生成技術的發展現況和 EMO 的底層技術創新說起。

如此出圈,EMO 憑什麼?
過去幾年,AI 在圖像生成方面的成功是有目共睹的。目前,AI 領域的研究熱點是攻克一個更困難的任務:影片生成。
EMO 面對的恰好是其中非常困難的一項任務:
基於音頻驅動的人物視頻生成。
不同於常見的文生視頻和圖生視頻玩法,基於音頻驅動的人物視頻生成是一個從音頻直接跨越到視頻模態的過程。這類影片的產生往往涉及頭部運動、凝視、眨眼、唇部運動等多個要素,且要保持影片內容的一致性和流暢性。
在先前的方法中,模型大多先針對人臉、人頭或身體部位做 3D 建模或人臉關鍵點標記,以此作為中間表達再產生最終的影片。但藉助中間表達的方法可能會導致音訊中的信息被過度壓縮,影響最終生成影片中的情緒表達效果。

通義實驗室應用視覺團隊負責人薄列峰表示,
EMO 的關鍵創新點「弱控制設計」很好地解決了上述問題,不僅降低視頻生成成本,還大幅提升了視頻生成品質.

“弱控制”體現在兩個方面:首先,EMO 無需建模,直接從音頻中提取信息來生成表情動態和嘴唇同步的視頻,從而在不需要復雜預處理的情況下,端到端地創造出自然流暢且表情豐富的人像影片。其次,EMO 對生成表情和身體動作不做過多“控制”,最終生成結果的自然和流暢,都是源於模型本身對高質量數據的學習而訓練出的泛化能力。 央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

拿兵馬俑和寶石Gem 同框對唱《從軍行》來說,歌聲中所要傳達的情緒(如激揚)在其面部得到了很好的展現,不會給人違和感:

基於弱控制的概念,研究團隊為EMO 模型構建了一個龐大而多樣的音視頻資料集,總計央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?超過250 小時的錄影和超過1.5 億張圖像

,涵蓋各種內容,包括演講、電影和電視片段以及歌唱表演,包括中文和英文在內的多種語言,視頻的豐富多樣性確保了訓練材料捕捉了廣泛的人類表達和聲音風格。
學界有一種觀點是,對於一個資料集最好的無損壓縮,就是對於資料集以外的資料最佳泛化。能夠實現高效壓縮的演算法往往能夠揭示資料的深層規律,這也是智慧的重要表現。
因此,團隊在訓練過程中設計了
高保真資料編碼演算法
,保證了在壓縮或處理資料的過程中,盡可能保持原始資訊的豐富細節和動態範圍。具體到 EMO 的訓練上,只有音訊訊息完整,人物情緒才能很好的展現。
視訊生成賽道風起雲湧
通義實驗室如何躋身全球第一梯隊?

今年 2 月初,Sora 的發布點燃了視頻生成賽道,背後的多項技術隨之受到關注,其中就包括 DiT(Diffusion Transformer )。

我們知道,擴散模型中的U-Net 能模擬訊號從雜訊中逐漸恢復的過程,理論上能夠逼近任意複雜的資料分佈,在影像品質方面優於生成對抗網路(GAN)和變分自編碼器(VAE),產生具有更自然紋理和更準確細節的現實世界圖像。但 DiT 論文表明,U-Net 歸納偏壓對擴散模型的性能並非不可或缺,可以很容易地用標準設計(如 Transformer)取代,這就是該論文提出的基於 Transformer 架構的新型擴散模型 DiT。

最重要的是,以 DiT 為核心的 Sora 驗證了在視頻生成模型中仍存在 Scaling Law ,研究者可以透過增加更多的參數和數據來擴大模型規模來實現更好的結果。

DiT 模型在生成真實視訊方面的成功,讓 AI 社群看到了這一方法的潛力,促使視訊生成領域從經典 U-Net 架構轉變到基於 Transformer 的擴散主幹架構的範式。基於 Transformer 注意力機制的時序預測、大規模的高品質視訊資料都是推動這一轉變的關鍵力量。

但縱觀當前的視訊生成領域,尚未出現一個「大一統」架構。

EMO 並不是建立在類似 DiT 架構的基礎上,也就是沒有用 Transformer 去替代傳統 U-Net,同樣能夠很好地模擬真實物理世界,這給整個研究領域帶來了啟發。

未來,影片產生領域會出現哪些技術路線?不管是理論研究者還是從業者,都可以保持「相對開放的期待」。

薄列峰表示,本質上,目前的語言模型、圖像 / 視訊生成模型都沒有超越統計機器學習的框架。即使是 Scaling Law ,也有自身的限制。儘管各模型對強關係和中等關係的生成把握較為精準,但對弱關係的學習仍不足。如果研究者們無法持續提供足夠的高品質數據,模型的能力就難以有質的提升。

換個角度來看,即使影片生成領域會出現一種「佔據半壁江山」的大一統架構,也不意味著其具備絕對的優越性。就像是自然語言領域,一直穩居 C 位元的 Transformer 也會面臨被 Mamba 超越的情況。

具體到視訊生成領域,每種技術路線都有適合自身的應用場景。例如關鍵點驅動、視訊驅動更適合表情遷移的場景,音訊驅動更適合人物說話、唱演的場景。從條件控制的程度來說,弱控制的方法很適合創意類任務,同時許多專業、具體的任務更能受益於強控制的方法。

通義實驗室是國內最早佈局視頻生成技術的機構之一,目前已有文生視頻、圖生視頻等多個方向的研發積累,特別是在人物視頻生成方面,已經形成了包括物動作視頻生成框架Animate Anyone、人物換裝視頻生成框架Outfit Anyone、人物視頻角色替換框架Motionshop、人物唱演視頻生成框架Emote Portrait Alive 在內的完整研究矩陣。

央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?

                                   時中使用「一點點使用資料瑪瑪瑪麗,例如 EGCSGC one 一度霸屏社群媒體和朋友圈。該模型解決了人物運動視頻生成中保持人物外觀短時連續性和長時一致性的問題,隨後上線通義 App“全民舞王”功能,掀起了一波全民熱舞小高潮。

從技術到現實世界
央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?
過去兩年,語言模型展現了強大的對話、理解、總結、推理等文本方面的能力,圖像生成模型展現了強大的自然生成、娛樂和藝術能力,兩大賽道都誕生了許多爆款產品。這些模型的成功至少告訴我們一點:想在這個時代取得影響力的技術團隊,需要學會「基礎模型」和「超級應用」兩條腿走路。

目前,影片內容呈現爆發式成長的趨勢,人們都在期待能夠出現一個人人「可用」且「實用」的 AI 影片產生平台。 EMO 可能是打破這一局面的重要技術突破,而通義 App 則提供了一個技術落地的廣闊平台。

視訊生成技術的下一個挑戰,是如何攻克專業級的內容。

科技公司們希望將 AI 技術轉化為真正的生產力工具,去服務短片部落客、影視製作人、廣告和遊戲創意人。這也是為什麼影片生成應用程式不能只停留在「通用內容」的水準。

環顧目前大部分的視頻生成應用,大多是基於 3 到 5 秒的視頻生成模型,在應用和體驗上的限制比較明顯。
但 EMO 技術對於音訊時長的包容度很高,而且產生內容品質可以達到演播標準。例如登陸央視的這段「兵馬俑唱演」,全程四分鐘的兵馬俑部分錶演影片無一秒需要人工後期針對性「微調」。

如今看來,以 EMO 為代表的人物視頻生成技術是最接近「專業級生成水準」的落地方向之一。相較於文生視訊技術中使用者 Prompt 存在的許多不確定性,EMO 技術高度符合人物影片創作對內容連貫性和一致性的核心需求,展現了極具潛力的應用空間。

EMO 之所以「出圈」,人們看到的不光是研發團隊的技術實力,更重要的是看到了視頻生成技術落地的加速度。

「人均專業創作者」的時代,或許不遠了。

以上是央視點贊國產AI復活召喚術,兵馬俑​​竟與寶石老舅對唱Rap?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn