首頁  >  文章  >  科技週邊  >  DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

PHPz
PHPz轉載
2023-04-11 19:31:171397瀏覽

近年來,電腦視覺領域的生成技術越來越強,對應「偽造」技術也越來越成熟,從DeepFake換臉到動作模擬,讓人難辨真假。

最近英偉達又整了個大的,在NeurIPS 2022會議上發表了一個新的隱式扭曲(Implicit Warping)框架,使用一組來源圖像驅動影片的運動來製作目標動畫

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

論文連結:https://arxiv.org/pdf/2210.01794.pdf

#從效果來看,就是生成的影像更逼真了,人物在影片裡動,背景也不會改變

輸入的多個來源圖片通常都會提供不同的外觀資訊,減少了產生器「幻想」的空間# ,例如下面這兩張作為模型輸入。

可以發現,和其他模型相比,隱式扭曲不會產生類似美顏效果的「空間扭曲」之術。

因為人物遮蔽的關係,多張來源影像還可以提供更完善的背景

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

從下面的影片可以看到,如果只有左邊的一張圖片,背景後面的是「BD」還是「 ED」很難猜測出來,就會導致背景的失真,而兩張圖片就會產生更穩定的影像。

在比較其他模型時,只有一張來源影像的效果也要更好。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

神奇的隱式扭曲

#學術界對於視訊模仿最早可以追溯到2005年,許多專案面部再現的實時表情傳輸、Face2Face、合成歐巴馬、Recycle-GAN、ReenactGAN、動態神經輻射場等等多樣化地利用當時有限的幾種技術,如生成對抗網路(GAN) 、神經輻射場(NeRF)和自編碼器。

並不是所有方法都在嘗試從單一幀圖像中生成視頻,也有一些研究對視頻中的每個幀進行複雜的計算,這實際上也正是Deepfake所走的模仿路線。

但由於DeepFake模型獲取的資訊較少,這種方法需要對每個視訊片段進行訓練,相比DeepFaceLab或FaceSwap的開源方法相比性能有所下降,這兩個模型能夠將一個身分強加到任意數量的影片片段。

2019年發布的FOMM模型讓角色們隨著影片動起來,為影片模仿任務再次注入了一針強心劑。

隨後其他研究人員試圖從單一的臉孔圖像或全身表現中獲得多個姿勢和表情;但是這種方法通常只適用於那些相對沒有表情和不能動的主體,例如相對靜止的“說話的頭”,因為在面部表情或姿勢中沒有網絡必須解釋的“行為突然變化”。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

雖然其中一些技術和方法在深度偽造技術和潛在的擴散影像合成方法大火之前獲得了公眾的關注,但適用範圍有限,多功能性受到質疑。

而英偉達這次著重處理的隱式扭曲,則是在多幀之間甚至只有兩幀之間獲取信息,而不是從一幀中獲得所有必要的姿勢信息,這種設置在其他的競爭模型中都不存在,或者處理得非常糟糕。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

例如迪士尼的工作流程就是由高級動畫師繪製主框架和關鍵幀,其他初級動畫師負責繪製中間幀。

透過對先前版本的測試,英偉達的研究人員發現,先前方法的結果品質會隨著額外的「關鍵影格」而惡化,而新方法與動畫製作的邏輯一致,隨著關鍵影格數量的增加,效能也會以線性的方式提高。

如果clip的中間發生了一些突然的轉變,例如一個事件或表情在起始幀或結束幀中都沒有表現出來,隱式扭曲可以在這中間點添加一幀,額外的資訊會回饋到整個clip的注意機制。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

模型結構

先前的方法,如FOMM,Monkey-Net 和face-vid2vid等使用明確扭曲繪製一個時間序列,從來源人臉和控制運動中提取的資訊必須適應且符合這個時間序列。

在這種模型設計下,關鍵點的最終映射是相當嚴格的。

相較之下,隱式扭曲使用一個跨模態注意層,其工作流程包含較少的預定義bootstrapping,可以適應來自多個框架的輸入。

工作流程也不需要在每個關鍵點的基礎上扭曲,系統可以從一系列影像中選擇最合適的特性。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

隱含扭曲也復用了一些FOMM框架中的關鍵點預測元件,最後用一個簡單的U-net對衍生的空間驅動關鍵點表示進行編碼。另外一個單獨的U-net則用來與衍生的空間表示一起對來源影像進行編碼,兩個網路都可以在64px (256px 平方輸出)到384x384px 的解析度範圍內運作。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

因為這種機制不能自動解釋任何給定影片中姿勢和運動的所有可能變化,所以額外的關鍵影格是必要的,可以臨時添加。如果沒有這種幹預能力,與目標運動點相似度不足的key將自動uprate,從而導致輸出品質的下降。

研究人員對此的解釋是,雖然它是一組給定的關鍵影格中與query最相似的key,但可能不足以產生一個好的輸出。

例如,假設來源影像有一張嘴唇閉合的臉,而驅動影像則有一張嘴唇張開、牙齒暴露的臉。在這種情況下,來源影像中沒有適合驅動影像嘴部區域的key(和value)。

該方法透過學習額外的與圖像無關的key-value pairs來克服這個問題,可以應對來源圖像中缺少資訊的情況。

儘管目前的實現速度相當快,在512x512px 的圖像上大約10 FPS,研究人員認為,在未來的版本中,pipeline可以透過一個因子化的I-D 注意力層或空間降低注意力(SRA)層(即金字塔視覺Transformer)來優化。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

由於隱式扭曲使用的是全域注意力而不是局部注意力,因此它可以預測先前模型無法預測的因素。

實驗結果

研究人員在VoxCeleb2資料集,更具挑戰性的TED Talk 資料集和TalkingHead-1KH 資料集上測試了該系統,比較了256x256px 和完整的512x512px 解析度之間的基線,所使用的指標包括FID、基於AlexNet的LPIPS和峰值信噪比(pSNR)。

用於測試的對比框架包括FOMM和face-vid2vid,以及AA-PCA,由於以前的方法很少或根本沒有能力使用多個關鍵幀,這也是隱式扭曲的主要創新,研究人員也設計了相似測試方法。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

隱含扭曲在大多數指標上表現優於大多數對比方法。

在多關鍵幀重建測試中,研究人員使用最多180幀序列,並選擇間隙幀,隱式扭曲這次獲得了全面勝利。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

隨著來源影像數量的增加,此方法可以獲得更好的重建結果,所有指標的得分都有所提高。

而隨著來源影像數量的增加,先前工作的重建效果變差,與預期相反。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

透過AMT的工作人員進行質性研究後,也認為隱式變形的生成結果強於其他方法。

DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?

如果能夠使用這種框架,用戶將能夠製作出更連貫、更長的視頻模擬和全身深度假視頻,所有這些都能夠展現出比該系統已經試驗過的任何框架都要大得多的運動範圍。

不過更逼真的圖像合成研究也帶來了擔憂,因為這些技術可以輕易地用於偽造,論文中也有標準的免責聲明。

如果我們的方法被用來製造DeepFake產品,就有可能產生負面影響。惡意語音合成透過跨身分轉移及傳送虛假資料,製作人物的虛假影像,導致身分被盜用或散播假新聞。但在受控設定中,同樣的技術也可以用於娛樂目的。

論文也指出了該系統在神經視訊重建方面的潛力,例如Google的Project Starline,在這個框架中,重建工作主要集中在客戶端,利用來自另一端的人的稀疏運動訊息。

這個方案越來越引起研究界的興趣,也有公司打算透過發送純運動數據或稀疏間隔的關鍵影格來實現低頻寬的電話會議,這些關鍵影格將在到達目標客戶端時被解釋和插入到完整的高清視頻中。

以上是DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除