首頁 >科技週邊 >人工智慧 >使用機器學習重構影片中的人臉

使用機器學習重構影片中的人臉

王林
王林轉載
2023-04-08 19:21:061068瀏覽

譯者| 崔皓

審校| 孫淑娟

開篇

使用機器學習重構影片中的人臉

來自於中、英兩國的一項合作研究設計出了一種在影片中重塑面孔的新方法。該技術可以擴大和縮小臉部結構,同時還具有高度一致性,並且沒有人工修剪的痕跡。

使用機器學習重構影片中的人臉

一般而言,這種臉部結構的轉化透過傳統的CGI 方法來實現,而傳統的CGI 方法依托詳細且昂貴的運動封蓋、組裝和紋理程式來完全重建臉部。

與傳統方式不同的是,新技術中的 CGI 被整合到神經管道中,將其作為3D 臉部資訊的參數,並作為機器學習工作流程的基礎。

使用機器學習重構影片中的人臉

作者指出:

「我們的目標是以現實世界中的自然人臉為基礎,對其人臉輪廓進行變形、編輯等操作,從而產生高品質的人像重塑影片[結果]。這項技術可以用於諸如美化臉部和臉部誇張的視覺效果應用。

儘管自從Photoshop 出現以來,消費者就可以使用2D 臉部扭曲的技術(並且導致了面部扭曲和身體畸形的次文化),但在不使用CGI 的情況下實現視頻的面部重塑依舊是一個很難的技術。

使用機器學習重構影片中的人臉

馬克祖克柏的臉部尺寸因新技術而擴大和縮小

目前,身體重塑是電腦視覺領域的一個熱門話題,主要是因為它在時尚電子商務中的潛力,例如:讓人看起來更高、骨骼更加多樣化,但目前依舊面臨一些挑戰。

同樣,以令人信服的方式改變視頻中的面部形狀一直是研究人員工作的核心,儘管此項技術的落地一直受到人為加工和其他限制的影響。由此,新產品將先前研究的能力從靜態擴展遷移到了動態的視頻輸出。

新系統在配備AMD Ryzen 9 3950X和32GB 記憶體的桌上型PC 上進行訓練,並使用OpenCV的光流演算法產生運動圖,並透過StructureFlow框架進行平滑處理;用於特徵估算的Facial Alignment Network ( FAN ) 組件,也用於流行的deepfakes組件包中;和Ceres Solver共同解決面部優化問題。

使用機器學習重構影片中的人臉

##使用新系統擴大面部的例子

這篇論文的題目是Parametric Reshaping of Portraits in Videos,作者來自浙江大學的三位研究人員和巴斯大學的一位研究人員。

關於臉

新系統中,影片被提取成圖像序列,首先為人臉建立基礎模型。然後連接具有代表性的後續幀,從而沿著整個圖像運行方向(即視頻幀的方向)構建一致的個性參數。

使用機器學習重構影片中的人臉##人臉變形系統的架構流程

接著,根據計算表達式,產生由線性迴歸實現的整形參數。然後透過signed distance function有符號距離函數( SDF )在臉部重塑前後建構臉部輪廓的2D 映射。

最後,對輸出視訊進行內容識別的變形優化。

面部參數化

該過程利用了3D Morphable Face Model 可變形人臉模型(3DMM) ,它是基於神經和GAN 的人臉合成輔助工具,同時適用於深度偽造檢測系統。

使用機器學習重構影片中的人臉來自 3D Morphable face Model (3DMM) 的範例-新專案中使用的參數化原型面。左上角,3DMM 面上的標誌性應用。右上角,isomap 的 3D 網格頂點。左下角顯示特徵擬合;底部靠中間的圖片,提取的面部紋理的 isomap;和右下角,最終的擬合和形狀

新系统的工作流程会考虑遮挡的情况,例如当对象移开视线的情况。这也是 Deepfake 软件面临的最大挑战之一,因为 FAN 地标几乎无法解释这些情况,并且随着面部避开或被遮挡,其转换质量往往会下降。

新系统通过定义匹配 3D 人脸 (3DMM) 和 2D 人脸(由 FAN 地标定义)边界的“轮廓能量”来避免上述问题的发生。

优化

该系统的应用场景是实时变形,例如在视频聊天的过滤器实时变换脸形。当前而言,框架无法实现这点,因此提供必要的计算资源让“实时”变形实现,就成为了一个显著的挑战。

根据论文的假设,24fps的视频在流水线中每帧操作相对于每秒素材的延迟为 16.344 秒,同时对于特征估计和 3D 面部变形而言,还伴随一次性命中(分别为 321 毫秒和 160 毫秒)。

因此,优化在降低延迟方面取得了关键进展。由于跨所有帧的联合优化会大幅增加系统开销,并且初始化风格的优化(假设自始至终说话者的特征一致)可能会导致异常,因此作者采用了稀疏模式来计算系数以实际间隔采样的帧数。

然后在该帧子集上执行联合优化,从而实现更精简的重建过程。

脸部曲面

该项目中使用的变形技术是对作者 2020 年作品Deep Shapely Portraits (DSP) 的改编。

使用機器學習重構影片中的人臉

Deep Shapely Portraits,2020 年提交给 ACM Multimedia 的作品。该论文由浙大-腾讯游戏与智能图形创新技术联合实验室的研究人员牵头

作者观察到“我们将这种方法从重塑单目图像扩展到重塑整个图像序列。”

测试

该论文指出,没有具有可比性的历史资料来评估新方法。因此,作者将他们的曲面视频输出帧与静态 DSP 输出进行了比较。

使用機器學習重構影片中的人臉

针对来自 Deep Shapely Portraits 的静态图像测试新系统

作者指出,由于使用了稀疏映射,DSP 方法会有人为修改的痕迹——新框架通过密集映射解决了这个问题。此外,该论文认为,DSP 制作的视频缺乏流畅性和视觉连贯性。

作者指出:

“结果表明,我们的方法可以稳定、连贯地生成经过重塑的肖像视频,而基于图像的方法很容易导致明显的闪烁伪影(人工修改痕迹)。”

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。

原文标题:Restructuring Faces in Videos With Machine Learning,作者:Martin Anderson


以上是使用機器學習重構影片中的人臉的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除