3D 人臉重建是一項廣泛應用於遊戲影視製作、數位人、AR/VR、人臉辨識和編輯等領域的關鍵技術,其目標是從單張或多張影像中獲取高品質的3D 人臉模型。借助攝影棚中的複雜拍攝系統,當前業界成熟方案已可得到媲美真人的毛孔級精度的重建效果 [2],但其製作成本高、週期長,一般僅用於 S 級影視或遊戲項目。
近年來,基於低成本人臉重建技術的互動玩法(如遊戲角色捏臉玩法、AR/VR 虛擬形像生成等)受到市場歡迎。使用者只需輸入日常可取得的圖片,如手機拍攝的單張或多張圖片,即可快速取得 3D 模型。但現有方法成像品質不可控,重建結果精度較低,無法表達人臉細節 [3-4]。如何在低成本條件下得到高保真 3D 人臉,仍是一個未解的難題。
人臉重建的第一步是定義人臉表達方式,但現有主流的人臉參數化模型表達能力有限,即使有更多約束訊息,如多視角圖片,重建精度也難以提升。因此,騰訊AI Lab 提出了一種改進的自適應骨骼- 蒙皮模型(Adaptive Skinning Model,以下簡稱ASM)作為參數化人臉模型使用,利用人臉先驗,以高斯混合模型來表達人臉蒙皮權重,大幅降低參數量使其可自動求解。
測試表明,ASM 方法在不需要訓練的前提下僅使用少量的參數,即顯著提升了人臉的表達能力及多視角人臉重建精度,創新了SOTA 水平。相關論文已被 ICCV-2023 接收,以下為論文詳細解讀。
論文主題:ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling
論文連結:https://arxiv .org/pdf/2304.09423.pdf
研究挑戰:低成本、高精度的3D 人臉重建難題
從2D 影像得到資訊量更大的3D模型,屬於欠定問題存在無窮多解。為了使其可解,研究者將人臉先驗引入重建,降低求解難度的同時能以更少的參數來表達人臉 3D 形狀,即參數化人臉模型。目前大部分參數化人臉模型都是基於 3D Morphable Model (3DMM) 及其改良版,3DMM 是 Blanz 和 Vetter 在 1999 年首次提出的參數化人臉模型 [5]。文章假設一張人臉可以透過多個不同的人臉線性或非線性組合得到,透過收集數百個真實人臉的高精度3D 模型來建構人臉基底庫,進而組合參數化人臉來表達新的人臉模型。後續研究透過收集更多樣化的真實人臉模型 [6, 7],以及改進降維方法來優化 3DMM [8, 9]。
然而,3DMM 類人臉模型的穩健性高但表達能力不足。儘管他能夠在輸入圖像模糊或有遮擋的情況下穩定地生成精度一般的人臉模型,但當使用多張高質量圖像作為輸入時,3DMM 表達能力有限,不能利用上更多的輸入信息,因此限制了重建精度。這種限制源自於兩方面,一是方法本身的局限性,二是該方法依賴人臉模型數據的收集,不僅數據獲取成本高,且因人臉數據的敏感性,在實際應用中也難以廣泛復用。
ASM 方法:重新設計骨骼- 蒙皮模型
為了解決現有3DMM 人臉模型表達能力不足的問題,本文引入了遊戲業界常用的“骨骼- 蒙皮模型” 作為基準人臉表達方式。骨骼 - 蒙皮模型是遊戲與動畫製作過程中表達遊戲人物角色臉型與表情的一種常見的人臉建模方式。它透過虛擬的骨骼點與人臉上的 Mesh 頂點相連,由蒙皮權重決定骨骼對 Mesh 頂點的影響權重,使用時只需要控制骨骼的運動即可間接控制 Mesh 頂點的運動。
通常情況下,骨骼 - 蒙皮模型需要動畫師進行精確的骨骼放置與蒙皮權重繪製,具有高製作門檻與長製作週期的特點。但是現實的人臉中不同的人骨骼與肌肉的形狀具有較大差異,一套固定的骨骼- 蒙皮系統難以表達現實中多種多樣的臉型,為此,本文在現有的骨骼- 蒙皮基礎上進行進一步設計,提出了自適應骨骼- 蒙皮模型ASM,基於高斯混合蒙皮權重(GMM Skinning Weights)與動態骨骼綁定係統(Dynamic Bone Binding)進一步提高了骨骼- 蒙皮的表達能力與靈活度,為每個目標人臉自適應生成獨特的骨骼- 蒙皮模型,以表達更為豐富的人臉細節。
為了提高骨骼 - 蒙皮模型對於建模不同人臉時的表達能力,ASM 對骨骼 - 蒙皮模型的建模方式進行了全新的設計。
圖上為骨與電子色 整體架構N
##Pend面板(Pendine 混合皮片/皮蒙線為線性混合圖案#1 Skinning, LBS)演算法,透過控制骨骼的運動(旋轉、平移、縮放)來控制Mesh 頂點的變形。傳統的骨骼 - 蒙皮包含兩個部分,即蒙皮權重矩陣與骨骼綁定,ASM 對這兩部分分別進行了參數化,以實現自適應的骨骼 - 蒙皮模型。接下來會分別介紹蒙皮權重矩陣與骨骼綁定的參數化建模方法。公式1:傳統骨骼- 蒙皮模型的LBS 公式
公式2:ASM 的LBS 公式中
#1高斯#蒙皮權重矩陣是一個mxn 維的矩陣,其中m 為骨骼數量,n 為Mesh 上的頂點數量,該矩陣用於存放每一根骨骼對每一個Mesh 頂點的影響係數。一般來說蒙皮權重矩陣是高度稀疏的,例如在 Unity 中,每個 Mesh 頂點只會被最多 4 根骨骼影響,除了這 4 根骨骼外,其餘骨骼對該頂點的影響係數為 0。傳統的骨骼 - 蒙皮模型中蒙皮權重由動畫師繪製得到,並且蒙皮權重一旦得到,在使用時將不再改變。近年來有工作[1] 嘗試結合大量數據與神經網路學習如何自動產生蒙皮權重,但這樣的方案有兩個問題,一是訓練神經網路需要較大量的數據,如果是3D 人臉或蒙皮權重的資料則較難取得;二是使用神經網路建模蒙皮權重存在較為嚴重的參數冗餘。是否存在一種蒙皮權重的建模方式,在不需要訓練的前提下使用少量的參數即可完整表達整張人臉的蒙皮權重呢?
透過觀察常見的蒙皮權重可發現以下性質:1. 蒙皮權重局部光滑;2. 離目前骨骼位置越遠的Mesh 頂點,對應的蒙皮係數通常也越小;而這樣的性質與高斯混合模型(GMM)非常吻合。於是本文提出了高斯混合蒙皮權重(GMM Skinning Weights)將蒙皮權重矩陣建模為基於頂點與骨骼某個距離函數的高斯混合函數,這樣就能使用一組GMM 係數表達特定骨骼的蒙皮權重分佈。為了進一步壓縮蒙皮權重的參數量,我們將整個人臉Mesh 從三維空間轉移到UV 空間,從而只需要使用二維GMM 並且使用頂點到骨骼的UV 距離就能計算出當前骨骼對特定頂點的蒙皮權重係數。動態骨骼綁定(Dynamic Bone Binding)
#對蒙皮權重進行參數化建模不僅使我們能用少量參數來表達蒙皮權重矩陣,還使我們在運行時(Run-Time)調整骨骼綁定位置成為了可能,由此,本文提出了動態骨骼綁定(Dynamic Bone Binding)的方法。與蒙皮權重相同,本文將骨骼的綁定位置建模為 UV 空間上的一個座標點,並且能夠在 UV 空間中任意移動。對於人臉 Mesh 的頂點,能夠透過很簡單地透過預先定義好的 UV 映射關係將頂點映射為 UV 空間上的一個固定座標。但骨骼並沒有預先定義在 UV 空間中,為此我們需要將綁定的骨骼從三維空間轉移到 UV 空間上。本文中這個步驟透過對骨骼與周圍頂點進行座標插值實現,我們將計算得到的插值係數應用在頂點的 UV 座標上,就能得到骨骼的 UV 座標。反過來也一樣,當需要將骨骼座標從UV 空間轉移到三維空間時,我們同樣計算當前骨骼的UV 座標與臨近頂點的UV 座標的插值係數,並將該插值係數應用到三維空間中同樣的頂點三維座標上,即可插值對應骨骼的三維空間座標。透過這種建模方式,我們將骨骼的綁定位置與蒙皮權重係數都統一為了 UV 空間中的一組係數。當使用ASM 時,我們將人臉Mesh 頂點的形變轉變為求解UV 空間中骨骼綁定位置的偏移係數、UV 空間中的高斯混合蒙皮係數與骨骼運動係數三者的組合,大大提高了骨骼- 蒙皮模型的表達能力,實現更豐富的人臉細節的生成。
表上符號中:#SM 對每個骨骼的參數結果
##先生#先生#臉表達能力與多視角重建精度達到SOTA 水平
對比不同參數化人臉模型的表達能力
我們使用參數化人臉模型註冊高精度人臉掃描模型的方式(Registration),將ASM 與傳統的基於PCA 方法的3DMM(BFM [6],FLAME [7],FaceScape [10])、基於神經網路降維方法的3DMM(CoMA [ 8], ImFace [9])以及業界前沿的骨骼- 蒙皮模型(MetaHuman)進行了比較。結果指出,ASM 在 LYHM 與 FaceScape 兩個資料集上的表達能力均達到了 SOTA 水準。之後#勾選的表2中:LYHM ## # 下2:LYHM# 圖3:LYHM與FaceScape 上registration 的視覺化結果與誤差熱圖
##多視角人臉重建中的應用
我們使用了Florence MICC 的數據集測試了ASM 在多視角人臉重建任務上的表現,在Coop(室內近距離攝像頭,人物無表情)測試集上的重建精度達到了SOTA 水平。
上3中:Faceape 上不同精確度顯示
##111219211921192119211992192192 精準度的觀點值」重建精確度結果
作用下掃描中顯示#在低成本條件下獲得高保真人臉這一行業難題上,本研究邁出了重要一步。我們提出的新參數化人臉模型顯著增強了人臉表達能力,將多視角人臉重建的精度上限提升到了新的高度。此方法可用於遊戲製作中的 3D 角色建模、自動捏臉玩法,以及 AR/VR 中的虛擬形像生成等眾多領域。 在人脸表达能力得到显著提升之后,如何从多视角图片中构建更强的一致性约束,以进一步提高重建结果的精度,成为了当前人脸重建领域的新瓶颈、新挑战。这也将是我们未来的研究方向。 参考文献 [1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, and Baoyuan Wang. Jnr: Joint-based neural rig representation for compact 3d face modeling. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII 16, pages 389–405. Springer, 2020. [2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner, and Markus Gross. High-quality single-shot capture of facial geometry. In ACM SIGGRAPH 2010 papers, pages 1–9. 2010. [3] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 0–0, 2019. [4] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. Learning an animatable detailed 3d face model from in-the-wild images. ACM Transactions on Graphics (ToG), 40 (4):1–13, 2021. [5] Volker Blanz and Thomas Vetter. A morphable model for the synthesis of 3d faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187–194, 1999. [6] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani, and Thomas Vetter. A 3d face model for pose and illumination invariant face recognition. In 2009 sixth IEEE international conference on advanced video and signal based surveillance, pages 296–301. Ieee, 2009. [7] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. Learning a model of facial shape and expression from 4d scans. ACM Trans. Graph., 36 (6):194–1, 2017. [8] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3d faces using convolutional mesh autoencoders. In Proceedings of the European conference on computer vision (ECCV), pages 704–720, 2018. [9] Mingwu Zheng, Hongyu Yang, Di Huang, and Liming Chen. Imface: A nonlinear 3d morphable face model with implicit neural representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20343–20352, 2022. [10] Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang, and Xun Cao. Facescape: a large-scale high quality 3d face dataset and detailed riggable 3d face prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 601–610, 2020.
以上是高精準度低成本遊戲3D人臉重建方案,騰訊AI Lab ICCV 2023論文解讀的詳細內容。更多資訊請關注PHP中文網其他相關文章!

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

去噪扩散模型(DDM)是目前广泛应用于图像生成的一种方法。最近,XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件,他们发现DDM的生成能力逐渐下降,但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型,去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型(DDM),通过学习一个去噪自动编码器(DAE),能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),