Rumah > Artikel > Peranti teknologi > Penyelesaian pembinaan semula muka 3D permainan berketepatan tinggi dan kos rendah, tafsiran kertas Tencent AI Lab ICCV 2023
Pembinaan semula muka 3D ialah teknologi utama yang digunakan secara meluas dalam pengeluaran filem dan televisyen permainan, orang digital, AR/VR, pengecaman dan penyuntingan muka, dsb. Matlamatnya adalah untuk mendapatkan kualiti tinggi daripada satu atau berbilang imej model muka 3D . Dengan bantuan sistem penangkapan yang kompleks di studio, penyelesaian matang dalam industri pada masa ini boleh mencapai kesan pembinaan semula dengan ketepatan tahap liang yang setanding dengan orang sebenar [2]. ia biasanya hanya digunakan dalam filem dan televisyen atau projek permainan peringkat S.
Dalam beberapa tahun kebelakangan ini, permainan interaktif berdasarkan teknologi pembinaan semula muka kos rendah (seperti permainan mencubit muka watak permainan, penjanaan imej maya AR/VR, dsb.) telah disambut baik oleh pasaran. Pengguna hanya perlu memasukkan gambar yang boleh diperoleh setiap hari, seperti gambar tunggal atau berbilang yang diambil oleh telefon bimbit, untuk mendapatkan model 3D dengan cepat. Walau bagaimanapun, kualiti pengimejan kaedah sedia ada tidak dapat dikawal, ketepatan keputusan pembinaan semula adalah rendah, dan ia tidak dapat menyatakan butiran wajah [3-4]. Bagaimana untuk mendapatkan muka 3D kesetiaan tinggi pada kos rendah masih menjadi masalah yang tidak dapat diselesaikan.
Langkah pertama dalam pembinaan semula muka adalah untuk mentakrifkan kaedah ekspresi muka, model berparameter muka arus perdana yang sedia ada mempunyai keupayaan ekspresi yang terhad Walaupun dengan lebih banyak maklumat kekangan, seperti imej berbilang paparan, pembinaan semula ketepatan Ia juga sukar untuk diperbaiki. Oleh itu, Tencent AI Lab mencadangkan Model Pengkulitan Adaptif yang dipertingkatkan (selepas ini dirujuk sebagai ASM) sebagai model muka parametrik, yang menggunakan muka muka dan menggunakan model campuran Gaussian untuk mengekspresikan pemberat muka Pi sangat mengurangkan bilangan parameter supaya ia boleh diselesaikan secara automatik.
Ujian menunjukkan bahawa kaedah ASM hanya menggunakan sebilangan kecil parameter tanpa memerlukan latihan, yang meningkatkan dengan ketara keupayaan ekspresi wajah dan ketepatan pembinaan semula muka berbilang pandangan, berinovasi Tahap SOTA . Kertas kerja yang berkaitan telah diterima oleh ICCV-2023 Berikut adalah penjelasan terperinci mengenai kertas tersebut.
Tajuk tesis: ASM: Adaptive Skinning Model for High-Quality 3D Face Modelling
#🎜🎜 #Pautan kertas: https://arxiv.org/pdf/2304.09423.pdfCabaran penyelidikan: kos rendah, masalah pembinaan semula muka 3D berketepatan tinggi
#🎜🎜 #Mendapatkan model 3D dengan kandungan maklumat yang lebih besar daripada imej 2D adalah masalah yang tidak dapat ditentukan dengan penyelesaian yang tidak terhingga. Untuk menjadikannya boleh diselesaikan, penyelidik memperkenalkan muka muka ke dalam pembinaan semula, yang mengurangkan kesukaran menyelesaikan dan menyatakan bentuk 3D muka dengan parameter yang lebih sedikit, iaitu model muka parametrik. Kebanyakan model muka parametrik semasa adalah berdasarkan Model Morphable 3D (3DMM) dan versi 3DMM yang dipertingkatkan ialah model muka parametrik yang pertama kali dicadangkan oleh Blanz dan Vetter pada tahun 1999 [5]. Artikel itu menganggap bahawa muka boleh diperolehi melalui gabungan linear atau bukan linear berbilang muka yang berbeza Ia membina perpustakaan asas muka dengan mengumpulkan beratus-ratus model 3D berketepatan tinggi muka sebenar, dan kemudian menggabungkan muka berparameter untuk menyatakan ciri baharu. Model muka. Penyelidikan seterusnya mengoptimumkan 3DMM dengan mengumpul model muka sebenar yang lebih pelbagai [6, 7] dan menambah baik kaedah pengurangan dimensi [8, 9].
Walau bagaimanapun, model seperti muka 3DMM mempunyai keteguhan tinggi tetapi ekspresif yang tidak mencukupi. Walaupun ia boleh menjana model muka secara stabil dengan ketepatan purata apabila imej input dikaburkan atau tertutup, apabila berbilang imej berkualiti tinggi digunakan sebagai input, 3DMM mempunyai keupayaan ekspresi terhad dan tidak boleh menggunakan lebih banyak maklumat input Oleh itu, mengehadkan ketepatan pembinaan semula. Batasan ini berpunca daripada dua aspek Pertama, batasan kaedah itu sendiri Kedua, kaedah ini bergantung pada pengumpulan data model muka Bukan sahaja kos perolehan data yang tinggi, tetapi juga sukar untuk digunakan dalam aplikasi praktikal kepada sensitiviti data muka.
Kaedah ASM: Reka bentuk semula model berkulit rangka
Untuk menyelesaikan masalah keupayaan ekspresi tidak mencukupi model muka 3DMM sedia ada, artikel ini memperkenalkan "model kulit rangka" yang biasa digunakan dalam industri permainan digunakan sebagai kaedah ekspresi muka penanda aras. Model berkulit rangka ialah kaedah pemodelan muka yang biasa digunakan untuk menyatakan bentuk muka dan ekspresi watak permainan dalam proses penghasilan permainan dan animasi. Ia disambungkan ke bucu Mesh pada muka manusia melalui mata tulang maya Berat kulit menentukan berat pengaruh tulang pada bucu Mesh Apabila digunakan, anda hanya perlu mengawal pergerakan tulang untuk mengawal pergerakan secara tidak langsung bucu Mesh.
Biasanya, model berkulit rangka memerlukan animator untuk melakukan peletakan tulang dan lukisan berat kulit yang tepat, yang mempunyai ciri-ciri ambang pengeluaran yang tinggi dan kitaran pengeluaran yang panjang. Walau bagaimanapun, bentuk tulang dan otot orang yang berbeza dalam wajah manusia sebenar adalah agak berbeza Satu set sistem kulit rangka tetap sukar untuk menyatakan pelbagai bentuk muka secara realiti sistem Berdasarkan reka bentuk selanjutnya, model pengupasan tulang adaptif ASM dicadangkan, yang menambah baik lagi model kulit tulang berdasarkan berat kulit campuran Gaussian (Berat Pengupasan GMM) dan sistem pengikatan tulang dinamik (Pengikat Tulang Dinamik) #🎜🎜 # Dengan keupayaan ekspresif dan fleksibiliti, ia secara adaptif boleh menjana model kulit rangka yang unik untuk setiap wajah sasaran untuk mengekspresikan butiran wajah yang lebih kaya.
Untuk meningkatkan keupayaan ekspresif model kulit rangka apabila memodelkan wajah yang berbeza, ASM telah membuat reka bentuk baharu untuk kaedah pemodelan model kulit rangka.Rajah 1: Rangka kerja keseluruhan ASM
Sistem kulit rangka biasanya berdasarkan algoritma Linear Blend Skinning (LBS), dengan mengawal pergerakan (putaran, terjemahan, penskalaan tulang) daripada bucu Mesh. Pengkulitan tulang tradisional terdiri daripada dua bahagian, iaitu matriks berat kulit dan pengikatan tulang parameter kedua-dua bahagian ini secara berasingan untuk mencapai model kulit tulang yang adaptif. Seterusnya, kami akan memperkenalkan kaedah pemodelan parametrik bagi matriks berat kulit dan pengikatan tulang masing-masing.
Formula 1: Formula lbs model berkulit kerangka tradisional
Formula 2: Formula LBS ASM Formulagaussian Berat Skinning (Berat Skinning GMM)
Matriks berat kulit ialah matriks mxn-dimensi, di mana m ialah bilangan tulang dan n ialah bilangan bucu pada Mesh Matriks ini digunakan untuk menyimpan pekali pengaruh setiap tulang pada setiap bucu Mesh. Secara umumnya, matriks berat kulit adalah sangat jarang Contohnya, dalam Unity, setiap puncak Mesh hanya akan dipengaruhi oleh sehingga 4 tulang Kecuali untuk 4 tulang ini, pekali pengaruh tulang lain pada puncak adalah 0 . Dalam model berkulit tulang tradisional, pemberat kulit dilukis oleh animator, dan setelah pemberat kulit diperoleh, ia tidak akan berubah lagi apabila digunakan. Dalam beberapa tahun kebelakangan ini, beberapa kerja [1] telah cuba menggabungkan sejumlah besar data dengan pembelajaran rangkaian saraf untuk menjana pemberat kulit secara automatik Walau bagaimanapun, penyelesaian sedemikian mempunyai dua masalah Pertama, melatih rangkaian saraf memerlukan sejumlah besar data. Jika ia adalah wajah 3D atau data berat kulit adalah lebih sukar untuk diperolehi, kedua, terdapat redundansi parameter yang serius dalam menggunakan rangkaian saraf untuk memodelkan berat kulit.Adakah terdapat kaedah pemodelan berat kulit yang dapat mengekspresikan berat kulit keseluruhan muka menggunakan sebilangan kecil parameter tanpa latihan?
Dengan memerhati berat kulit biasa, kita boleh mencari sifat-sifat berikut: 1. Berat kulit adalah licin setempat 2. Semakin jauh puncak Mesh dari kedudukan tulang semasa, pekali kulit yang sepadan biasanya lebih kecil; adalah konsisten dengan Model Campuran Gaussian (GMM) sangat bersetuju. Oleh itu, artikel ini mencadangkan Gaussian Mixed Skinning Weights (GMM Skinning Weights) untuk memodelkan matriks berat skinning sebagai fungsi campuran Gaussian berdasarkan fungsi jarak tertentu antara bucu dan tulang, supaya satu set pekali GMM boleh digunakan untuk menyatakan skinning. berat tulang tertentu yang diedarkan. Untuk memampatkan lagi parameter berat kulit, kami memindahkan seluruh muka Mesh dari ruang tiga dimensi ke ruang UV, jadi kami hanya perlu menggunakan GMM dua dimensi dan menggunakan jarak UV dari puncak ke tulang untuk mengira penutupan tulang semasa bagi pekali berat kulit.Pengikat Tulang Dinamik
Pemodelan parametrik berat kulit bukan sahaja membolehkan kita menyatakan matriks berat kulit dengan sebilangan kecil parameter, tetapi juga membolehkan kita melaraskan tulang pada masa larian Ia menjadi mungkin untuk mengikat kedudukan Oleh itu, artikel ini mencadangkan kaedah pengikatan tulang dinamik (Dynamic Bone Binding). Sama seperti berat kulit, artikel ini memodelkan kedudukan mengikat tulang sebagai titik koordinat pada ruang UV, dan boleh bergerak sewenang-wenangnya dalam ruang UV. Untuk bucu Mesh muka, bucu boleh dipetakan kepada koordinat tetap dalam ruang UV hanya melalui hubungan pemetaan UV yang telah ditetapkan. Tetapi tulang tidak ditakrifkan dalam ruang UV, jadi untuk ini kita perlu memindahkan tulang terikat dari ruang tiga dimensi ke ruang UV. Langkah dalam artikel ini dilaksanakan dengan menginterpolasi koordinat tulang dan bucu sekeliling Kami menggunakan pekali interpolasi yang dikira pada koordinat UV bucu untuk mendapatkan koordinat UV tulang. Perkara yang sama berlaku secara terbalik Apabila kita perlu memindahkan koordinat tulang dari ruang UV ke ruang tiga dimensi, kita juga mengira pekali interpolasi antara koordinat UV tulang semasa dan koordinat UV bucu bersebelahan, dan menggunakan pekali interpolasi kepada bucu yang sama dalam ruang tiga dimensi Pada koordinat tiga dimensi, koordinat ruang tiga dimensi bagi tulang yang sepadan boleh diinterpolasi.Melalui kaedah pemodelan ini, kami menyatukan kedudukan ikatan dan pekali berat kulit tulang menjadi satu set pekali dalam ruang UV. Apabila menggunakan ASM, kami menukar ubah bentuk bucu Mesh muka kepada gabungan pekali mengimbangi kedudukan mengikat tulang dalam ruang UV, pekali menguliti campuran Gaussian dalam ruang UV dan pekali gerakan tulang, Sangat meningkatkan ekspresif keupayaan model berkulit rangka untuk mencapai penjanaan butiran wajah yang lebih kaya.每 Jadual 1: Dimensi parameter setiap tulang ASM
Hasil penyelidikan: Keupayaan ekspresi wajah manusia dan ketepatan pembinaan semula berbilang pandangan mencapai tahap SOTA Perbandingan parameterisasi berbeza bagi Keupayaan model muka manusia
Kita gunakan model muka parametrik untuk mendaftarkan model imbasan muka berketepatan tinggi (Pendaftaran), menggabungkan ASM dengan 3DMM tradisional berdasarkan kaedah PCA (BFM [6], FLAME [7], FaceScape [10]) , 3DMM berdasarkan dimensi rangkaian saraf kaedah pengurangan (CoMA [8], ImFace [9]) dan model berkulit tulang terkemuka industri (MetaHuman) telah dibandingkan. Keputusan menunjukkan bahawa keupayaan ekspresi ASM mencapai tahap SOTA pada kedua-dua set data LYHM dan FaceScape. Jadual 2: Ketepatan pendaftaran LYHM dan Facescape Rajah 3: Hasil visualisasi LYHM dan peta haba ralat pendaftaran pada facescape
application dalam rekonstruksi wajah multi-view kami menggunakan data Florence MICC untuk menguji prestasi prestasi ASM pada tugas pembinaan semula muka berbilang paparan Ketepatan pembinaan semula pada set ujian Coop (kamera jarak dekat dalaman, aksara tanpa ekspresi) mencapai tahap SOTA. Re Rajah 4: Hasil keputusan pembinaan semula muka 3D pada set data Florence Micc
Kami juga menguji kesan bilangan gambar dalam tugas pembinaan semula berbilang perspektif pada dataset FaceScape Apabila bilangan gambar adalah lebih kurang 5, ASM boleh mencapai ketepatan pembinaan semula tertinggi berbanding kaedah ekspresi muka yang lain. E Jadual 3: Hasil pembinaan semula berbilang perspektif bagi kuantiti input yang berbeza pada FaceScapeRajah 5: Hasil pembinaan semula pelbagai perspektif dan ralat input berbeza pada Facescape
Kajian dan Outlook ini mengambil langkah penting dalam menyelesaikan masalah industri untuk mendapatkan wajah manusia yang mempunyai kesetiaan tinggi dalam keadaan kos rendah. Model muka parametrik baharu yang kami cadangkan meningkatkan keupayaan ekspresi muka dengan ketara dan meningkatkan had atas ketepatan pembinaan semula muka berbilang paparan ke tahap baharu. Kaedah ini boleh digunakan dalam banyak bidang seperti pemodelan watak 3D dalam pengeluaran permainan, permainan mencubit muka automatik dan penjanaan avatar dalam AR/VR. Selepas keupayaan ekspresi wajah dipertingkatkan dengan ketara, cara membina kekangan konsistensi yang lebih kuat daripada imej berbilang paparan untuk meningkatkan lagi ketepatan hasil pembinaan semula telah menjadi halangan baharu dan cabaran baharu dalam bidang pembinaan semula muka semasa. . Ini juga akan menjadi hala tuju penyelidikan masa depan kami. Rujukan [1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, dan Baoyuan berasaskan Wang perwakilan pelantar saraf untuk pemodelan muka 3d padat Dalam Computer Vision–ECCV 2020: Persidangan Eropah ke-16, Glasgow, UK, 23–28 Ogos 2020, Prosiding, Bahagian XVIII 16, halaman 389–405. #🎜🎜. [2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner dan Markus Gross Tangkapan satu tangkapan geometri muka yang berkualiti tinggi dalam kertas ACM SIGGRAPH 2010, muka surat 1 –9. 2010. [3] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia dan Xin Tong dengan pembinaan semula muka 3d yang tepat dengan lemah - pembelajaran diselia: Daripada imej tunggal kepada set imej Dalam Prosiding persidangan IEEE/CVF mengenai bengkel pengecaman penglihatan dan corak komputer, muka surat 0–0, 2019. [ 4] Yao Feng, Haiwen Feng, Michael J Black dan Timo Bolkart Mempelajari model wajah 3d terperinci boleh animasi daripada imej dalam-liar Transaksi pada Grafik (ToG), 40 (4):1–13, 2021. [5] Volker Blanz dan Thomas Vetter Model yang boleh diubah suai untuk sintesis muka 3d dalam Prosiding persidangan tahunan ke-26 mengenai grafik Komputer dan teknik interaktif 187–194, 1999. [6] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani dan Thomas Vetter Model muka 3d untuk pose dan iluminasi pengenalan muka Pada persidangan antarabangsa IEEE keenam 2009 mengenai pengawasan berasaskan video dan isyarat lanjutan, halaman 296–301, Ieee, 2009. [7] Tianye Li. , Michael J Black, Hao Li, dan Javier Romero Mempelajari model bentuk muka dan ekspresi daripada imbasan 4d Trans., 36 (6):194–1, 2017.#🎜# #. . 2018. [9] Mingwu Zheng, Hongyu Yang, Di Huang dan Liming Chen: Model muka boleh ubah 3d bukan linear dengan perwakilan saraf tersirat Persidangan IEEE/CVF tentang Penglihatan Komputer dan Pengecaman Corak, halaman 20343–20352, 2022. [10] Haotian Yang, Hao Zhu, Yanru Wang , Mingkai Qiu Shen, Ruigang Yang dan Xun Cao Facescape: set data muka 3d berkualiti tinggi berskala besar dan ramalan muka 3d yang boleh diikat secara terperinci Dalam Prosiding Persidangan IEEE/CVF tentang Penglihatan Komputer dan Pengecaman Corak, halaman 601–610, 2020 .
Atas ialah kandungan terperinci Penyelesaian pembinaan semula muka 3D permainan berketepatan tinggi dan kos rendah, tafsiran kertas Tencent AI Lab ICCV 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!