Rumah >Peranti teknologi >AI >Menggunakan pembelajaran mesin untuk membina semula wajah dalam video
Penterjemah |. Cui Hao
Pengulas|. cara baharu untuk mencipta semula wajah dalam video. Teknologi ini boleh membesarkan dan mengurangkan struktur muka dengan konsistensi yang tinggi dan tiada kesan pemangkasan buatan.
Biasanya, transformasi struktur muka ini dicapai melalui kaedah CGI tradisional, yang bergantung pada prosedur capping gerakan, rigging dan penteksunan yang terperinci dan mahal untuk membina semula wajah sepenuhnya.
Tidak seperti pendekatan tradisional, CGI dalam teknologi baharu disepadukan ke dalam saluran paip saraf sebagai parameter untuk maklumat muka 3D dan berfungsi sebagai asas untuk aliran kerja pembelajaran mesin.
Pengarang menegaskan:
“Matlamat kami adalah untuk mengubah bentuk dan menyunting kontur wajah berdasarkan wajah semula jadi di dunia nyata , menghasilkan tinggi -video pembentuk semula potret berkualiti [hasil] Teknologi ini boleh digunakan untuk aplikasi kesan visual seperti mencantikkan muka dan melebihkan muka
Walaupun wajah 2D telah tersedia kepada pengguna sejak kemunculan teknologi herotan Photoshop (dan membawa kepada subkultur herotan muka dan dismorfia badan), tetapi ia masih merupakan teknologi yang sukar untuk mencapai pembinaan semula muka untuk video tanpa menggunakan CGI >Muka Mark Zuckerberg mengembang dan mengecil kerana teknologi baharu
Badan. membentuk semula kini menjadi topik hangat dalam bidang penglihatan komputer, terutamanya kerana potensinya dalam fesyen e-dagang , contohnya: menjadikan orang kelihatan lebih tinggi dan lebih rangka, tetapi masih terdapat beberapa cabaran
Begitu juga, perubahan bentuk muka dalam video dengan cara yang meyakinkan sentiasa menjadi teras kerja penyelidik Walaupun pelaksanaan teknologi ini telah terjejas oleh pemprosesan buatan dan batasan lain, produk baharu ini memindahkan keupayaan yang telah dikaji sebelum ini daripada statik. pengembangan kepada output video dinamik.
Sistem baharu ini dilengkapi dengan Latihan AMD Ryzen 9 3950X dilakukan pada PC desktop dengan memori 32GB, dan peta gerakan dijana menggunakan algoritma aliran optik OpenCV dan diperlancar melalui StructureFlow. rangka kerja; komponen Rangkaian Penjajaran Muka (FAN) untuk anggaran ciri, juga digunakan dalam pakej komponen deepfakes yang popular, Bekerja dengan Ceres Solver untuk menyelesaikan masalah pengoptimuman muka
Contoh menggunakan sistem baharu untuk membesarkan muka
Tajuk kertas kerja ini ialah Pembentukan Semula Parametrik Potret dalam. Video, dikarang oleh tiga penyelidik dari Universiti Zhejiang dan seorang penyelidik dari Universiti Bath
Mengenai wajah
Dalam sistem baharu, video diekstrak ke dalam jujukan imej, bermula dengan wajah Bina model asas Kemudian sambungkan bingkai seterusnya yang mewakili untuk membina parameter personaliti yang konsisten di sepanjang arah larian imej (iaitu arah. bingkai video). Proses seni bina sistem ubah bentuk
Seterusnya, mengikut ungkapan pengiraan, parameter pembentukan yang dilaksanakan oleh regresi linear dijana, dan kemudian pemetaan 2D kontur muka dibina melalui tandatangan fungsi jarak (SDF) sebelum dan selepas pembentukan semula muka .
Akhir sekali, video output tertakluk kepada pengoptimuman morphing untuk pengecaman kandunganParameterisasi mukaProses ini menggunakan 3D. Model Wajah Morphable (3DMM), yang merupakan alat bantu sintesis muka berdasarkan saraf dan GAN, dan juga sesuai untuk sistem pengesanan palsu.Contoh daripada 3D Morphable face Model (3DMM) - muka prototaip parametrik yang digunakan dalam projek baharu. Aplikasi ikonik di kiri atas pada permukaan 3DMM. Atas kanan, bucu jejaring 3D bagi isoma. Sudut kiri bawah menunjukkan kesesuaian ciri gambar tengah bawah, isomap tekstur muka yang diekstrak dan sudut kanan bawah, kesesuaian akhir dan bentuk
Aliran kerja sistem baharu mengambil kira situasi oklusi, seperti apabila objek bergerak menjauhi pandangan. Ini juga merupakan salah satu cabaran terbesar untuk perisian deepfake, kerana mercu tanda FAN hampir tidak dapat menjelaskan situasi ini, dan kualiti terjemahannya cenderung menurun apabila wajah dielakkan atau ditutup.
Sistem baharu mengelakkan masalah di atas dengan mentakrifkan "tenaga kontur" yang sepadan dengan sempadan muka 3D (3DMM) dan muka 2D (ditakrifkan oleh mercu tanda FAN).
Senario aplikasi sistem ini ialah ubah bentuk masa nyata, seperti transformasi masa nyata bentuk muka dalam penapis sembang video. Pada masa ini, rangka kerja tidak dapat mencapai ini, jadi menyediakan sumber pengkomputeran yang diperlukan untuk membolehkan ubah bentuk "masa nyata" menjadi cabaran yang ketara.
Mengikut andaian kertas itu, kependaman setiap operasi bingkai video 24fps dalam saluran paip berbanding bahan sesaat ialah 16.344 saat, dan untuk anggaran ciri dan ubah bentuk muka 3D, ia juga disertakan dengan satu pukulan (masing-masing 321 ms dan 160 ms).
Hasilnya, pengoptimuman telah mencapai kemajuan penting dalam mengurangkan kependaman. Memandangkan pengoptimuman bersama merentas semua bingkai akan meningkatkan overhed sistem dengan ketara, dan pengoptimuman gaya permulaan (dengan mengandaikan ciri pembesar suara yang konsisten sepanjang) boleh membawa kepada anomali, pengarang menggunakan mod jarang untuk mengira pekali pada selang realistik bingkai sampel.
Pengoptimuman bersama kemudiannya dilakukan pada subset bingkai ini, menghasilkan proses pembinaan semula yang lebih ramping.
Teknologi morphing yang digunakan dalam projek ini adalah adaptasi daripada karya Deep Shapely Portraits (DSP) pengarang tahun 2020.
Potret Deep Shapely, penyerahan 2020 kepada ACM Multimedia. Kertas kerja itu diketuai oleh penyelidik dari Makmal Bersama Teknologi Inovasi Teknologi Grafik Pintar Universiti Zhejiang-Tencent
Pengarang memerhatikan bahawa "kami melanjutkan pendekatan ini daripada membentuk semula satu imej kepada membentuk semula keseluruhan jujukan imej."
Kertas menunjukkan bahawa tiada data sejarah yang setanding untuk menilai kaedah baharu. Oleh itu, penulis membandingkan bingkai output video melengkung mereka dengan output DSP statik.
Menguji sistem baharu terhadap imej statik daripada Deep Shapely Portraits
Pengarang menunjukkan bahawa disebabkan penggunaan pemetaan jarang, kaedah DSP akan mempunyai kesan pengubahsuaian buatan— —Rangka kerja baharu menyelesaikan masalah ini melalui pemetaan padat. Tambahan pula, kertas itu berpendapat bahawa video yang dihasilkan oleh DSP tidak mempunyai kelancaran dan keselarasan visual.
Pengarang menegaskan:
"Hasilnya menunjukkan bahawa kaedah kami boleh secara stabil dan koheren menghasilkan video potret yang dibentuk semula, manakala kaedah berasaskan imej dengan mudah boleh membawa kepada artifak berkelip yang jelas (Jejak pengubahsuaian buatan ). "
Cui Hao, editor komuniti 51CTO, arkitek kanan, mempunyai pengalaman pembangunan perisian dan seni bina selama 18 tahun, dan pengalaman seni bina teragih selama 10 tahun. Dahulu pakar teknikal di HP. Beliau bersedia berkongsi dan telah menulis banyak artikel teknikal popular dengan lebih daripada 600,000 bacaan. Pengarang "Prinsip dan Amalan Seni Bina Teragih".
Tajuk asal: Menstruktur Semula Wajah dalam Video Dengan Pembelajaran Mesin, pengarang: Martin Anderson
Atas ialah kandungan terperinci Menggunakan pembelajaran mesin untuk membina semula wajah dalam video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!