Rumah >Peranti teknologi >AI >ACM MM 2023 |. DiffBFR: Kaedah pemulihan muka penindasan bunyi yang dicadangkan oleh Meitu & Universiti Sains dan Teknologi China
Matlamat Pemulihan Wajah Buta (BFR) adalah untuk memulihkan imej muka berkualiti tinggi daripada imej muka berkualiti rendah. Ini adalah tugas penting dalam bidang penglihatan komputer dan grafik, dan digunakan secara meluas dalam pelbagai senario seperti pemulihan imej pengawasan, pemulihan foto lama dan resolusi super imej muka
Namun, tugas ini sangat Ia mencabar kerana kemerosotan ketidakpastian akan merosakkan kualiti imej malah membawa kepada kehilangan maklumat imej, seperti kabur, hingar, persampelan rendah dan artifak mampatan. Kaedah BFR sebelumnya biasanya bergantung pada rangkaian adversarial generatif (GAN) untuk menyelesaikan masalah ini dengan mereka bentuk pelbagai priors khusus muka, termasuk priors generatif, prior reference dan priors geometri. Walaupun kaedah ini telah mencapai tahap terkini, kaedah ini masih tidak dapat mencapai sepenuhnya matlamat untuk mendapatkan tekstur yang realistik semasa memulihkan butiran Semasa proses pemulihan imej, set data imej wajah biasanya bertaburan dalam ruang dimensi tinggi, dan dimensi ciri taburan berbentuk taburan ekor panjang. Berbeza daripada pengedaran ekor panjang bagi tugas pengelasan imej, ciri serantau ekor panjang dalam pemulihan imej merujuk kepada atribut yang mempunyai kesan kecil pada identiti tetapi memberi kesan besar pada kesan visual, seperti tahi lalat, kedutan dan ton, dsb.
# 🎜🎜# Mengikut kesederhanaan yang ditunjukkan dalam Rajah 1, untuk tidak mengubah maksud asal, hasil eksperimen perlu ditulis semula ke dalam bahasa Cina Kita boleh mendapati bahawa kaedah berasaskan GAN yang lalu mempunyai masalah yang jelas apabila memproses sampel kepala dan ekor pengedaran ekor panjang pada masa yang sama Kelicinan berlebihan dan kehilangan perincian berlaku semasa membaiki imej. Kaedah berdasarkan Model Probistik Penyebaran (DPM) boleh lebih sesuai dengan pengedaran ekor panjang dan mengekalkan ciri ekor sambil menyesuaikan pengedaran data sebenar# 🎜🎜#
# 🎜🎜#Kandungan yang perlu ditulis semula ialah: ujian berasaskan GAN dan berasaskan DPM terhadap isu ekor panjang美图image The Institute (MT Lab) bekerjasama dengan penyelidik dari Akademi Sains Universiti China untuk mencadangkan kaedah pemulihan imej muka buta baharu, DiffBFR Kaedah ini berdasarkan teknologi DPM dan berjaya merealisasikan pemulihan imej muka buta dan menukar orang yang berkualiti rendah (LQ) kepada Imej muka dipulihkan. kepada imej yang jelas berkualiti tinggi (HQ)
Kandungan yang perlu ditulis semula ialah: Pautan kertas: https://arxiv.org/ abs/2305.04517
Penyelidikan ini meneroka kebolehsuaian dua model generatif, Generative Adversarial Networks (GAN) dan Deep Partial Models (DPM), dalam menangani masalah long-tail. Dengan mereka bentuk modul pemulihan muka yang sesuai, maklumat terperinci yang lebih tepat boleh diperolehi, dengan itu mengurangkan kelicinan muka yang berlebihan yang mungkin berlaku dalam kaedah generatif dan meningkatkan ketepatan dan ketepatan pemulihan. Kertas penyelidikan ini telah diterima oleh ACM MM 2023
kaedah pembaikan imej muka buta berasaskan DPM - DiffBFR
Kajian mendapati bahawa penyebaran model adalah dalam mengelakkan Mengungguli kaedah GAN dari segi keruntuhan mod latihan dan pemasangan untuk menjana pengedaran berekor panjang. Oleh itu, DiffBFR memilih untuk menggunakan model kebarangkalian resapan untuk meningkatkan pembenaman maklumat terdahulu muka, dan menggunakan ini sebagai rangka kerja asas untuk memilih DPM sebagai penyelesaian. Ini kerana model resapan mempunyai keupayaan berkuasa untuk menghasilkan imej berkualiti tinggi dalam mana-mana julat pengedaranUntuk menyelesaikan pengedaran ciri ekor panjang pada set data muka yang terdapat dalam kertas dan seterusnya -melancarkan masalah kaedah berasaskan GAN yang lalu, kajian ini meneroka reka bentuk yang munasabah untuk lebih sesuai dengan anggaran taburan ekor panjang dan mengatasi masalah terlalu licin dalam proses pembaikan. Melalui eksperimen mudah GAN dan DPM dengan saiz parameter yang sama pada set data MNIST (Rajah 1), kajian mendapati bahawa kaedah DPM boleh sesuai dengan taburan ekor panjang, manakala GAN memberi terlalu banyak perhatian kepada ciri kepala dan mengabaikan ciri ekor Akibatnya, ciri ekor tidak dapat dihasilkan. Oleh itu, DPM dipilih sebagai penyelesaian kepada BFR
Dengan memperkenalkan dua pembolehubah perantaraan, DiffBFR mencadangkan dua modul pembaikan khusus. Reka bentuk ini menggunakan pendekatan dua peringkat, pertama memulihkan maklumat identiti daripada imej LQ, dan kemudian meningkatkan butiran tekstur berdasarkan pengedaran wajah sebenar. Reka bentuk ini terdiri daripada dua bahagian utama:(1) Modul Pemulihan Identiti (IRM):
modul ini Matlamatnya adalah untuk memelihara butiran wajah dalam keputusan. Pada masa yang sama, kaedah pensampelan terpenggal dicadangkan, yang menggantikan kaedah denoising menggunakan taburan rawak Gaussian tulen dalam proses terbalik dengan menambahkan sebahagian daripada hingar pada imej berkualiti rendah. Makalah ini secara teorinya membuktikan bahawa perubahan ini mengecilkan bukti teoritis batas bawah (ELBO) DPM, dengan itu memulihkan lebih banyak butiran asal. Berdasarkan bukti teori, dua model resapan bersyarat bertingkat dengan saiz input berbeza diperkenalkan untuk meningkatkan kesan pensampelan dan mengurangkan kesukaran latihan menjana imej resolusi tinggi secara langsung. Pada masa yang sama, dibuktikan lagi bahawa lebih tinggi kualiti input bersyarat, lebih dekat dengan pengedaran data sebenar, dan lebih tepat imej yang dipulihkan. Ini juga sebab mengapa DiffBFR mula-mula memulihkan imej resolusi rendah(2) Modul Peningkatan Tekstur (TEM):
Kaedah yang digunakan untuk mentekstur imej adalah dengan memperkenalkan model resapan tanpa syarat. Model ini bebas sepenuhnya daripada imej berkualiti rendah, seterusnya menjadikan hasil yang dipulihkan lebih dekat dengan data imej sebenar. Makalah ini secara teorinya membuktikan bahawa model resapan tanpa syarat yang dilatih pada imej berkualiti tinggi semata-mata menyumbang kepada pengedaran imej output yang betul dalam ruang aras piksel. Iaitu, selepas menggunakan model ini, pengedaran imej yang dilukis mempunyai FID yang lebih rendah berbanding sebelum menggunakannya, dan secara keseluruhannya lebih serupa dengan pengedaran imej berkualiti tinggi. Khususnya, maklumat identiti dikekalkan oleh pemangkasan langkah masa pensampelan, dan tekstur aras piksel digilap Langkah inferens pensampelan DiffBFR ditunjukkan dalam Rajah 2, dan rajah skematik proses inferens pensampelan ditunjukkan dalam Rajah 3.
Kandungan yang perlu ditulis semula ialah: Rajah 2 menunjukkan langkah inferens persampelan kaedah DiffBFRKandungan yang perlu ditulis semula ialah: Rajah 3 menunjukkan rajah skematik proses inferens persampelan Kaedah DiffBFR
Untuk tidak mengubah maksud Asal, keputusan eksperimen perlu ditulis semula ke dalam bahasa Cina
Kesan visualisasi kaedah BFR berasaskan GAN dan kaedah berasaskan DPM dibandingkan, sebagai Ditunjukkan dalam Rajah 4 untuk Rajah 5, prestasi kaedah SOTA untuk BFR dibandingkan dengan perbandingan visualisasi kaedah BFR ditunjukkan dalam Rajah 6
Dalam model, kita boleh membandingkan prestasi IRM dan TEM melalui visualisasi
Dalam model, prestasi IRM dan TEM dibandingkan, seperti yang ditunjukkan dalam Rajah 8
yang perlu ditulis semula ialah: Bandingkan prestasi IRM Rajah 9 di bawah parameter berbeza
Untuk Rajah 10, kita perlu membandingkan prestasi parameter yang berbeza
ditulis semula ialah: Rajah 11 menunjukkan tetapan parameter setiap modul DiffBFR
Ringkasannya adalah untuk menggabungkan maklumat atau Proses merumus semula idea dengan cara yang ringkas dan jelas. Ia tidak mengubah maksud asal tetapi mengemukakan idea yang sama dengan menggunakan kosa kata dan struktur ayat yang berbeza. Tujuan rumusan adalah untuk memberikan penyampaian yang lebih jelas, padat supaya pembaca lebih mudah memahami dan mencerna maklumat yang disampaikan. Ringkasan berguna dalam pelbagai situasi, sama ada dalam kertas akademik, laporan perniagaan atau komunikasi harian, untuk menyampaikan idea dan kesimpulan penting. Ringkasnya, ringkasan ialah alat komunikasi penting yang boleh membantu kami menyampaikan dan memahami maklumat dengan lebih berkesanKertas kerja ini mencadangkan model pemulihan imej muka degradasi buta DiffBFR berdasarkan model penyebaran untuk menyelesaikan masalah kaedah berasaskan GAN sebelumnya ranap mod dan masalah hilang ekor panjang. Dengan membenamkan pengetahuan sedia ada ke dalam model resapan, imej yang dipulihkan berkualiti tinggi dan jelas boleh dijana daripada imej muka yang rosak teruk secara rawak. Secara khusus, kajian ini mencadangkan dua modul, IRM dan TEM, yang digunakan untuk memulihkan realiti dan memulihkan butiran masing-masing. Melalui terbitan teori dan demonstrasi imej eksperimen, keunggulan model ditunjukkan, dan perbandingan kualitatif dan kuantitatif dibuat dengan kaedah terkini yang sedia ada
Apa yang perlu ditulis semula ialah: Pasukan Penyelidik
Kertas kerja ini dicadangkan bersama oleh penyelidik dari Institut Penyelidikan Pengimejan Meitu (MT Lab) dan Akademi Sains Universiti China. Institut Penyelidikan Pengimejan Meitu (MT Lab) telah ditubuhkan pada tahun 2010. Ia adalah pasukan Meitu yang memfokuskan pada penyelidikan algoritma, pembangunan kejuruteraan dan pelaksanaan produk dalam bidang penglihatan komputer, pembelajaran mendalam, realiti tambahan dan bidang lain. Sejak penubuhannya, pasukan itu komited untuk meneroka penyelidikan dalam bidang penglihatan komputer, dan mula menggunakan pembelajaran mendalam pada 2013 untuk menyediakan sokongan teknikal untuk produk perisian dan perkakasan Meitu. Pada masa yang sama, mereka juga menyediakan perkhidmatan SaaS yang disasarkan untuk pelbagai medan menegak dalam industri pengimejan, dan mempromosikan pembangunan ekologi produk kecerdasan buatan Meitu melalui teknologi pengimejan termaju. Mereka telah mengambil bahagian dalam pertandingan antarabangsa terkemuka seperti CVPR, ICCV, dan ECCV, memenangi lebih daripada sepuluh kejuaraan dan naib juara, dan menerbitkan lebih daripada 48 kertas persidangan akademik antarabangsa terkemuka. Institut Penyelidikan Pengimejan Meitu (MT Lab) telah lama komited dalam penyelidikan dan pembangunan dalam bidang pengimejan, telah mengumpul rizab teknikal yang kaya, dan mempunyai pengalaman pelaksanaan teknologi yang kaya dalam bidang gambar, video, reka bentuk dan orang digital
Atas ialah kandungan terperinci ACM MM 2023 |. DiffBFR: Kaedah pemulihan muka penindasan bunyi yang dicadangkan oleh Meitu & Universiti Sains dan Teknologi China. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!