Rumah >Peranti teknologi >AI >Padamkan cela dan kedutan dengan satu klik: tafsiran mendalam model kecantikan kulit potret definisi tinggi DAMO Academy ABPN
Dengan perkembangan pesat industri budaya digital, teknologi kecerdasan buatan telah mula digunakan secara meluas dalam bidang penyuntingan dan pengindahan imej. Antaranya, mencantikkan kulit potret tidak diragukan lagi merupakan salah satu teknologi yang paling banyak digunakan dan paling dituntut. Algoritma kecantikan tradisional menggunakan teknologi penyuntingan imej berasaskan penapis untuk mencapai kesan penurapan semula kulit dan penyingkiran noda secara automatik, dan telah digunakan secara meluas dalam rangkaian sosial, siaran langsung dan senario lain.
Walau bagaimanapun, dalam industri fotografi profesional dengan ambang yang tinggi, disebabkan oleh keperluan yang tinggi untuk resolusi imej dan standard kualiti, retoucher manual masih merupakan produktiviti utama retouching kecantikan potret , melengkapkan siri tugasan termasuk meratakan kulit, menghilangkan jeragat, memutihkan, dsb. Biasanya, purata masa pemprosesan untuk seorang pembaikan profesional untuk melakukan operasi mencantikkan kulit pada potret definisi tinggi ialah 1-2 minit Dalam bidang seperti pengiklanan, filem dan televisyen, yang memerlukan ketepatan yang lebih tinggi, masa pemprosesan akan menjadi lebih lama.
Berbanding dengan penurapan semula kulit dalam adegan hiburan interaktif, pengindahan kulit diperhalusi peringkat pengiklanan dan studio membawa keperluan dan cabaran yang lebih tinggi kepada algoritma. Di satu pihak, terdapat banyak jenis cela, termasuk jerawat, tanda jerawat, bintik-bintik, warna kulit tidak sekata, dan lain-lain. Algoritma perlu menyesuaikan cela yang berbeza di sisi lain, dalam proses menghilangkan cela, tekstur kulit perlu dipelihara sebanyak mungkin , tekstur, dan mencapai pengubahsuaian kulit berketepatan tinggi tetapi yang terakhir, dengan lelaran berterusan peralatan fotografi, resolusi imej yang biasa digunakan dalam fotografi profesional telah mencapai 4K atau bahkan 8K, yang mana menimbulkan masalah yang sangat penting untuk kecekapan pemprosesan algoritma.
Oleh itu, dengan matlamat untuk mencapai pengindahan kulit pintar peringkat profesional, kami telah membangunkan satu set algoritma ubah suai tempatan ultra-halus ABPN untuk imej definisi tinggi dan aplikasi yang sangat baik telah dicapai dalam tugas menghilangkan kedutan pakaian.
Inti algoritma kecantikan tradisional adalah untuk menjadikan piksel di kawasan kulit lebih licin dan mengurangkan kecacatan yang ketara, dengan itu menjadikan kulit kelihatan lebih licin. Secara umumnya, algoritma pengindahan sedia ada boleh dibahagikan kepada tiga langkah: 1) algoritma penapisan imej, 2) gabungan imej, dan 3) penajaman. Proses keseluruhan adalah seperti berikut:
Untuk mencapai kelicinan kawasan kulit sambil mengekalkan tepi dalam imej, algoritma kecantikan tradisional terlebih dahulu menggunakan penapis pengawet tepi (seperti penapisan dua hala, penapisan berpandu, dsb.) untuk memproses imej. Berbeza daripada penapis min yang biasa digunakan dan penapis Gaussian, penapis pengawet tepi mengambil kira perubahan dalam nilai piksel di kawasan yang berbeza, dan menggunakan pemberat yang berbeza untuk bahagian tepi dengan perubahan piksel yang besar dan piksel di kawasan tengah dengan perubahan lembut, dengan itu mencapai rizab imej. Kemudian, untuk tidak menjejaskan kawasan latar belakang, algoritma pengesanan segmentasi biasanya digunakan untuk mencari kawasan kulit dan membimbing gabungan imej asal dan imej terlicin. Akhir sekali, mengasah boleh meningkatkan lagi penonjolan tepi dan kejelasan deria. Gambar berikut menunjukkan kesan algoritma kecantikan tradisional semasa:
Imej asal datang daripada unsplash [31]Dari sudut kesan, algoritma kecantikan tradisional mempunyai dua masalah utama: 1) Pemprosesan kecacatan tidak menyesuaikan diri dan tidak boleh menangani pelbagai jenis kecacatan baiklah. 2) Pemprosesan melicinkan menyebabkan kehilangan tekstur dan tekstur kulit. Masalah ini amat ketara dalam imej definisi tinggi.
3.2 Algoritma pembelajaran mendalam sedia ada
Untuk mencapai pengubahsuaian adaptif kawasan kulit yang berbeza dan kelemahan yang berbeza, berdasarkan pada algoritma pembelajaran mendalam dipacu data nampaknya merupakan penyelesaian yang lebih baik. Memandangkan perkaitan tugas itu, kami membincangkan dan membandingkan kebolehgunaan empat kaedah sedia ada: Terjemahan Imej-ke-Imej, Penyesuaian Foto, Lukisan Imej dan Penyuntingan Imej Beresolusi Tinggi untuk tugasan mencantikkan kulit.
Terjemahan Imej-ke-Imej Tugas pada asalnya dimulakan oleh pix2pix [1 ], yang meringkaskan sejumlah besar tugas penglihatan komputer ke dalam tugas ramalan piksel-ke-piksel, dan mencadangkan rangka kerja umum berdasarkan rangkaian musuh generatif bersyarat untuk menyelesaikan masalah tersebut. Berdasarkan pix2pix [1], pelbagai kaedah telah dicadangkan untuk menyelesaikan masalah terjemahan imej, termasuk kaedah menggunakan imej berpasangan [2, 3, 4, 5] dan kaedah menggunakan kaedah tidak berpasangan [6,7,8,9]. Sesetengah kerja memfokuskan pada tugas terjemahan imej tertentu tertentu (seperti sintesis imej semantik [2, 3, 5], pemindahan gaya, dsb. [9, 10, 11, 12]) dan telah mencapai hasil yang mengagumkan. Walau bagaimanapun, kebanyakan terjemahan imej di atas tertumpu terutamanya pada transformasi keseluruhan imej kepada imej dan kurang perhatian kepada kawasan setempat, yang mengehadkan prestasinya dalam tugas mencantikkan kulit.
Mendapat manfaat daripada pembangunan rangkaian neural konvolusi yang mendalam, kaedah berasaskan pembelajaran[ 13,14,15,16] telah menunjukkan hasil yang sangat baik dalam bidang ubah suai imej dalam beberapa tahun kebelakangan ini. Walau bagaimanapun, sama seperti kebanyakan kaedah terjemahan imej, algoritma ubah suai sedia ada tertumpu terutamanya pada memanipulasi beberapa sifat keseluruhan imej, seperti warna, pencahayaan, pendedahan, dsb. Sedikit perhatian diberikan kepada penyusunan semula kawasan setempat, dan penyusunan semula kulit adalah betul-betul tugas pengubahsuaian setempat (Penyusunan Foto Tempatan), yang memerlukan penyusunan semula kawasan sasaran sambil mengekalkan kawasan latar belakang tidak berubah.
Algoritma pengecatan imej sering digunakan untuk mengisi bahagian yang hilang dalam Penyiapan imej generasi sangat serupa dengan tugas mencantikkan kulit. Dengan keupayaan pembelajaran ciri yang berkuasa, kaedah berdasarkan rangkaian generatif dalam [17, 18, 19, 20] telah mencapai kemajuan yang besar dalam tugas mengecat sejak beberapa tahun kebelakangan ini. Walau bagaimanapun, kaedah mengecat bergantung pada topeng kawasan sasaran sebagai input, dan dalam mencantikkan kulit dan tugas pengubahsuaian tempatan yang lain, mendapatkan topeng kawasan sasaran yang tepat itu sendiri adalah tugas yang sangat mencabar. Oleh itu, kebanyakan tugas mengecat imej tidak boleh digunakan secara langsung untuk mencantikkan kulit. Dalam beberapa tahun kebelakangan ini, beberapa kaedah melukis imej buta [21, 22, 23] telah menghilangkan pergantungan mereka pada topeng dan mencapai pengesanan automatik dan penyiapan kawasan sasaran. Namun begitu, seperti kebanyakan kaedah pengecatan imej lain, kaedah ini mengalami dua masalah: a) kekurangan penggunaan sepenuhnya tekstur dan maklumat semantik kawasan sasaran, dan b) kerumitan pengiraan yang besar, menjadikannya sukar untuk digunakan pada resolusi ultra tinggi imej.
Untuk mencapai penyuntingan imej resolusi tinggi, [15 , 24, 25, 26] dan kaedah lain mengurangkan beban ruang dan masa dengan memindahkan beban pengiraan utama daripada imej resolusi tinggi kepada imej resolusi rendah. Walaupun mencapai prestasi cemerlang dari segi kecekapan, kebanyakan kaedah ini tidak sesuai untuk tugasan pengubahsuaian tempatan seperti mencantikkan kulit kerana kurangnya perhatian terhadap kawasan setempat. Secara ringkasnya, kebanyakan kaedah pembelajaran mendalam yang sedia ada sukar untuk diaplikasikan secara langsung pada tugasan mencantikkan kulit Sebab utamanya ialah ia kurang perhatian kepada kawasan setempat atau memerlukan pengiraan yang banyak dan sukar untuk digunakan pada imej beresolusi tinggi.
Intipati kecantikan kulit terletak pada pengeditan imej Tidak seperti kebanyakan tugas penukaran imej yang lain, Pengeditan ini adalah separa. Tugas yang sama termasuk menghilangkan kedutan pada pakaian dan pengubahsuaian produk. Tugasan ubah suai imej tempatan jenis ini mempunyai persamaan yang kukuh Kami meringkaskan tiga kesukaran dan cabaran utamanya: 1) Kedudukan tepat kawasan sasaran. 2) Generasi tempatan (pengubahsuaian) dengan konsistensi global dan kesetiaan terperinci. 3) Pemprosesan imej resolusi ultra tinggi. Untuk tujuan ini, kami mencadangkan rangka kerja ubah suai tempatan berdasarkan Piramid Campuran Adaptif (ABPN: Rangkaian Piramid Campuran Adaptif untuk Penyesuaian Setempat Masa Nyata Foto Resolusi Ultra Tinggi, CVPR2022,[27]) untuk mencapai resolusi ultra tinggi Untuk tempatan yang diperhalusi ubah suai imej, kami akan memperkenalkan butiran pelaksanaannya di bawah.
4.1 Keseluruhan struktur rangkaian
Seperti yang ditunjukkan dalam rajah di atas, struktur rangkaian terutamanya terdiri daripada dua bahagian: lapisan pengubahsuaian tempatan (LRL) yang sedar konteks dan lapisan piramid campuran adaptif (BPL). Tujuan LRL adalah untuk mengubah suai secara tempatan imej resolusi rendah sampel yang diturunkan dan menghasilkan imej hasil pengubahsuaian resolusi rendah, dengan mempertimbangkan sepenuhnya maklumat konteks global dan maklumat tekstur tempatan. Selanjutnya, BPL digunakan untuk meningkatkan secara beransur-ansur hasil resolusi rendah yang dijana dalam LRL kepada hasil resolusi tinggi. Antaranya, kami mereka bentuk modul pengadunan adaptif (ABM) dan modul terbaliknya (R-ABM) Menggunakan lapisan campuran perantaraan Bi, kami boleh merealisasikan penukaran adaptif dan pengembangan ke atas antara imej asal dan imej hasil, menunjukkan kebolehskalaan yang kuat. dan keupayaan kesetiaan terperinci. Kami menjalankan sejumlah besar eksperimen dalam dua set data pengubahsuaian muka dan pengubahsuaian pakaian, dan keputusan menunjukkan bahawa kaedah kami jauh mendahului kaedah sedia ada dari segi keberkesanan dan kecekapan. Perlu dinyatakan bahawa model kami mencapai inferens masa nyata bagi imej resolusi ultra tinggi 4K pada satu kad P100. Di bawah, kami memperkenalkan LRL, BPL dan kehilangan latihan rangkaian masing-masing.
4.2 Lapisan Retouching Tempatan yang peka konteks
Dalam LRL, kami Ingin menyelesaikan dua cabaran yang dinyatakan dalam Bahagian 3: kedudukan tepat kawasan sasaran dan generasi tempatan dengan konsistensi global. Seperti yang ditunjukkan dalam Rajah 3, LRL terdiri daripada pengekod dikongsi, cawangan ramalan topeng (MPB) dan cawangan pengubahsuaian tempatan (LRB).
Secara amnya, kami menggunakan struktur berbilang tugas untuk mencapai kawasan sasaran yang jelas Ramalan, bimbingan dengan tempatan pengubahsuaian. Antaranya, struktur pengekod yang dikongsi boleh menggunakan latihan bersama kedua-dua cawangan untuk mengoptimumkan ciri dan menambah baik maklumat semantik global cawangan pengubahsuaian dan persepsi tempatan terhadap sasaran. Kebanyakan kaedah terjemahan imej menggunakan struktur pengekod-penyahkod tradisional untuk melaksanakan penyuntingan tempatan secara langsung tanpa menyahganding kedudukan dan penjanaan sasaran, dengan itu mengehadkan kesan penjanaan (kapasiti rangkaian adalah terhad. Sebaliknya, struktur berbilang cawangan Ia lebih kondusif untuk penyahgandingan tugas dan manfaat bersama. Dalam LRB cawangan pengubahsuaian tempatan, kami mereka bentuk LAM (Rajah 4), yang menggunakan mekanisme perhatian spatial dan mekanisme perhatian ciri secara serentak untuk mencapai gabungan penuh ciri dan menangkap semantik dan tekstur kawasan sasaran. Eksperimen ablasi (Rajah 6) menunjukkan keberkesanan setiap reka bentuk modul.
4.3 Adaptive Blend Pyramid Layer
LRL dilaksanakan pada resolusi rendah Untuk retouching tempatan, bagaimana untuk memanjangkan retouching keputusan kepada resolusi tinggi sambil meningkatkan kesetiaan perinciannya? Inilah masalah yang ingin kami selesaikan di bahagian ini.
Dalam bidang penyuntingan imej, campuran lapisan (Blend layer) ialah sering digunakan untuk bercampur dengan imej (lapisan asas) dalam mod yang berbeza untuk mencapai pelbagai tugas penyuntingan imej, seperti operasi peningkatan kontras, pendalaman dan pencerahan, dsb. Secara amnya, diberi gambar dan lapisan bercampur , kita boleh menggabungkan dua lapisan untuk mendapatkan hasil penyuntingan imej , seperti berikut:
dengan f ialah fungsi pemetaan piksel demi piksel tetap, biasanya ditentukan oleh mod adunan. Terhad oleh keupayaan penukaran, mod campuran khusus dan fungsi tetap f sukar untuk digunakan secara langsung pada pelbagai tugas penyuntingan. Untuk menyesuaikan diri dengan lebih baik kepada pengedaran data dan mod penukaran tugas yang berbeza, kami menggunakan mod cahaya lembut yang biasa digunakan dalam penyuntingan imej dan mereka bentuk modul pengadunan adaptif (ABM), seperti berikut:
mewakili produk Hadmard, dan ialah parameter yang boleh dipelajari, yang digunakan oleh semua modul ABM dalam rangkaian dan seterusnya Dikongsi oleh modul R-ABM, mewakili matriks malar dengan semua nilai 1.
, untuk mendapatkan lapisan hibrid B, kami menyelesaikan formula 3 dan membina modul pengadunan penyesuaian terbalik (R-ABM), seperti berikut:
Secara amnya, dengan menggunakan lapisan bercampur sebagai perantara, modul ABM dan modul R-ABM mencapai penukaran suai antara imej I dan hasil R. Berbanding dengan menggunakan konvolusi secara langsung pada hasil resolusi rendah Upsampling dan operasi lain dikembangkan ke atas (seperti Pix2PixHD ). Kami menggunakan lapisan hibrid untuk mencapai matlamat ini, yang mempunyai dua kelebihan: 1) Dalam tugas pengubahsuaian tempatan, lapisan hibrid terutamanya merekodkan bahagian setempat antara dua imej Transform, bermakna ia mengandungi maklumat yang kurang relevan dan lebih mudah untuk mengoptimumkan dengan rangkaian ringan. 2) Lapisan pengadun bertindak terus pada imej asal untuk mencapai pengubahsuaian akhir, yang boleh menggunakan sepenuhnya maklumat imej itu sendiri, dengan itu mencapai tahap kesetiaan terperinci yang tinggi.
Malah, terdapat banyak fungsi atau strategi alternatif untuk modul hibrid adaptif Kami membincangkan motivasi reka bentuk dan penyelesaian lain dalam kertas Perbandingan diperkenalkan secara terperinci dan tidak akan dihuraikan di sini. Rajah 7 menunjukkan perbandingan ablasi antara kaedah kami dan kaedah hibrid yang lain.
4.3.3 Modul Penapisan
4.4 Fungsi Kehilangan
5.1 Perbandingan dengan kaedah SOTA
5.2 Eksperimen Ablasi
5.3 Kelajuan larian dan penggunaan memori
Paparan kesan kecantikan kulit:
Imej asal daripada unsplash [31]
Imej asal datang daripada set data muka FFHQ [32]
Dapat dilihat bahawa berbanding dengan algoritma kecantikan tradisional, rangka kerja retouching tempatan yang kami cadangkan mengekalkan sepenuhnya tekstur dan tekstur kulit sambil menghilangkan kecacatan kulit, mencapai pengoptimuman tekstur Kulit yang halus dan pintar. Selanjutnya, kami meluaskan kaedah ini ke bidang penyingkiran kedut pakaian dan mencapai hasil yang baik, seperti berikut:
Atas ialah kandungan terperinci Padamkan cela dan kedutan dengan satu klik: tafsiran mendalam model kecantikan kulit potret definisi tinggi DAMO Academy ABPN. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!