Rumah  >  Artikel  >  Peranti teknologi  >  GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

王林
王林ke hadapan
2023-04-08 14:21:101205semak imbas

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

  • Alamat kertas: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • Unit pengarang: Institut Teknologi Pengkomputeran, Akademi Sains China, Universiti Jiao Tong Shanghai, Makmal Zhijiang

Latar belakang penyelidikan dan tugasan penyelidikan

Generative Adversarial Rangkaian ( GAN) telah mencapai kejayaan besar dalam menjana imej beresolusi tinggi, dan penyelidikan tentang kebolehtafsiran mereka telah menarik perhatian meluas dalam beberapa tahun kebelakangan ini.

Dalam bidang ini, cara membuat GAN belajar representasi decoupled masih menjadi cabaran utama. Apa yang dipanggil perwakilan decoupled GAN bermakna setiap bahagian perwakilan hanya mempengaruhi aspek tertentu imej yang dihasilkan. Penyelidikan terdahulu mengenai perwakilan GAN yang dipisahkan memfokuskan pada perspektif yang berbeza.

Sebagai contoh, dalam Rajah 1 di bawah, Kaedah 1 memisahkan struktur dan gaya imej. Kaedah 2 mempelajari ciri-ciri objek tempatan dalam imej. Kaedah 3 mempelajari ciri yang dipisahkan bagi atribut dalam imej, seperti atribut umur dan atribut jantina bagi imej wajah. Walau bagaimanapun, kajian ini gagal memberikan gambaran yang jelas dan simbolik dalam GAN untuk konsep visual yang berbeza (seperti bahagian muka seperti mata, hidung dan mulut).

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Rajah 1: Perbandingan visual dengan kaedah pencirian decoupled GAN yang lain

Untuk tujuan ini, penyelidik mencadangkan kaedah am untuk mengubah suai GAN tradisional kepada GAN yang boleh ditafsir, yang memastikan isirong lilitan dalam lapisan tengah penjana boleh mempelajari konsep visual tempatan yang dipisahkan. Khususnya, seperti yang ditunjukkan dalam Rajah 2 di bawah, berbanding dengan GAN tradisional, setiap kernel lilitan dalam lapisan tengah GAN yang boleh ditafsir sentiasa mewakili konsep visual tertentu apabila menghasilkan imej yang berbeza, dan kernel lilitan yang berbeza mewakili konsep yang berbeza.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Rajah 2: Perbandingan visual bagi GAN yang boleh ditafsir dan perwakilan pengekodan GAN tradisional

Kaedah pemodelan

Pembelajaran GAN yang boleh ditafsir harus memenuhi dua matlamat berikut: Kebolehtafsiran isirong lilitan dan Keaslian imej yang dijana.

  • Kebolehtafsiran kernel lilitan: Penyelidik berharap kernel lilitan di lapisan tengah secara automatik boleh mempelajari konsep visual yang bermakna tanpa anotasi manual bagi sebarang konsep visual. Khususnya, setiap kernel lilitan harus menjana kawasan imej secara stabil yang sepadan dengan konsep visual yang sama apabila menjana imej yang berbeza. Kernel lilitan yang berbeza harus menghasilkan kawasan imej yang sepadan dengan konsep visual yang berbeza;
  • Untuk memastikan kebolehtafsiran isirong lilitan dalam lapisan sasaran, para penyelidik menyedari bahawa apabila beberapa biji lilitan menghasilkan kawasan yang serupa yang sepadan dengan konsep visual tertentu, Mereka sering bersama-sama mewakili konsep visual ini.

Oleh itu, mereka menggunakan set kernel lilitan untuk bersama-sama mewakili konsep visual tertentu, dan menggunakan set kernel lilitan yang berbeza untuk mewakili konsep visual yang berbeza masing-masing.

Untuk memastikan ketulenan imej yang dijana pada masa yang sama, penyelidik mereka bentuk fungsi kehilangan berikut untuk mengubah suai GAN tradisional menjadi GAN yang boleh ditafsir.

  • Kehilangan GAN tradisional: Kehilangan ini digunakan untuk memastikan keaslian imej yang dihasilkan; >
  • Kehilangan partition kernel convolution: Diberi penjana, kehilangan ini digunakan untuk mencari cara untuk membahagikan kernel convolution supaya kernel convolution dalam kumpulan yang sama menghasilkan yang serupa kawasan imej. Secara khusus, mereka menggunakan model campuran Gaussian (GMM) untuk mempelajari cara biji lilitan dibahagikan untuk memastikan peta ciri isirong lilitan dalam setiap kumpulan mempunyai pengaktifan saraf yang serupa; 🎜> Kehilangan realisme model tenaga : Memandangkan cara inti lapisan sasaran dibahagikan, memaksa setiap kernel dalam kumpulan yang sama menjana konsep visual yang sama mungkin mengurangkan kualiti imej yang dijana . Untuk memastikan lagi ketulenan imej yang dijana, mereka menggunakan model tenaga untuk mengeluarkan kebarangkalian ketulenan peta ciri dalam lapisan sasaran, dan menggunakan anggaran kemungkinan maksimum untuk mempelajari parameter model tenaga; >
  • Kehilangan kebolehtafsiran isirong lilitan: Memandangkan kaedah pembahagian kernel lilitan lapisan sasaran, kehilangan ini digunakan untuk meningkatkan lagi kebolehtafsiran kernel lilitan. Secara khusus, kehilangan ini menyebabkan setiap kernel lilitan dalam kumpulan yang sama menjana secara unik kawasan imej yang sama, manakala kernel lilitan dalam kumpulan berbeza bertanggungjawab untuk menghasilkan kawasan imej yang berbeza.
  • Hasil eksperimenDalam eksperimen, penyelidik menilai GAN boleh ditafsir mereka secara kualitatif dan kuantitatif.
  • Untuk

analisis kualitatif

, mereka memvisualisasikan peta ciri setiap kernel lilitan untuk menilai prestasi kernel lilitan pada imej yang berbeza. Ketekalan konsep visual yang diwakili. Seperti yang ditunjukkan dalam Rajah 3 di bawah, dalam GAN yang boleh ditafsir, setiap kernel lilitan sentiasa menghasilkan kawasan imej yang sepadan dengan konsep visual yang sama apabila menghasilkan imej yang berbeza, manakala kernel lilitan yang berbeza menjana kawasan imej yang sepadan dengan konsep visual yang berbeza.

Rajah 3: Visualisasi peta ciri dalam GAN boleh tafsir

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Dalam eksperimen, perbezaan antara pusat kumpulan setiap kumpulan isirong lilitan dan medan penerimaan antara isirong lilitan turut dibandingkan, seperti ditunjukkan dalam Rajah 4(a) di bawah. Rajah 4(b) menunjukkan perkadaran bilangan biji lilitan sepadan dengan konsep visual yang berbeza dalam GAN yang boleh ditafsir. Rajah 4(c) menunjukkan bahawa apabila bilangan kumpulan kernel lilitan yang dipilih untuk pembahagian adalah berbeza, semakin banyak kumpulan, semakin terperinci konsep visual yang dipelajari oleh GAN yang boleh ditafsir.

Rajah 4: Penilaian kualitatif GAN yang boleh ditafsir

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

GAN yang boleh ditafsir juga menyokong pengubahsuaian konsep visual khusus pada imej yang dijana. Sebagai contoh, interaksi konsep visual khusus antara imej boleh dicapai dengan menukar peta ciri yang sepadan dalam lapisan boleh tafsir, iaitu pertukaran muka tempatan/global selesai.

Rajah 5 di bawah memberikan hasil pertukaran mulut, rambut dan hidung antara pasangan imej. Lajur terakhir memberikan perbezaan antara imej yang diubah suai dan imej asal. Keputusan ini menunjukkan kaedah pengkaji hanya mengubah suai konsep visual tempatan tanpa mengubah kawasan lain yang tidak berkaitan.

Rajah 5: Bertukar-tukar konsep visual khusus untuk menghasilkan imej

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Selain itu, Rajah 6 di bawah juga menunjukkan kesan kaedah mereka apabila menukar seluruh muka .

Rajah 6: Menukar seluruh muka imej yang dijana

Untuk analisis kuantitatif , penyelidik menggunakan eksperimen pengesahan muka untuk menilai ketepatan keputusan pertukaran muka. Khususnya, diberikan sepasang imej muka, muka imej asal digantikan dengan muka imej sumber untuk menghasilkan imej yang diubah suai. Kemudian, uji sama ada wajah dalam imej yang diubah suai dan wajah dalam imej sumber mempunyai identiti yang sama.

Jadual 1 di bawah menunjukkan ketepatan hasil pengesahan muka kaedah yang berbeza Kaedah mereka adalah Lebih baik daripada kaedah pertukaran muka lain dari segi pemeliharaan identiti.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Jadual 1: Penilaian ketepatan identiti bertukar muka

Tambahan pula, lokaliti kaedah dalam mengubah suai konsep visual tertentu juga dinilai dalam eksperimen. Secara khusus, penyelidik mengira ralat min kuasa dua (MSE) antara imej asal dan imej yang diubah suai dalam ruang RGB, dan menggunakan nisbah MSE luar wilayah dan MSE dalam wilayah bagi konsep visual tertentu sebagai percubaan. indeks untuk penilaian lokaliti.

Keputusan ditunjukkan dalam Jadual 2 di bawah Kaedah pengubahsuaian penyelidik mempunyai lokaliti yang lebih baik , iaitu Kawasan. daripada gambar di luar konsep visual yang diubah suai berubah kurang.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Jadual 2: Penilaian lokaliti bagi konsep visual yang diubah suai

Untuk lebih banyak hasil percubaan, lihat kertas kerja.

Ringkasan

Kerja ini mencadangkan kaedah umum yang boleh mengubah suai GAN tradisional kepada GAN yang boleh ditafsir tanpa sebarang anotasi manual konsep visual. Dalam GAN yang boleh ditafsir, setiap kernel lilitan di lapisan tengah penjana boleh menjana konsep visual yang sama secara stabil apabila menjana imej yang berbeza.

Percubaan menunjukkan bahawa GAN boleh ditafsir juga membolehkan orang ramai mengubah suai konsep visual khusus pada imej yang dijana, memberikan perspektif baharu tentang kaedah pengeditan terkawal bagi imej yang dijana GAN.

Atas ialah kandungan terperinci GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam