


- Alamat kertas: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
- Unit pengarang: Institut Teknologi Pengkomputeran, Akademi Sains China, Universiti Jiao Tong Shanghai, Makmal Zhijiang
Latar belakang penyelidikan dan tugasan penyelidikan
Generative Adversarial Rangkaian ( GAN) telah mencapai kejayaan besar dalam menjana imej beresolusi tinggi, dan penyelidikan tentang kebolehtafsiran mereka telah menarik perhatian meluas dalam beberapa tahun kebelakangan ini.
Dalam bidang ini, cara membuat GAN belajar representasi decoupled masih menjadi cabaran utama. Apa yang dipanggil perwakilan decoupled GAN bermakna setiap bahagian perwakilan hanya mempengaruhi aspek tertentu imej yang dihasilkan. Penyelidikan terdahulu mengenai perwakilan GAN yang dipisahkan memfokuskan pada perspektif yang berbeza.
Sebagai contoh, dalam Rajah 1 di bawah, Kaedah 1 memisahkan struktur dan gaya imej. Kaedah 2 mempelajari ciri-ciri objek tempatan dalam imej. Kaedah 3 mempelajari ciri yang dipisahkan bagi atribut dalam imej, seperti atribut umur dan atribut jantina bagi imej wajah. Walau bagaimanapun, kajian ini gagal memberikan gambaran yang jelas dan simbolik dalam GAN untuk konsep visual yang berbeza (seperti bahagian muka seperti mata, hidung dan mulut).
Rajah 1: Perbandingan visual dengan kaedah pencirian decoupled GAN yang lain
Untuk tujuan ini, penyelidik mencadangkan kaedah am untuk mengubah suai GAN tradisional kepada GAN yang boleh ditafsir, yang memastikan isirong lilitan dalam lapisan tengah penjana boleh mempelajari konsep visual tempatan yang dipisahkan. Khususnya, seperti yang ditunjukkan dalam Rajah 2 di bawah, berbanding dengan GAN tradisional, setiap kernel lilitan dalam lapisan tengah GAN yang boleh ditafsir sentiasa mewakili konsep visual tertentu apabila menghasilkan imej yang berbeza, dan kernel lilitan yang berbeza mewakili konsep yang berbeza.
Rajah 2: Perbandingan visual bagi GAN yang boleh ditafsir dan perwakilan pengekodan GAN tradisional
Kaedah pemodelan
Pembelajaran GAN yang boleh ditafsir harus memenuhi dua matlamat berikut: Kebolehtafsiran isirong lilitan dan Keaslian imej yang dijana.
- Kebolehtafsiran kernel lilitan: Penyelidik berharap kernel lilitan di lapisan tengah secara automatik boleh mempelajari konsep visual yang bermakna tanpa anotasi manual bagi sebarang konsep visual. Khususnya, setiap kernel lilitan harus menjana kawasan imej secara stabil yang sepadan dengan konsep visual yang sama apabila menjana imej yang berbeza. Kernel lilitan yang berbeza harus menghasilkan kawasan imej yang sepadan dengan konsep visual yang berbeza;
- Untuk memastikan kebolehtafsiran isirong lilitan dalam lapisan sasaran, para penyelidik menyedari bahawa apabila beberapa biji lilitan menghasilkan kawasan yang serupa yang sepadan dengan konsep visual tertentu, Mereka sering bersama-sama mewakili konsep visual ini.
Oleh itu, mereka menggunakan set kernel lilitan untuk bersama-sama mewakili konsep visual tertentu, dan menggunakan set kernel lilitan yang berbeza untuk mewakili konsep visual yang berbeza masing-masing.
Untuk memastikan ketulenan imej yang dijana pada masa yang sama, penyelidik mereka bentuk fungsi kehilangan berikut untuk mengubah suai GAN tradisional menjadi GAN yang boleh ditafsir.
- Kehilangan GAN tradisional: Kehilangan ini digunakan untuk memastikan keaslian imej yang dihasilkan; >
- Kehilangan partition kernel convolution: Diberi penjana, kehilangan ini digunakan untuk mencari cara untuk membahagikan kernel convolution supaya kernel convolution dalam kumpulan yang sama menghasilkan yang serupa kawasan imej. Secara khusus, mereka menggunakan model campuran Gaussian (GMM) untuk mempelajari cara biji lilitan dibahagikan untuk memastikan peta ciri isirong lilitan dalam setiap kumpulan mempunyai pengaktifan saraf yang serupa; 🎜> Kehilangan realisme model tenaga : Memandangkan cara inti lapisan sasaran dibahagikan, memaksa setiap kernel dalam kumpulan yang sama menjana konsep visual yang sama mungkin mengurangkan kualiti imej yang dijana . Untuk memastikan lagi ketulenan imej yang dijana, mereka menggunakan model tenaga untuk mengeluarkan kebarangkalian ketulenan peta ciri dalam lapisan sasaran, dan menggunakan anggaran kemungkinan maksimum untuk mempelajari parameter model tenaga; >
- Kehilangan kebolehtafsiran isirong lilitan: Memandangkan kaedah pembahagian kernel lilitan lapisan sasaran, kehilangan ini digunakan untuk meningkatkan lagi kebolehtafsiran kernel lilitan. Secara khusus, kehilangan ini menyebabkan setiap kernel lilitan dalam kumpulan yang sama menjana secara unik kawasan imej yang sama, manakala kernel lilitan dalam kumpulan berbeza bertanggungjawab untuk menghasilkan kawasan imej yang berbeza.
- Hasil eksperimenDalam eksperimen, penyelidik menilai GAN boleh ditafsir mereka secara kualitatif dan kuantitatif. Untuk
analisis kualitatif
, mereka memvisualisasikan peta ciri setiap kernel lilitan untuk menilai prestasi kernel lilitan pada imej yang berbeza. Ketekalan konsep visual yang diwakili. Seperti yang ditunjukkan dalam Rajah 3 di bawah, dalam GAN yang boleh ditafsir, setiap kernel lilitan sentiasa menghasilkan kawasan imej yang sepadan dengan konsep visual yang sama apabila menghasilkan imej yang berbeza, manakala kernel lilitan yang berbeza menjana kawasan imej yang sepadan dengan konsep visual yang berbeza.
Rajah 3: Visualisasi peta ciri dalam GAN boleh tafsir
Dalam eksperimen, perbezaan antara pusat kumpulan setiap kumpulan isirong lilitan dan medan penerimaan antara isirong lilitan turut dibandingkan, seperti ditunjukkan dalam Rajah 4(a) di bawah. Rajah 4(b) menunjukkan perkadaran bilangan biji lilitan sepadan dengan konsep visual yang berbeza dalam GAN yang boleh ditafsir. Rajah 4(c) menunjukkan bahawa apabila bilangan kumpulan kernel lilitan yang dipilih untuk pembahagian adalah berbeza, semakin banyak kumpulan, semakin terperinci konsep visual yang dipelajari oleh GAN yang boleh ditafsir.
Rajah 4: Penilaian kualitatif GAN yang boleh ditafsir
GAN yang boleh ditafsir juga menyokong pengubahsuaian konsep visual khusus pada imej yang dijana. Sebagai contoh, interaksi konsep visual khusus antara imej boleh dicapai dengan menukar peta ciri yang sepadan dalam lapisan boleh tafsir, iaitu pertukaran muka tempatan/global selesai.
Rajah 5 di bawah memberikan hasil pertukaran mulut, rambut dan hidung antara pasangan imej. Lajur terakhir memberikan perbezaan antara imej yang diubah suai dan imej asal. Keputusan ini menunjukkan kaedah pengkaji hanya mengubah suai konsep visual tempatan tanpa mengubah kawasan lain yang tidak berkaitan.
Rajah 5: Bertukar-tukar konsep visual khusus untuk menghasilkan imej
Selain itu, Rajah 6 di bawah juga menunjukkan kesan kaedah mereka apabila menukar seluruh muka .
Rajah 6: Menukar seluruh muka imej yang dijana Untuk analisis kuantitatif , penyelidik menggunakan eksperimen pengesahan muka untuk menilai ketepatan keputusan pertukaran muka. Khususnya, diberikan sepasang imej muka, muka imej asal digantikan dengan muka imej sumber untuk menghasilkan imej yang diubah suai. Kemudian, uji sama ada wajah dalam imej yang diubah suai dan wajah dalam imej sumber mempunyai identiti yang sama. Jadual 1 di bawah menunjukkan ketepatan hasil pengesahan muka kaedah yang berbeza Kaedah mereka adalah Lebih baik daripada kaedah pertukaran muka lain dari segi pemeliharaan identiti. Jadual 1: Penilaian ketepatan identiti bertukar muka Tambahan pula, lokaliti kaedah dalam mengubah suai konsep visual tertentu juga dinilai dalam eksperimen. Secara khusus, penyelidik mengira ralat min kuasa dua (MSE) antara imej asal dan imej yang diubah suai dalam ruang RGB, dan menggunakan nisbah MSE luar wilayah dan MSE dalam wilayah bagi konsep visual tertentu sebagai percubaan. indeks untuk penilaian lokaliti. Keputusan ditunjukkan dalam Jadual 2 di bawah Kaedah pengubahsuaian penyelidik mempunyai lokaliti yang lebih baik , iaitu Kawasan. daripada gambar di luar konsep visual yang diubah suai berubah kurang. Jadual 2: Penilaian lokaliti bagi konsep visual yang diubah suai Untuk lebih banyak hasil percubaan, lihat kertas kerja. Kerja ini mencadangkan kaedah umum yang boleh mengubah suai GAN tradisional kepada GAN yang boleh ditafsir tanpa sebarang anotasi manual konsep visual. Dalam GAN yang boleh ditafsir, setiap kernel lilitan di lapisan tengah penjana boleh menjana konsep visual yang sama secara stabil apabila menjana imej yang berbeza. Percubaan menunjukkan bahawa GAN boleh ditafsir juga membolehkan orang ramai mengubah suai konsep visual khusus pada imej yang dijana, memberikan perspektif baharu tentang kaedah pengeditan terkawal bagi imej yang dijana GAN. Ringkasan
Atas ialah kandungan terperinci GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Dreamweaver Mac版
Alat pembangunan web visual

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini