GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.-AI-php.cn

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

王林

Apr 08, 2023 pm 02:21 PM

aiimejgan

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Alamat kertas: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
Unit pengarang: Institut Teknologi Pengkomputeran, Akademi Sains China, Universiti Jiao Tong Shanghai, Makmal Zhijiang

Latar belakang penyelidikan dan tugasan penyelidikan

Generative Adversarial Rangkaian ( GAN) telah mencapai kejayaan besar dalam menjana imej beresolusi tinggi, dan penyelidikan tentang kebolehtafsiran mereka telah menarik perhatian meluas dalam beberapa tahun kebelakangan ini.

Dalam bidang ini, cara membuat GAN belajar representasi decoupled masih menjadi cabaran utama. Apa yang dipanggil perwakilan decoupled GAN bermakna setiap bahagian perwakilan hanya mempengaruhi aspek tertentu imej yang dihasilkan. Penyelidikan terdahulu mengenai perwakilan GAN yang dipisahkan memfokuskan pada perspektif yang berbeza.

Sebagai contoh, dalam Rajah 1 di bawah, Kaedah 1 memisahkan struktur dan gaya imej. Kaedah 2 mempelajari ciri-ciri objek tempatan dalam imej. Kaedah 3 mempelajari ciri yang dipisahkan bagi atribut dalam imej, seperti atribut umur dan atribut jantina bagi imej wajah. Walau bagaimanapun, kajian ini gagal memberikan gambaran yang jelas dan simbolik dalam GAN untuk konsep visual yang berbeza (seperti bahagian muka seperti mata, hidung dan mulut).

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Rajah 1: Perbandingan visual dengan kaedah pencirian decoupled GAN yang lain

Untuk tujuan ini, penyelidik mencadangkan kaedah am untuk mengubah suai GAN tradisional kepada GAN yang boleh ditafsir, yang memastikan isirong lilitan dalam lapisan tengah penjana boleh mempelajari konsep visual tempatan yang dipisahkan. Khususnya, seperti yang ditunjukkan dalam Rajah 2 di bawah, berbanding dengan GAN tradisional, setiap kernel lilitan dalam lapisan tengah GAN yang boleh ditafsir sentiasa mewakili konsep visual tertentu apabila menghasilkan imej yang berbeza, dan kernel lilitan yang berbeza mewakili konsep yang berbeza.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Rajah 2: Perbandingan visual bagi GAN yang boleh ditafsir dan perwakilan pengekodan GAN tradisional

Kaedah pemodelan

Pembelajaran GAN yang boleh ditafsir harus memenuhi dua matlamat berikut: Kebolehtafsiran isirong lilitan dan Keaslian imej yang dijana.

Kebolehtafsiran kernel lilitan: Penyelidik berharap kernel lilitan di lapisan tengah secara automatik boleh mempelajari konsep visual yang bermakna tanpa anotasi manual bagi sebarang konsep visual. Khususnya, setiap kernel lilitan harus menjana kawasan imej secara stabil yang sepadan dengan konsep visual yang sama apabila menjana imej yang berbeza. Kernel lilitan yang berbeza harus menghasilkan kawasan imej yang sepadan dengan konsep visual yang berbeza;
Untuk memastikan kebolehtafsiran isirong lilitan dalam lapisan sasaran, para penyelidik menyedari bahawa apabila beberapa biji lilitan menghasilkan kawasan yang serupa yang sepadan dengan konsep visual tertentu, Mereka sering bersama-sama mewakili konsep visual ini.

Oleh itu, mereka menggunakan set kernel lilitan untuk bersama-sama mewakili konsep visual tertentu, dan menggunakan set kernel lilitan yang berbeza untuk mewakili konsep visual yang berbeza masing-masing.

Untuk memastikan ketulenan imej yang dijana pada masa yang sama, penyelidik mereka bentuk fungsi kehilangan berikut untuk mengubah suai GAN tradisional menjadi GAN yang boleh ditafsir.

Kehilangan GAN tradisional: Kehilangan ini digunakan untuk memastikan keaslian imej yang dihasilkan; >
Kehilangan partition kernel convolution: Diberi penjana, kehilangan ini digunakan untuk mencari cara untuk membahagikan kernel convolution supaya kernel convolution dalam kumpulan yang sama menghasilkan yang serupa kawasan imej. Secara khusus, mereka menggunakan model campuran Gaussian (GMM) untuk mempelajari cara biji lilitan dibahagikan untuk memastikan peta ciri isirong lilitan dalam setiap kumpulan mempunyai pengaktifan saraf yang serupa; 🎜> Kehilangan realisme model tenaga : Memandangkan cara inti lapisan sasaran dibahagikan, memaksa setiap kernel dalam kumpulan yang sama menjana konsep visual yang sama mungkin mengurangkan kualiti imej yang dijana . Untuk memastikan lagi ketulenan imej yang dijana, mereka menggunakan model tenaga untuk mengeluarkan kebarangkalian ketulenan peta ciri dalam lapisan sasaran, dan menggunakan anggaran kemungkinan maksimum untuk mempelajari parameter model tenaga; >
Kehilangan kebolehtafsiran isirong lilitan: Memandangkan kaedah pembahagian kernel lilitan lapisan sasaran, kehilangan ini digunakan untuk meningkatkan lagi kebolehtafsiran kernel lilitan. Secara khusus, kehilangan ini menyebabkan setiap kernel lilitan dalam kumpulan yang sama menjana secara unik kawasan imej yang sama, manakala kernel lilitan dalam kumpulan berbeza bertanggungjawab untuk menghasilkan kawasan imej yang berbeza.
Hasil eksperimenDalam eksperimen, penyelidik menilai GAN boleh ditafsir mereka secara kualitatif dan kuantitatif.

analisis kualitatif

, mereka memvisualisasikan peta ciri setiap kernel lilitan untuk menilai prestasi kernel lilitan pada imej yang berbeza. Ketekalan konsep visual yang diwakili. Seperti yang ditunjukkan dalam Rajah 3 di bawah, dalam GAN yang boleh ditafsir, setiap kernel lilitan sentiasa menghasilkan kawasan imej yang sepadan dengan konsep visual yang sama apabila menghasilkan imej yang berbeza, manakala kernel lilitan yang berbeza menjana kawasan imej yang sepadan dengan konsep visual yang berbeza.

Rajah 3: Visualisasi peta ciri dalam GAN boleh tafsir

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Dalam eksperimen, perbezaan antara pusat kumpulan setiap kumpulan isirong lilitan dan medan penerimaan antara isirong lilitan turut dibandingkan, seperti ditunjukkan dalam Rajah 4(a) di bawah. Rajah 4(b) menunjukkan perkadaran bilangan biji lilitan sepadan dengan konsep visual yang berbeza dalam GAN yang boleh ditafsir. Rajah 4(c) menunjukkan bahawa apabila bilangan kumpulan kernel lilitan yang dipilih untuk pembahagian adalah berbeza, semakin banyak kumpulan, semakin terperinci konsep visual yang dipelajari oleh GAN yang boleh ditafsir.

Rajah 4: Penilaian kualitatif GAN yang boleh ditafsir

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

GAN yang boleh ditafsir juga menyokong pengubahsuaian konsep visual khusus pada imej yang dijana. Sebagai contoh, interaksi konsep visual khusus antara imej boleh dicapai dengan menukar peta ciri yang sepadan dalam lapisan boleh tafsir, iaitu pertukaran muka tempatan/global selesai.

Rajah 5 di bawah memberikan hasil pertukaran mulut, rambut dan hidung antara pasangan imej. Lajur terakhir memberikan perbezaan antara imej yang diubah suai dan imej asal. Keputusan ini menunjukkan kaedah pengkaji hanya mengubah suai konsep visual tempatan tanpa mengubah kawasan lain yang tidak berkaitan.

Rajah 5: Bertukar-tukar konsep visual khusus untuk menghasilkan imej

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Selain itu, Rajah 6 di bawah juga menunjukkan kesan kaedah mereka apabila menukar seluruh muka .

Rajah 6: Menukar seluruh muka imej yang dijana

Untuk analisis kuantitatif , penyelidik menggunakan eksperimen pengesahan muka untuk menilai ketepatan keputusan pertukaran muka. Khususnya, diberikan sepasang imej muka, muka imej asal digantikan dengan muka imej sumber untuk menghasilkan imej yang diubah suai. Kemudian, uji sama ada wajah dalam imej yang diubah suai dan wajah dalam imej sumber mempunyai identiti yang sama.

Jadual 1 di bawah menunjukkan ketepatan hasil pengesahan muka kaedah yang berbeza Kaedah mereka adalah Lebih baik daripada kaedah pertukaran muka lain dari segi pemeliharaan identiti.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Jadual 1: Penilaian ketepatan identiti bertukar muka

Tambahan pula, lokaliti kaedah dalam mengubah suai konsep visual tertentu juga dinilai dalam eksperimen. Secara khusus, penyelidik mengira ralat min kuasa dua (MSE) antara imej asal dan imej yang diubah suai dalam ruang RGB, dan menggunakan nisbah MSE luar wilayah dan MSE dalam wilayah bagi konsep visual tertentu sebagai percubaan. indeks untuk penilaian lokaliti.

Keputusan ditunjukkan dalam Jadual 2 di bawah Kaedah pengubahsuaian penyelidik mempunyai lokaliti yang lebih baik , iaitu Kawasan. daripada gambar di luar konsep visual yang diubah suai berubah kurang.

GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.

Jadual 2: Penilaian lokaliti bagi konsep visual yang diubah suai

Untuk lebih banyak hasil percubaan, lihat kertas kerja.

Ringkasan

Kerja ini mencadangkan kaedah umum yang boleh mengubah suai GAN tradisional kepada GAN yang boleh ditafsir tanpa sebarang anotasi manual konsep visual. Dalam GAN yang boleh ditafsir, setiap kernel lilitan di lapisan tengah penjana boleh menjana konsep visual yang sama secara stabil apabila menjana imej yang berbeza.

Percubaan menunjukkan bahawa GAN boleh ditafsir juga membolehkan orang ramai mengubah suai konsep visual khusus pada imej yang dijana, memberikan perspektif baharu tentang kaedah pengeditan terkawal bagi imej yang dijana GAN.

Atas ialah kandungan terperinci GAN tradisional boleh ditafsirkan selepas pengubahsuaian, dan memastikan kebolehtafsiran kernel lilitan dan keaslian imej yang dihasilkan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Alat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Dreamweaver Mac版

Alat pembangunan web visual

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7496

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi