


Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.
Pemulihan imej merujuk kepada melengkapkan kawasan imej yang hilang, yang merupakan salah satu tugas asas penglihatan komputer. Arah ini mempunyai banyak aplikasi praktikal, seperti penyingkiran objek, penyasaran semula imej, sintesis imej, dsb.
Kaedah pengecatan awal adalah berdasarkan sintesis blok imej atau resapan warna untuk mengisi bahagian imej yang hilang. Untuk mencapai struktur imej yang lebih kompleks, penyelidik beralih kepada pendekatan dipacu data, di mana mereka menggunakan rangkaian generatif yang mendalam untuk meramalkan kandungan dan penampilan visual. Dengan latihan pada set imej yang besar, dan dibantu oleh pembinaan semula dan kehilangan musuh, model lukisan generatif telah ditunjukkan untuk menghasilkan hasil yang lebih menarik secara visual pada pelbagai jenis data input, termasuk imej semula jadi dan wajah manusia.
Walau bagaimanapun, kerja sedia ada hanya boleh menunjukkan hasil yang baik dalam melengkapkan struktur imej yang mudah, dan menghasilkan kandungan imej dengan struktur keseluruhan yang kompleks dan kesetiaan perincian yang tinggi masih menjadi cabaran besar, Terutama apabila imej berlubang adalah besar.
Pada asasnya, lukisan dalam imej menghadapi dua isu utama: satu ialah cara menyebarkan konteks global dengan tepat kepada kawasan yang tidak lengkap, dan satu lagi adalah untuk mensintesis bahagian tempatan sebenar yang konsisten dengan perincian global . Untuk menyelesaikan masalah penyebaran konteks global, rangkaian sedia ada menggunakan struktur penyahkod pengekod, lilitan atrous, perhatian kontekstual atau lilitan Fourier untuk menyepadukan kebergantungan ciri jarak jauh dan mengembangkan medan penerimaan yang berkesan. Tambahan pula, pendekatan dua peringkat dan pengisian lubang berulang bergantung pada ramalan keputusan kasar untuk meningkatkan struktur global. Walau bagaimanapun, model ini tidak mempunyai mekanisme untuk menangkap semantik peringkat tinggi bagi kawasan yang tidak bertopeng dan secara berkesan menyebarkannya ke dalam lubang untuk mensintesis struktur global keseluruhan.
Berdasarkan perkara ini, penyelidik dari University of Rochester dan Adobe Research mencadangkan rangkaian generasi baharu: CM-GAN (GAN modulasi berlatarkan), yang boleh menjadi lebih baik Mensintesis struktur keseluruhan secara geografi dan butiran tempatan. CM-GAN menyertakan pengekod dengan blok konvolusi Fourier untuk mengekstrak perwakilan ciri berskala daripada imej input dengan lubang. Terdapat juga penyahkod dua aliran dalam CM-GAN yang menetapkan blok modulasi spatial global berlatarkan novel pada setiap lapisan skala.
Dalam setiap blok penyahkod, kami mula-mula menggunakan modulasi global untuk melaksanakan sintesis struktur yang kasar dan sedar dari segi semantik, dan kemudian melakukan modulasi spatial untuk melaraskan peta ciri dengan cara penyesuaian spatial. Di samping itu, kajian ini mereka bentuk skim latihan persepsi objek untuk menghalang artifak dalam rongga untuk memenuhi keperluan tugas penyingkiran objek dalam adegan kehidupan sebenar. Kajian itu menjalankan eksperimen yang meluas untuk menunjukkan bahawa CM-GAN dengan ketara mengatasi kaedah sedia ada dalam kedua-dua penilaian kuantitatif dan kualitatif.
- Alamat kertas: https://arxiv.org/pdf/2203.11947.pdf
- Alamat projek: https://github.com/htzheng/CM-GAN-Inpainting
Mari kita lihat dahulu kesan pembaikan imej Berbanding dengan kaedah lain, CM -GAN boleh membina semula tekstur yang lebih baik:
CM-GAN boleh mensintesis struktur global yang lebih baik:
CM-GAN mempunyai sempadan objek yang lebih baik:
Mari kita lihat kaedah penyelidikan dan hasil eksperimen.
Kaedah
Pemodulasi Lata GAN
Untuk memodelkan konteks global penyiapan imej dengan lebih baik, kajian ini mencadangkan mekanisme baharu untuk melancarkan modulasi kod global dengan modulasi kod spatial. Mekanisme ini membantu menangani ciri yang separa tidak sah sambil menyuntik konteks global dengan lebih baik ke dalam domain spatial. Seni bina baharu CM-GAN boleh mensintesis struktur keseluruhan dan butiran setempat, seperti yang ditunjukkan dalam Rajah 1 di bawah.
Seperti yang ditunjukkan dalam Rajah 2 (kiri) di bawah, CM-GAN adalah berdasarkan satu cawangan pengekod dan dua lata selari Cawangan dekoder untuk menjana output visual. Pengekod mengambil sebahagian daripada imej dan topeng sebagai input dan menjana peta ciri berskala .
Berbeza daripada kebanyakan kaedah penyahkod pengekod, untuk melengkapkan struktur keseluruhan, kajian ini mengekstrak kod gaya global s daripada ciri peringkat tertinggi lapisan bersambung sepenuhnya, dan kemudian
Penormalan. Selain itu, rangkaian pemetaan berasaskan MLP menjana kod gaya w daripada hingar untuk mensimulasikan kerawak penjanaan imej. Kod w digabungkan dengan s untuk menghasilkan kod global g = [s w], yang digunakan dalam langkah penyahkodan seterusnya.
Modulasi lata spatial global. Untuk menghubungkan konteks global dengan lebih baik semasa peringkat penyahkodan, kajian ini mencadangkan modulasi berlatarkan spatial global (CM). Seperti yang ditunjukkan dalam Rajah 2 (kanan), peringkat penyahkodan adalah berdasarkan dua cabang: blok modulasi global (GB) dan blok modulasi spatial (SB), dan upsample ciri global F_g dan ciri tempatan F_s secara selari.
Tidak seperti kaedah sedia ada, CM-GAN memperkenalkan kaedah baharu untuk menyuntik konteks global ke dalam kawasan lubang. Pada peringkat konsep, ia terdiri daripada modulasi global dan ruang antara ciri pada setiap skala, dan secara semula jadi menyepadukan tiga mekanisme pampasan untuk pemodelan konteks global: 1) pensampelan ciri 2) modulasi spatial;
Latihan persepsi objek
Algoritma yang menjana topeng untuk latihan adalah penting. Pada asasnya, topeng sampel hendaklah serupa dengan topeng yang dilukis dalam bekas penggunaan sebenar, dan topeng harus mengelak daripada menutupi keseluruhan objek atau bahagian besar mana-mana objek baharu. Skim topeng yang dipermudahkan boleh membawa kepada artifak.
Untuk menyokong lebih baik kes penggunaan penyingkiran objek sebenar sambil menghalang model daripada mensintesis objek baharu dalam lubang, kajian ini mencadangkan skim latihan menyedari objek yang menghasilkan topeng yang lebih realistik, seperti yang ditunjukkan dalam Rajah 4 di bawah.
Secara khusus, kajian ini mula-mula menghantar imej latihan kepada rangkaian pensegmenan panorama PanopticFCN untuk menjana tahap contoh yang sangat tepat. anotasi dibahagikan, kemudian campuran lubang bebas dan lubang objek dijadikan sampel sebagai topeng awal, dan akhirnya nisbah pertindihan antara lubang dan setiap kejadian dalam imej dikira. Jika nisbah pertindihan lebih besar daripada ambang, kaedah mengecualikan contoh latar depan daripada lubang jika tidak, lubang dibiarkan tidak berubah dan objek simulasi dilengkapkan dengan ambang ditetapkan kepada 0.5. Kajian ini secara rawak mengembang dan menterjemah topeng objek untuk mengelakkan overfitting. Selain itu, kajian ini membesarkan lubang pada sempadan pembahagian contoh untuk mengelakkan piksel latar belakang bocor berhampiran lubang ke kawasan yang dilukis.
Objektif latihan dengan penyelarasan Masked-R_1
Model ini dilatih dengan gabungan kehilangan lawan dan kehilangan persepsi berasaskan segmentasi. Eksperimen menunjukkan bahawa kaedah ini juga boleh mencapai keputusan yang baik apabila semata-mata menggunakan kerugian lawan, tetapi menambah kerugian persepsi boleh meningkatkan lagi prestasi.
Selain itu, kajian ini mencadangkan penyelarasan bertopeng-R_1 khusus untuk latihan lawan bagi tugas mengecat yang stabil, di mana topeng m digunakan untuk mengelakkan pengiraan penalti kecerunan di luar topeng.
Eksperimen
Kajian ini menjalankan eksperimen pembaikan imej pada set data Places2 pada resolusi 512 × 512, dan memberikan model Kuantitatif dan kualitatif hasil penilaian.
Penilaian kuantitatif: Jadual 1 di bawah menunjukkan perbandingan antara CM-GAN dan kaedah penyamaran yang lain. Keputusan menunjukkan bahawa CM-GAN dengan ketara mengatasi kaedah lain dari segi FID, LPIPS, U-IDS dan P-IDS. Dengan bantuan kehilangan persepsi, LaMa, CM-GAN mencapai skor LPIPS yang jauh lebih baik daripada CoModGAN dan kaedah lain, terima kasih kepada panduan semantik tambahan yang disediakan oleh model persepsi yang telah terlatih. Berbanding dengan LaMa/CoModGAN, CM-GAN mengurangkan FID daripada 3.864/3.724 kepada 1.628.
Seperti yang ditunjukkan dalam Jadual 3 di bawah, dengan dan tanpa penalaan halus, CM-GAN berprestasi lebih baik pada LaMa dan CoModGAN masks Kedua-duanya telah mencapai peningkatan prestasi yang jauh lebih baik daripada LaMa dan CoModGAN, menunjukkan bahawa model tersebut mempunyai keupayaan generalisasi. Perlu diingat bahawa prestasi CM-GAN yang dilatih pada topeng CoModGAN, topeng sedar objek masih lebih baik daripada topeng CoModGAN, mengesahkan bahawa CM-GAN mempunyai keupayaan penjanaan yang lebih baik.
Penilaian kualitatif: Rajah 5, Rajah 6, Rajah 8 menunjukkan kaedah CM-GAN dan SOTA dalam topeng sintetik Visual hasil perbandingan dari segi aspek. ProFill mampu menjana struktur global yang tidak koheren, CoModGAN menghasilkan artifak struktur dan tompok warna, dan LaMa terdedah kepada kabur imej besar pada pemandangan semula jadi. Sebaliknya, kaedah CM-GAN menghasilkan struktur semantik yang lebih koheren, tekstur yang lebih jelas, dan boleh digunakan pada senario yang berbeza.
Untuk mengesahkan kepentingan setiap komponen dalam model, kajian ini menjalankan satu set eksperimen ablasi, dan semua model telah dilatih dan dinilai pada set data Places2. Keputusan eksperimen ablasi ditunjukkan dalam Jadual 2 dan Rajah 7 di bawah.
Kajian ini turut menjalankan kajian pengguna, To menilai dengan lebih baik kualiti penjanaan visual kaedah CM-GAN, keputusan ditunjukkan dalam Jadual 5 di bawah. Di samping itu, lampiran menyediakan lebih banyak perbandingan visual dan analisis eksperimen untuk rujukan pembaca.
Atas ialah kandungan terperinci Walaupun kawasan besar imej hilang, ia boleh dipulihkan secara realistik Model baharu CM-GAN mengambil kira butiran struktur dan tekstur global.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

Dreamweaver CS6
Alat pembangunan web visual

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft