Rumah >Peranti teknologi >AI >Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.
Baru-baru ini, model resapan telah mengatasi model GAN dan autoregresif dan menjadi pilihan arus perdana untuk model generatif kerana prestasi cemerlangnya. Model penjanaan teks-ke-imej berasaskan model resapan seperti SD, SDXL, Midjourney dan Imagen telah menunjukkan keupayaan yang menakjubkan untuk menjana imej berkualiti tinggi. Biasanya, model ini dilatih pada resolusi khusus untuk memastikan pemprosesan yang cekap dan latihan model yang tepat pada perkakasan sedia ada.
Rajah 1: Perbandingan menggunakan kaedah berbeza untuk menjana imej 2048×2048 di bawah SDXL 1.0. [1]
Dalam model penyebaran ini, pertindihan corak dan artifak teruk sering berlaku. Sebagai contoh, ia ditunjukkan di sebelah kiri paling kiri Rajah 1. Masalah ini amat akut di luar penyelesaian latihan.
Penyelidik dari institusi seperti Makmal Bersama Teknologi SenseTime Universiti China Hong Kong menjalankan kajian mendalam tentang lapisan konvolusi struktur UNet yang biasa digunakan dalam model resapan dalam kertas kerja, dan mencadangkan FouriScale dari perspektif kekerapan analisis domain seperti yang ditunjukkan dalam gambar 2.
Rajah 2 Diagram skematik proses FouriScale (garis oren), yang bertujuan untuk memastikan ketekalan merentas resolusi.
Dengan memperkenalkan operasi konvolusi diluaskan dan operasi penapisan laluan rendah untuk menggantikan lapisan konvolusi asal dalam model penyebaran terlatih, struktur dan ketekalan skala pada resolusi berbeza boleh dicapai. Digabungkan dengan strategi "isi kemudian potong", kaedah ini secara fleksibel boleh menjana imej yang memenuhi saiz dan nisbah bidang yang berbeza. Tambahan pula, dengan FouriScale sebagai panduan, kaedah ini mampu menjamin struktur imej yang lengkap dan kualiti imej yang sangat baik apabila menjana imej resolusi tinggi dalam sebarang saiz. FouriScale tidak memerlukan sebarang pengiraan ramalan luar talian dan mempunyai keserasian dan kebolehskalaan yang baik.
Keputusan percubaan kuantitatif dan kualitatif menunjukkan bahawa FouriScale mencapai peningkatan ketara dalam menjana imej resolusi tinggi menggunakan model resapan terlatih. .
Tajuk kertas: FouriScale: Perspektif Kekerapan tentang Sintesis Imej Resolusi Tinggi Tanpa Latihan
Formula (3) boleh ditulis sebagai:
Formula ini menunjukkan spektrum konvolusi ideal Fourier. k' harus Ia disambungkan oleh spektrum Fourier bagi isirong lilitan s×s k. Dalam erti kata lain, spektrum Fourier k' sepatutnya mempunyai pengulangan berkala, dan corak berulang ini ialah spektrum Fourier k.
Konvolusi atrous yang digunakan secara meluas hanya memenuhi keperluan ini. Kekerapan domain berkala lilitan atrous boleh dinyatakan dengan formula berikut:
Apabila menggunakan model resapan terlatih (resolusi latihan ialah (h,w)) untuk menjana imej resolusi tinggi bagi (H,W), parameter lilitan atrous menggunakan isirong lilitan asal, dan faktor pengembangan ialah ( H/j, W/w), ialah isirung lilitan ideal k'.
2. Penapisan laluan rendah memastikan ketekalan skala merentas resolusi
Walau bagaimanapun, hanya menggunakan lilitan atrous tidak dapat menyelesaikan masalah dengan sempurna, seperti yang ditunjukkan di sudut kiri atas Rajah 3, hanya menggunakan lilitan atrous. masih corak pengulangan dalam butiran. Penulis percaya bahawa ini adalah kerana fenomena aliasing frekuensi bagi pensampelan bawah ruang mengubah komponen domain frekuensi, mengakibatkan perbezaan dalam taburan domain frekuensi pada resolusi yang berbeza. Untuk memastikan ketekalan skala merentas resolusi, mereka memperkenalkan penapisan laluan rendah untuk menapis komponen frekuensi tinggi untuk mengalih keluar masalah pengaliasan frekuensi selepas pensampelan rendah spatial. Seperti yang dapat dilihat dari lengkung perbandingan di sebelah kanan Rajah 3, selepas menggunakan penapisan laluan rendah, taburan frekuensi pada resolusi tinggi dan rendah adalah lebih dekat, sekali gus memastikan skala yang konsisten. Seperti yang dapat dilihat dari sudut kiri bawah Rajah 3, selepas menggunakan penapisan laluan rendah, fenomena pengulangan corak butiran telah bertambah baik dengan ketara.
Rajah 3 (a) Perbandingan visual sama ada penapisan laluan rendah digunakan. (b) Lengkung amplitud logaritma relatif Fourier tanpa penapisan laluan rendah. (c) Lengkung amplitud logaritma relatif Fourier dengan penapisan laluan rendah.
3. boleh disesuaikan dengan mana-mana saiz Untuk penjanaan imej, pengarang menggunakan kaedah "isi dan kemudian potong" Kaedah 1 menunjukkan kod pseudo FouriScale yang menggabungkan strategi ini Operasi domain frekuensi dalam FouriScale tidak dapat tidak menyebabkan kehilangan butiran dan artifak yang tidak diingini dalam yang dihasilkan. imej. Bagi menyelesaikan masalah ini, seperti yang ditunjukkan dalam Rajah 4, penulis mencadangkan FouriScale sebagai kaedah panduan. Secara khusus, berdasarkan anggaran penjanaan bersyarat asal dan anggaran penjanaan tanpa syarat, mereka memperkenalkan anggaran penjanaan bersyarat tambahan. Proses penjanaan anggaran penjanaan bersyarat tambahan ini juga menggunakan lilitan atrous, tetapi menggunakan penapisan laluan rendah yang lebih lembut untuk memastikan butiran tidak hilang. Pada masa yang sama, mereka akan menggunakan skor perhatian dalam output anggaran penjanaan bersyarat oleh FouriScale untuk menggantikan skor perhatian dalam anggaran penjanaan bersyarat tambahan ini Memandangkan skor perhatian mengandungi maklumat struktur dalam imej yang dijana, operasi ini akan betul maklumat struktur diperkenalkan sambil memastikan kualiti imej.
Rajah 4 (a) Rajah but FouriScale. (b) Imej yang dijana tanpa menggunakan FouriScale sebagai panduan mempunyai artifak yang jelas dan ralat terperinci. (c) Imej yang dihasilkan menggunakan FouriScale sebagai panduan. . menghasilkan Empat imej resolusi lebih tinggi. Resolusi yang diuji ialah 4x, 6.25x, 8x dan 16x bilangan piksel resolusi latihan masing-masing. Keputusan pensampelan rawak 30000/10000 pasangan teks imej pada Laion-5B ditunjukkan dalam Jadual 1:
Jadual 1 Perbandingan hasil kuantitatif kaedah bebas latihan yang berbeza
lebih baik dalam setiap Model pra-latihan mencapai hasil yang optimum pada resolusi yang berbeza.
2. Keputusan ujian kualitatif
Atas ialah kandungan terperinci Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!