Rumah >Peranti teknologi >AI >Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

PHPzke hadapan: 2024-04-08 16:52:061327semak imbas

Baru-baru ini, model resapan telah mengatasi model GAN dan autoregresif dan menjadi pilihan arus perdana untuk model generatif kerana prestasi cemerlangnya. Model penjanaan teks-ke-imej berasaskan model resapan seperti SD, SDXL, Midjourney dan Imagen telah menunjukkan keupayaan yang menakjubkan untuk menjana imej berkualiti tinggi. Biasanya, model ini dilatih pada resolusi khusus untuk memastikan pemprosesan yang cekap dan latihan model yang tepat pada perkakasan sedia ada.

Rajah 1: Perbandingan menggunakan kaedah berbeza untuk menjana imej 2048×2048 di bawah SDXL 1.0. [1]

Dalam model penyebaran ini, pertindihan corak dan artifak teruk sering berlaku. Sebagai contoh, ia ditunjukkan di sebelah kiri paling kiri Rajah 1. Masalah ini amat akut di luar penyelesaian latihan.

Penyelidik dari institusi seperti Makmal Bersama Teknologi SenseTime Universiti China Hong Kong menjalankan kajian mendalam tentang lapisan konvolusi struktur UNet yang biasa digunakan dalam model resapan dalam kertas kerja, dan mencadangkan FouriScale dari perspektif kekerapan analisis domain seperti yang ditunjukkan dalam gambar 2.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Rajah 2 Diagram skematik proses FouriScale (garis oren), yang bertujuan untuk memastikan ketekalan merentas resolusi.

Dengan memperkenalkan operasi konvolusi diluaskan dan operasi penapisan laluan rendah untuk menggantikan lapisan konvolusi asal dalam model penyebaran terlatih, struktur dan ketekalan skala pada resolusi berbeza boleh dicapai. Digabungkan dengan strategi "isi kemudian potong", kaedah ini secara fleksibel boleh menjana imej yang memenuhi saiz dan nisbah bidang yang berbeza. Tambahan pula, dengan FouriScale sebagai panduan, kaedah ini mampu menjamin struktur imej yang lengkap dan kualiti imej yang sangat baik apabila menjana imej resolusi tinggi dalam sebarang saiz. FouriScale tidak memerlukan sebarang pengiraan ramalan luar talian dan mempunyai keserasian dan kebolehskalaan yang baik.

Keputusan percubaan kuantitatif dan kualitatif menunjukkan bahawa FouriScale mencapai peningkatan ketara dalam menjana imej resolusi tinggi menggunakan model resapan terlatih. .

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Tajuk kertas: FouriScale: Perspektif Kekerapan tentang Sintesis Imej Resolusi Tinggi Tanpa Latihan

Pengenalan kaedah
ketekalan struktur1
The rangkaian denoising model resapan biasanya dilatih pada imej atau ruang terpendam resolusi tertentu Rangkaian ini biasanya menggunakan struktur U-Net. Penulis bertujuan untuk menggunakan parameter rangkaian denoising semasa peringkat inferens untuk menjana imej resolusi lebih tinggi tanpa memerlukan latihan semula. Untuk mengelakkan herotan struktur pada resolusi inferens, penulis cuba mewujudkan konsistensi struktur antara lalai dan resolusi tinggi. Untuk lapisan konvolusi dalam U-Net, ketekalan struktur boleh dinyatakan sebagai:

di mana k ialah isirong lilitan asal dan k' ialah isirong lilitan baharu yang disesuaikan untuk peleraian yang lebih besar. Mengikut perwakilan domain kekerapan pensampelan spatial, ia adalah seperti berikut:

Formula (3) boleh ditulis sebagai:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej. Formula ini menunjukkan spektrum konvolusi ideal Fourier. k' harus Ia disambungkan oleh spektrum Fourier bagi isirong lilitan s×s k. Dalam erti kata lain, spektrum Fourier k' sepatutnya mempunyai pengulangan berkala, dan corak berulang ini ialah spektrum Fourier k.

Konvolusi atrous yang digunakan secara meluas hanya memenuhi keperluan ini. Kekerapan domain berkala lilitan atrous boleh dinyatakan dengan formula berikut:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Apabila menggunakan model resapan terlatih (resolusi latihan ialah (h,w)) untuk menjana imej resolusi tinggi bagi (H,W), parameter lilitan atrous menggunakan isirong lilitan asal, dan faktor pengembangan ialah ( H/j, W/w), ialah isirung lilitan ideal k'.

2. Penapisan laluan rendah memastikan ketekalan skala merentas resolusi

Walau bagaimanapun, hanya menggunakan lilitan atrous tidak dapat menyelesaikan masalah dengan sempurna, seperti yang ditunjukkan di sudut kiri atas Rajah 3, hanya menggunakan lilitan atrous. masih corak pengulangan dalam butiran. Penulis percaya bahawa ini adalah kerana fenomena aliasing frekuensi bagi pensampelan bawah ruang mengubah komponen domain frekuensi, mengakibatkan perbezaan dalam taburan domain frekuensi pada resolusi yang berbeza. Untuk memastikan ketekalan skala merentas resolusi, mereka memperkenalkan penapisan laluan rendah untuk menapis komponen frekuensi tinggi untuk mengalih keluar masalah pengaliasan frekuensi selepas pensampelan rendah spatial. Seperti yang dapat dilihat dari lengkung perbandingan di sebelah kanan Rajah 3, selepas menggunakan penapisan laluan rendah, taburan frekuensi pada resolusi tinggi dan rendah adalah lebih dekat, sekali gus memastikan skala yang konsisten. Seperti yang dapat dilihat dari sudut kiri bawah Rajah 3, selepas menggunakan penapisan laluan rendah, fenomena pengulangan corak butiran telah bertambah baik dengan ketara.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Rajah 3 (a) Perbandingan visual sama ada penapisan laluan rendah digunakan. (b) Lengkung amplitud logaritma relatif Fourier tanpa penapisan laluan rendah. (c) Lengkung amplitud logaritma relatif Fourier dengan penapisan laluan rendah.

3. boleh disesuaikan dengan mana-mana saiz Untuk penjanaan imej, pengarang menggunakan kaedah "isi dan kemudian potong" Kaedah 1 menunjukkan kod pseudo FouriScale yang menggabungkan strategi ini Operasi domain frekuensi dalam FouriScale tidak dapat tidak menyebabkan kehilangan butiran dan artifak yang tidak diingini dalam yang dihasilkan. imej. Bagi menyelesaikan masalah ini, seperti yang ditunjukkan dalam Rajah 4, penulis mencadangkan FouriScale sebagai kaedah panduan. Secara khusus, berdasarkan anggaran penjanaan bersyarat asal dan anggaran penjanaan tanpa syarat, mereka memperkenalkan anggaran penjanaan bersyarat tambahan. Proses penjanaan anggaran penjanaan bersyarat tambahan ini juga menggunakan lilitan atrous, tetapi menggunakan penapisan laluan rendah yang lebih lembut untuk memastikan butiran tidak hilang. Pada masa yang sama, mereka akan menggunakan skor perhatian dalam output anggaran penjanaan bersyarat oleh FouriScale untuk menggantikan skor perhatian dalam anggaran penjanaan bersyarat tambahan ini Memandangkan skor perhatian mengandungi maklumat struktur dalam imej yang dijana, operasi ini akan betul maklumat struktur diperkenalkan sambil memastikan kualiti imej.

Rajah 4 (a) Rajah but FouriScale. (b) Imej yang dijana tanpa menggunakan FouriScale sebagai panduan mempunyai artifak yang jelas dan ralat terperinci. (c) Imej yang dihasilkan menggunakan FouriScale sebagai panduan. . menghasilkan Empat imej resolusi lebih tinggi. Resolusi yang diuji ialah 4x, 6.25x, 8x dan 16x bilangan piksel resolusi latihan masing-masing. Keputusan pensampelan rawak 30000/10000 pasangan teks imej pada Laion-5B ditunjukkan dalam Jadual 1:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Jadual 1 Perbandingan hasil kuantitatif kaedah bebas latihan yang berbeza

lebih baik dalam setiap Model pra-latihan mencapai hasil yang optimum pada resolusi yang berbeza.

2. Keputusan ujian kualitatif Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Seperti yang ditunjukkan dalam Rajah 5, kaedah mereka boleh memastikan kualiti penjanaan imej dan struktur yang konsisten dalam setiap model pra-latihan dan pada resolusi yang berbeza. . FouriScale dianalisis daripada domain kekerapan dan menambah baik struktur dan ketekalan skala pada resolusi berbeza melalui lilitan atrous dan operasi penapisan laluan rendah, menyelesaikan cabaran utama seperti corak berulang dan herotan struktur. Mengguna pakai strategi "isi kemudian potong" dan menggunakan FouriScale sebagai panduan meningkatkan fleksibiliti dan kualiti penjanaan teks kepada imej sambil menyesuaikan diri dengan nisbah aspek yang berbeza. Perbandingan eksperimen kuantitatif dan kualitatif menunjukkan bahawa FouriScale boleh memastikan kualiti penjanaan imej yang lebih tinggi di bawah model pra-latihan yang berbeza dan resolusi yang berbeza.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Atas ialah kandungan terperinci Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

github Imagen https midjourney

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Main dengan model besar! Arahan satu klik dengan ReplikaArtikel seterusnya：Main dengan model besar! Arahan satu klik dengan Replika

Artikel berkaitan

Lihat lagi