Rumah >Peranti teknologi >AI >Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

王林
王林ke hadapan
2024-03-28 15:06:30866semak imbas

Model resapan memainkan peranan dalam perwakilan warna dalam penjanaan imej, memacu era baharu model generatif. Model besar seperti Stable Diffusion, DALLE, Imagen, dan SORA telah muncul, memperkayakan lagi latar belakang aplikasi AI generatif. Walau bagaimanapun, model resapan semasa tidak sempurna dalam teori, dan beberapa kajian telah memberi perhatian kepada masalah singulariti tidak ditentukan pada titik akhir tempoh persampelan. Di samping itu, purata tahap kelabu yang disebabkan oleh masalah singulariti dalam aplikasi dan masalah lain yang menjejaskan kualiti imej yang dijana belum dapat diselesaikan.

Untuk menyelesaikan masalah ini, pasukan WeChat Vision bekerjasama dengan Universiti Sun Yat-sen untuk bersama-sama meneroka masalah singulariti dalam model penyebaran dan mencadangkan kaedah pasang dan main yang berkesan menyelesaikan masalah pensampelan pada awalnya. seketika. Kaedah ini berjaya menyelesaikan masalah skala kelabu purata dan meningkatkan keupayaan penjanaan model resapan sedia ada dengan ketara. Hasil penyelidikan ini telah diterbitkan pada persidangan CVPR 2024.

Model penyebaran telah mencapai kejayaan ketara dalam tugas penjanaan kandungan berbilang modal, termasuk penjanaan imej, audio, teks dan video. Kejayaan pemodelan model ini kebanyakannya bergantung pada andaian bahawa proses songsang proses resapan juga mematuhi sifat Gaussian. Namun, hipotesis ini belum dapat dibuktikan sepenuhnya. Terutamanya pada titik akhir, iaitu, t=0 atau t=1, masalah singulariti akan berlaku, yang mengehadkan kaedah sedia ada untuk mengkaji persampelan pada singulariti.

Selain itu, masalah singulariti juga akan menjejaskan keupayaan penjanaan model resapan, menyebabkan model tersebut mengalami masalah skala kelabu purata, iaitu sukar untuk menghasilkan imej dengan kecerahan yang kuat atau lemah, seperti yang ditunjukkan dalam rajah di bawah. Ini juga mengehadkan skop aplikasi model penyebaran semasa pada tahap tertentu.

Untuk menyelesaikan masalah singulariti model penyebaran pada titik akhir masa, pasukan visi WeChat bekerjasama dengan Universiti Sun Yat-sen untuk menjalankan penyelidikan mendalam dari kedua-dua aspek teori dan praktikal. Pertama, pasukan mencadangkan sempadan atas ralat yang mengandungi anggaran taburan Gaussian bagi proses songsang pada momen singulariti, yang menyediakan asas teori untuk penyelidikan seterusnya. Berdasarkan jaminan teori ini, pasukan mengkaji pensampelan pada titik tunggal dan mencapai dua kesimpulan penting: 1) Titik tunggal pada t=1 boleh diubah menjadi titik tunggal boleh tanggal dengan mencari had, 2) Ketunggalan pada t=0 adalah sifat yang wujud dalam model resapan dan tidak perlu dielakkan. Berdasarkan kesimpulan ini, pasukan mencadangkan kaedah plug-and-play: SingDiffusion, untuk menyelesaikan masalah pensampelan model resapan pada saat awal.

Telah dibuktikan melalui sejumlah besar eksperimen bahawa modul SingDiffusion boleh digunakan dengan lancar pada model resapan sedia ada dengan hanya satu latihan, dengan ketara menyelesaikan masalah nilai kelabu purata. Tanpa menggunakan teknologi bimbingan tanpa pengelas, SingDiffusion boleh meningkatkan kualiti penjanaan kaedah semasa dengan ketara Terutamanya selepas digunakan pada Stable Diffusion 1.5 (SD-1.5), kualiti imej yang dihasilkannya dipertingkatkan sebanyak 33%.

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Alamat kertas: https://arxiv.org/pdf/2403.08381.pdf

Alamat projek: https://pangzecheung.github.io/SingDiffusion:TajukDiffusion/

Kesingularan pada Titik Akhir Selang Masa dalam Model Resapan

Sifat Gaussian bagi proses songsang

Untuk mengkaji masalah singulariti model resapan, adalah perlu untuk mengesahkan bahawa proses songsang pada kesingularan keseluruhan proses memenuhi sifat Gaussian. Pertama, takrifkan

sebagai sampel latihan model resapan Taburan sampel latihan boleh dinyatakan sebagai: Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

di mana δ mewakili fungsi Dirac. Mengikut takrifan model resapan masa berterusan dalam [1], untuk sebarang dua saat 0≤s,t≤1, proses ke hadapan boleh dinyatakan sebagai:

di mana Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan berubah secara monoton daripada 1 kepada 0 dari semasa ke semasa. Memandangkan taburan sampel latihan yang baru ditakrifkan, ketumpatan kebarangkalian marginal momen tunggal bagi Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan boleh dinyatakan sebagai:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Daripada ini, taburan bersyarat bagi proses songsang boleh dikira melalui formula Bayesian:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Namun, pengedaran yang diperolehi adalah pengedaran Gaussian campuran, yang sukar untuk dimuatkan dengan rangkaian. Oleh itu, model resapan arus perdana biasanya mengandaikan bahawa taburan ini boleh dimuatkan oleh satu taburan Gaussian:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

di mana, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan Untuk mengesahkan andaian ini, kajian ini menganggarkan ini dipasang dalam ralat Proposisi 1.

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Walau bagaimanapun, kajian mendapati apabila t=1, apabila s menghampiri 1, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan juga akan menghampiri 1, dan ralat itu tidak boleh diabaikan. Oleh itu, Proposisi 1 tidak membuktikan sifat Gaussian songsang pada t=1. Untuk menyelesaikan masalah ini, penyelidikan ini memberikan cadangan baharu:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Mengikut Proposisi 2, apabila t=1, apabila s menghampiri 1, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan akan menghampiri 0. Oleh itu, kajian ini membuktikan bahawa keseluruhan proses songsang termasuk momen singulariti menepati ciri Gaussian.

Persampelan pada Momen Singulariti

Dengan jaminan ciri-ciri Gaussian bagi proses songsang, kajian ini menjalankan penyelidikan terhadap persampelan pada saat singulariti berdasarkan formula persampelan songsang.

Pertimbangkan dahulu masalah singulariti pada masa t=1. Apabila t=1, Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan=0, formula pensampelan berikut akan mempunyai penyebut dibahagikan dengan 0:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Pasukan penyelidik mendapati bahawa dengan mengira had, titik tunggal ini boleh diubah menjadi titik tunggal boleh tanggal:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Walau bagaimanapun, had ini tidak boleh dikira semasa ujian. Untuk tujuan ini, kajian ini mencadangkan bahawa kita boleh muatkan Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan pada masa t=1 dan menggunakan "ramalan-x" untuk menyelesaikan masalah pensampelan pada titik tunggal awal.

Kemudian pertimbangkan masa t=0, proses songsang pemasangan taburan Gaussian akan menjadi taburan Gaussian dengan varians 0, iaitu fungsi Dirac:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

di mana Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Singulariti sedemikian akan menyebabkan proses pensampelan menumpu kepada data yang betulTidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Oleh itu, ketunggalan pada t=0 adalah sifat yang baik bagi model resapan dan tidak perlu dielakkan.

Selain itu, kajian juga meneroka masalah singulariti dalam DDIM, SDE, ODE dalam lampiran.

Plug-and-play SingDiffusion module

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Pensampelan pada titik tunggal akan menjejaskan kualiti imej yang dijana oleh model resapan. Contohnya, apabila memasukkan isyarat kecerahan tinggi atau rendah, kaedah sedia ada selalunya hanya boleh menjana imej dengan skala kelabu purata, yang dipanggil masalah skala kelabu purata. Masalah ini berpunca daripada fakta bahawa kaedah sedia ada mengabaikan pensampelan pada titik tunggal pada t=0, dan sebaliknya menggunakan taburan Gaussian standard sebagai taburan awal untuk pensampelan pada masa 1-ϵ. Walau bagaimanapun, seperti yang ditunjukkan dalam rajah di atas, terdapat jurang yang besar antara taburan Gaussian standard dan taburan data sebenar pada masa 1-ϵ.

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Di bawah jurang sedemikian, menurut Proposisi 3, kaedah sedia ada adalah bersamaan dengan menjana imej dengan nilai min 0 pada t=1, iaitu imej skala kelabu purata. Oleh itu, kaedah sedia ada sukar untuk menghasilkan imej dengan kecerahan yang sangat kuat atau lemah. Untuk menyelesaikan masalah ini, kajian ini mencadangkan kaedah SingDiffusion plug-and-play untuk merapatkan jurang ini dengan menyesuaikan penukaran antara taburan Gaussian standard dan taburan data sebenar. Algoritma

SingDiffuion ditunjukkan dalam rajah di bawah:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Mengikut kesimpulan bahagian sebelumnya, kajian ini menggunakan kaedah "x - ramalan" pada masa t=1 untuk menyelesaikan pensampelan masalah pada titik tunggal. Untuk pasangan data teks imej Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan, kaedah ini melatih Unet Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan agar muat Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Fungsi kehilangan dinyatakan sebagai:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Selepas model telah menumpu, anda boleh mengikuti formula pensampelan DDIM di bawah dan menggunakan modul yang baru diperolehi samplingTidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Formula pensampelan DDIM memastikan bahawa Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan yang dihasilkan mematuhi pengedaran data pada 1-ε saat Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan, sekali gus menyelesaikan masalah skala kelabu purata. Selepas langkah ini, model pralatihan boleh digunakan untuk melaksanakan langkah persampelan seterusnya sehingga Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan dijana. Perlu diingat bahawa memandangkan kaedah ini hanya mengambil bahagian dalam langkah pertama persampelan dan tiada kaitan dengan proses persampelan seterusnya, SingDiffusion boleh digunakan untuk kebanyakan model resapan sedia ada. Di samping itu, untuk mengelakkan masalah limpahan data yang disebabkan oleh tiada operasi panduan pengelas, kaedah ini juga menggunakan operasi normalisasi berikut:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

di mana panduan mewakili keputusan selepas tiada operasi panduan pengelas, dan neg mewakili gesaan negatif. output di bawah , pos mewakili output di bawah gesaan positif, dan ω mewakili keamatan panduan.

Eksperimen

Pertama, kajian ini mengesahkan keupayaan SingDiffusion untuk menyelesaikan masalah skala kelabu purata pada tiga model: SD-1.5, SD-2.0-asa dan SD-2.0. Kajian ini memilih empat gesaan melampau, termasuk "latar belakang putih/hitam tulen" dan "logo seni garis monokrom pada latar belakang putih/hitam", sebagai syarat untuk penjanaan dan mengira purata nilai skala kelabu bagi imej yang dijana, seperti yang ditunjukkan dalam jadual di bawah Ditunjukkan:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Seperti yang dapat dilihat daripada jadual, penyelidikan ini dapat menyelesaikan masalah nilai kelabu purata dengan ketara dan menjana imej yang sepadan dengan kecerahan penerangan teks input. Di samping itu, kajian itu juga menggambarkan hasil penjanaan di bawah empat pernyataan segera ini, seperti yang ditunjukkan dalam rajah di bawah:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Seperti yang dapat dilihat daripada rajah, selepas menambah kaedah ini, model penyebaran sedia ada boleh menjana separa Imej hitam atau putih.

Untuk mengkaji lebih lanjut peningkatan kualiti imej yang dicapai melalui kaedah ini, kajian itu memilih 30,000 penerangan untuk ujian pada dataset COCO. Pertama sekali, kajian ini menunjukkan keupayaan generatif model itu sendiri tanpa menggunakan panduan pengelas, seperti yang ditunjukkan dalam jadual berikut:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Seperti yang dapat dilihat dari jadual, kaedah yang dicadangkan dapat mengurangkan kos dengan ketara. menjana imej FID, dan menambah baik penunjuk CLIP. Perlu diingat bahawa dalam model SD-1.5, kaedah dalam kertas ini mengurangkan indeks FID sebanyak 33% berbanding model asal.

Selanjutnya, untuk mengesahkan keupayaan penjanaan kaedah yang dicadangkan tanpa bimbingan pengelas, kajian juga menunjukkan dalam rajah di bawah bahawa di bawah saiz bimbingan yang berbeza ω∈[1.5,2,3,4,5,6,7 ,8] Keluk Pareto CLIP vs. FID:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Seperti yang dapat dilihat dari rajah, pada tahap CLIP yang sama, kaedah yang dicadangkan boleh memperoleh nilai FID yang lebih rendah dan menghasilkan imej yang lebih realistik.

Selain itu, kajian ini juga menunjukkan keupayaan generalisasi kaedah yang dicadangkan di bawah model pra-latihan CIVITAI yang berbeza, seperti yang ditunjukkan dalam rajah di bawah:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Dapat dilihat bahawa kaedah yang dicadangkan dalam kajian ini hanya memerlukan satu latihan dan boleh digunakan dengan mudah pada model resapan sedia ada untuk menyelesaikan masalah skala kelabu purata.

Akhir sekali, kaedah yang dicadangkan oleh penyelidikan ini juga boleh digunakan dengan lancar pada model ControlNet yang telah terlatih, seperti yang ditunjukkan dalam rajah di bawah:

Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan

Seperti yang dapat dilihat daripada keputusan, kaedah ini boleh menyelesaikan masalah skala kelabu purata ControlNet dengan berkesan.

Atas ialah kandungan terperinci Tidak dapat menjana gambar dengan cahaya yang sangat kuat? Pasukan Wawasan WeChat menyelesaikan masalah ketunggalan model penyebaran dengan berkesan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam