Rumah > Artikel > Peranti teknologi > Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda
Baru-baru ini, Google telah mengeluarkan model Muse generasi imej teks Ia tidak menggunakan model resapan yang popular pada masa ini, tetapi menggunakan model Transformer klasik untuk mencapai penjanaan imej yang paling maju : Berbanding dengan model penyebaran atau autoregresif, kecekapan model Muse juga lebih baik.
Pautan kertas: https://arxiv.org/pdf/2301.00704.pdf
Pautan projek: https://muse-model.github.io/
Muse menggunakan tugas pemodelan bertopeng dalam ruang token diskret Latihan tentang: Memandangkan pembenaman teks yang diekstrak daripada model bahasa besar (LLM) yang telah dilatih sebelumnya, proses latihan Muse adalah untuk meramalkan token imej bertopeng secara rawak.
Berbanding dengan model penyebaran ruang piksel (seperti Imagen dan DALL-E 2), memandangkan Muse menggunakan token diskret, hanya lelaran pensampelan yang lebih sedikit diperlukan, jadi kecekapan dipertingkatkan Diperbaiki dengan ketara;
Berbanding dengan model autoregresif (seperti Parti), Muse lebih cekap kerana menggunakan penyahkodan selari.
Menggunakan LLM pra-latihan membolehkan pemahaman bahasa yang terperinci, yang diterjemahkan kepada penjanaan imej ketelitian tinggi dan pemahaman konsep visual, Seperti objek , hubungan ruang, postur, kardinaliti, dsb.
Dalam keputusan percubaan, model Muse dengan hanya 900M parameter mencapai prestasi SOTA baharu pada CC3M dengan skor FID 6.06.
Model parametrik Muse 3B mencapai FID 7.88 dalam penilaian COCO pukulan sifar, sambil turut mencapai skor CLIP 0.32.
Muse juga boleh terus melaksanakan beberapa aplikasi penyuntingan imej tanpa menala halus atau menyongsangkan model: pembaikan (inpainting), pengembangan (outpainting) ) dan penyuntingan tanpa topeng.
Rangka kerja model Muse mengandungi berbilang komponen Rangkaian latihan terdiri daripada pengekod teks pra-latihan T5-XXL, model asas dan resolusi super model kadar.
1. 🎜>Sama seperti kesimpulan yang dibuat dalam kajian terdahulu, para penyelidik mendapati bahawa menggunakan model bahasa besar (LLM) yang telah dilatih sebelumnya bermanfaat untuk meningkatkan penjanaan imej berkualiti tinggi.
Sebagai contoh, benam yang diekstrak daripada model bahasa T5-XXL mengandungi maklumat tentang objek (kata nama), tindakan (kata kerja), atribut visual (kata sifat) dan hubungan ruang (kata depan) dan maklumat yang kaya tentang atribut lain seperti kebolehkadan dan komposisi.Jadi para penyelidik mengemukakan hipotesis: model Muse belajar untuk memetakan konsep visual dan semantik yang kaya ini dalam pembenaman LLM pada imej yang dijana.
Beberapa kerja baru-baru ini telah membuktikan bahawa perwakilan konseptual yang dipelajari oleh LLM dan perwakilan konseptual yang dipelajari oleh model yang dilatih mengenai tugas visual secara kasar boleh "dipetakan secara linear".
Diberi tajuk teks input, menghantarnya kepada pengekod T5-XXL dengan parameter beku menghasilkan vektor pembenaman bahasa 4096 dimensi, yang kemudiannya diunjurkan secara linear Kepada dimensi saiz tersembunyi bagi model Transformer (asas dan resolusi super).
2. Gunakan VQGAN untuk Tokenisasi Semantik Model VQGAN terdiri daripada pengekod dan penyahkod, di mana The lapisan kuantisasi memetakan imej input ke dalam urutan token daripada buku kod yang dipelajari. Kemudian pengekod dan penyahkod dibina sepenuhnya dengan lapisan konvolusi untuk menyokong pengekodan imej resolusi berbeza. Pengekod termasuk beberapa blok pensampelan turun untuk mengurangkan dimensi ruang input, manakala penyahkod mempunyai bilangan blok pensampelan yang sepadan untuk memetakan pendam kembali kepada saiz imej asal. Para penyelidik melatih dua model VQGAN: satu mempunyai kadar pensampelan menurun f=16, dan model memperoleh label model asas pada imej 256 × 256 piksel, menghasilkan saiz spatial 16×16 markah; yang lain ialah kadar pensampelan rendah f=8, dan token model resolusi super diperoleh pada imej 512×512, dan saiz spatial yang sepadan ialah 64×64. Token diskret yang diperolehi selepas pengekodan boleh menangkap semantik tahap tinggi imej dan juga menghapuskan hingar tahap rendah Mengikut diskret token, kehilangan entropi silang boleh digunakan pada hujung keluaran. Ramalkan token bertopeng pada peringkat seterusnya 3 >Asas Muse Model ialah Transformer bertopeng, di mana inputnya ialah pembenaman T5 yang dipetakan dan token imej. Penyelidik menetapkan semua pembenaman teks kepada tidak bertopeng dan secara rawak menutup sebahagian daripada token imej yang berbeza Gunakan teg [MASK] khas untuk menggantikan token asal. Kemudian petakan token imej secara linear kepada input Transformer yang diperlukan atau imej dimensi saiz tersembunyi. pembenaman input, dan pada masa yang sama Mempelajari pembenaman kedudukan 2D adalah sama dengan seni bina Transformer asal, termasuk beberapa lapisan pengubah, menggunakan blok perhatian kendiri, blok perhatian silang dan MLP blok untuk mengekstrak ciri. Dalam lapisan keluaran, gunakan MLP untuk menukar setiap pembenaman imej bertopeng kepada satu set logit (bersamaan dengan saiz buku kod VQGAN) dan gunakan entropi silang untuk menyasarkan kehilangan token kebenaran tanah. Dalam fasa latihan, matlamat latihan model asas adalah untuk meramalkan semua token msked pada setiap langkah; tetapi dalam fasa inferens, ramalan topeng dilakukan secara berulang, yang mana boleh sangat Sangat meningkatkan kualiti. 4. Model resolusi super Para penyelidik mendapati bahawa secara langsung meramalkan 512× Imej resolusi 512 akan menyebabkan model memfokuskan pada butiran peringkat rendah dan bukannya semantik peringkat tinggi. Menggunakan lata model boleh memperbaiki keadaan ini: Mula-mula gunakan satu untuk menjana peta terpendam 16×16 ( Model asas yang sepadan kepada imej 256×256); dan kemudian model resolusi super yang meningkatkan sampel peta terpendam asas kepada 64×64 (bersamaan dengan imej 512×512). Model resolusi super dilatih selepas latihan model asas selesai. Seperti yang dinyatakan di atas, para penyelidik melatih sejumlah dua model VQGAN, satu dengan resolusi terpendam 16×16 dan kadar resolusi spatial 256×256, yang satu lagi ialah resolusi terpendam 64×64 dan resolusi ruang 512×512.
Memandangkan model asas mengeluarkan token yang sepadan dengan peta terpendam 16×16, modul peleraian super belajar untuk "menterjemah" peta terpendam resolusi rendah kepada terpendam resolusi tinggi map , dan kemudian dapatkan imej resolusi tinggi akhir melalui penyahkodan VQGAN resolusi tinggi model terjemahan juga dilatih dengan pelaziman teks dan perhatian silang dengan cara yang serupa dengan model asas. 5 Untuk meningkatkan lagi keupayaan model untuk menjana butiran, para penyelidik memilih untuk meningkatkan kapasiti penyahkod VQGAN dengan menambahkan lebih banyak lapisan dan saluran baki sambil mengekalkan kapasiti pengekod tidak berubah. Penyahkod baharu kemudiannya diperhalusi sambil memastikan pemberat, buku kod dan Transformer (iaitu model asas dan model resolusi super) pengekod VQGAN tidak berubah. Pendekatan ini meningkatkan kualiti visual imej yang dijana tanpa perlu melatih semula mana-mana komponen model lain (kerana token visual kekal tetap). Seperti yang anda lihat, penyahkod telah diperhalusi untuk membina semula butiran yang lebih jelas dan jelas. 6 Kadar Topeng Boleh Ubah (Kadar Topeng) Penyelidik menggunakan Model ini ialah dilatih dengan kadar topeng berubah-ubah berdasarkan penjadualan Csoine: untuk setiap contoh latihan, kadar topeng r∈[0, 1] diambil daripada taburan arccos terpenggal, dan fungsi ketumpatannya adalah seperti berikut. Nilai jangkaan kadar topeng ialah 0.64, bermakna kadar topeng yang lebih tinggi diutamakan, menjadikan masalah ramalan lebih sukar. Kadar topeng rawak bukan sahaja penting untuk skim pensampelan selari, tetapi juga membolehkan beberapa ciri pengeditan yang tersebar dan di luar kotak. 7 Bimbingan Percuma Pengelas (CFG) Penyelidik menggunakan bimbingan tanpa klasifikasi (CFG) untuk meningkatkan kualiti penjanaan imej dan penjajaran imej teks. Semasa latihan, keadaan teks dialih keluar daripada 10% sampel yang dipilih secara rawak, dan mekanisme perhatian dikurangkan kepada perhatian kendiri token imej itu sendiri. Dalam peringkat inferens, logit bersyarat lc dan logit tanpa syarat lu dikira untuk setiap token bertopeng, dan kemudian kuantiti t dikeluarkan daripada logit tanpa syarat sebagai skala panduan untuk membentuk logit terakhir lg: Secara intuitif, CFG memperdagangkan kepelbagaian untuk kesetiaan, tetapi tidak seperti kaedah sebelumnya, Muse menggunakan pensampelan Proses secara linear meningkatkan skala panduan t untuk mengurangkan kehilangan kepelbagaian, membenarkan token awal diambil sampel dengan lebih bebas dengan panduan yang rendah atau tiada, tetapi juga meningkatkan pengaruh isyarat bersyarat pada token kemudian. Para penyelidik juga mengambil kesempatan daripada mekanisme ini dengan menggantikan logit lu tanpa syarat dengan logit yang dikondisikan pada gesaan negatif, yang mempromosikan imej yang dijana mempunyai ciri yang berkaitan dengan gesaan postif. 8 Penyahkodan selari berulang semasa inferens Satu bahagian penting dalam meningkatkan kecekapan masa inferens model ialah penggunaan penyahkodan selari untuk meramalkan berbilang token keluaran dalam saluran hadapan tunggal, salah satu andaian utama ialah sifat Markov, iaitu, banyak token bebas bersyarat memandangkan token lain. Penyahkodan dilakukan mengikut jadual kosinus, dan topeng dengan keyakinan tertinggi dalam perkadaran tetap dipilih untuk ramalan, di mana token ditetapkan untuk dibuka dalam langkah yang tinggal, dan token bertopeng dikurangkan dengan sewajarnya. Menurut proses di atas, hanya 24 langkah penyahkodan boleh digunakan untuk mencapai penaakulan bagi 256 token dalam model asas, dan 8 langkah penyahkodan boleh digunakan dalam model resolusi super. Inferens pada 4096 token, berbanding 256 atau 4096 langkah untuk model autoregresif dan beratus-ratus langkah untuk model resapan. Walaupun beberapa penyelidikan terkini termasuk penyulingan progresif dan penyelesai ODE yang lebih baik telah banyak mengurangkan langkah pensampelan model resapan, kaedah ini belum disahkan secara meluas dalam penjanaan teks-ke-imej berskala besar. Para penyelidik melatih satu siri model Transformer asas berdasarkan T5-XXL dengan jumlah parameter yang berbeza (dari 600M hingga 3B). Kualiti imej yang dijana Percubaan menguji keupayaan model Muse untuk gesaan teks dengan atribut yang berbeza, termasuk Pemahaman asas kardinaliti ialah untuk objek bukan tunggal, Muse tidak menjana piksel objek yang sama beberapa kali, tetapi menambah perubahan kontekstual untuk menjadikan keseluruhan imej lebih realistik. Sebagai contoh, saiz dan arah gajah, warna pembalut botol wain, putaran bola tenis, dsb. Perbandingan kuantitatif Para penyelidik menjalankan perbandingan eksperimen dengan kaedah penyelidikan lain pada set data CC3M dan COCO, Metrik termasuk Frechet Inception Distance (FID), yang mengukur kualiti dan kepelbagaian sampel, dan skor CLIP, yang mengukur penjajaran imej/teks. Hasil percubaan membuktikan bahawa model 632M Muse mencapai keputusan SOTA pada CC3M, bertambah baik dalam skor FID, dan juga mencapai hasil terbaik pemarkahan. Pada set data MS-COCO, model 3B mencapai skor FID 7.88, yang lebih baik sedikit daripada model Parti-3B dengan jumlah parameter yang serupa. Mencapai 8.1 mata. Hasil eksperimen
Atas ialah kandungan terperinci Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!