Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda-AI-php.cn

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

PHPz

May 13, 2023 am 08:46 AM

GoogleModel

Baru-baru ini, Google telah mengeluarkan model Muse generasi imej teks Ia tidak menggunakan model resapan yang popular pada masa ini, tetapi menggunakan model Transformer klasik untuk mencapai penjanaan imej yang paling maju : Berbanding dengan model penyebaran atau autoregresif, kecekapan model Muse juga lebih baik.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Pautan kertas: https://arxiv.org/pdf/2301.00704.pdf

Pautan projek: https://muse-model.github.io/

Muse menggunakan tugas pemodelan bertopeng dalam ruang token diskret Latihan tentang: Memandangkan pembenaman teks yang diekstrak daripada model bahasa besar (LLM) yang telah dilatih sebelumnya, proses latihan Muse adalah untuk meramalkan token imej bertopeng secara rawak.

Berbanding dengan model penyebaran ruang piksel (seperti Imagen dan DALL-E 2), memandangkan Muse menggunakan token diskret, hanya lelaran pensampelan yang lebih sedikit diperlukan, jadi kecekapan dipertingkatkan Diperbaiki dengan ketara;

Berbanding dengan model autoregresif (seperti Parti), Muse lebih cekap kerana menggunakan penyahkodan selari.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Menggunakan LLM pra-latihan membolehkan pemahaman bahasa yang terperinci, yang diterjemahkan kepada penjanaan imej ketelitian tinggi dan pemahaman konsep visual, Seperti objek , hubungan ruang, postur, kardinaliti, dsb.

Dalam keputusan percubaan, model Muse dengan hanya 900M parameter mencapai prestasi SOTA baharu pada CC3M dengan skor FID 6.06.

Model parametrik Muse 3B mencapai FID 7.88 dalam penilaian COCO pukulan sifar, sambil turut mencapai skor CLIP 0.32.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Muse juga boleh terus melaksanakan beberapa aplikasi penyuntingan imej tanpa menala halus atau menyongsangkan model: pembaikan (inpainting), pengembangan (outpainting) ) dan penyuntingan tanpa topeng.

Model Muse

Rangka kerja model Muse mengandungi berbilang komponen Rangkaian latihan terdiri daripada pengekod teks pra-latihan T5-XXL, model asas dan resolusi super model kadar.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

1. 🎜>Sama seperti kesimpulan yang dibuat dalam kajian terdahulu, para penyelidik mendapati bahawa menggunakan model bahasa besar (LLM) yang telah dilatih sebelumnya bermanfaat untuk meningkatkan penjanaan imej berkualiti tinggi.

Sebagai contoh, benam yang diekstrak daripada model bahasa T5-XXL mengandungi maklumat tentang objek (kata nama), tindakan (kata kerja), atribut visual (kata sifat) dan hubungan ruang (kata depan) dan maklumat yang kaya tentang atribut lain seperti kebolehkadan dan komposisi.

Jadi para penyelidik mengemukakan hipotesis: model Muse belajar untuk memetakan konsep visual dan semantik yang kaya ini dalam pembenaman LLM pada imej yang dijana.

Beberapa kerja baru-baru ini telah membuktikan bahawa perwakilan konseptual yang dipelajari oleh LLM dan perwakilan konseptual yang dipelajari oleh model yang dilatih mengenai tugas visual secara kasar boleh "dipetakan secara linear".

Diberi tajuk teks input, menghantarnya kepada pengekod T5-XXL dengan parameter beku menghasilkan vektor pembenaman bahasa 4096 dimensi, yang kemudiannya diunjurkan secara linear Kepada dimensi saiz tersembunyi bagi model Transformer (asas dan resolusi super).

2. Gunakan VQGAN untuk Tokenisasi Semantik

Model VQGAN terdiri daripada pengekod dan penyahkod, di mana The lapisan kuantisasi memetakan imej input ke dalam urutan token daripada buku kod yang dipelajari.

Kemudian pengekod dan penyahkod dibina sepenuhnya dengan lapisan konvolusi untuk menyokong pengekodan imej resolusi berbeza.

Pengekod termasuk beberapa blok pensampelan turun untuk mengurangkan dimensi ruang input, manakala penyahkod mempunyai bilangan blok pensampelan yang sepadan untuk memetakan pendam kembali kepada saiz imej asal.

Para penyelidik melatih dua model VQGAN: satu mempunyai kadar pensampelan menurun f=16, dan model memperoleh label model asas pada imej 256 × 256 piksel, menghasilkan saiz spatial 16×16 markah; yang lain ialah kadar pensampelan rendah f=8, dan token model resolusi super diperoleh pada imej 512×512, dan saiz spatial yang sepadan ialah 64×64.

Token diskret yang diperolehi selepas pengekodan boleh menangkap semantik tahap tinggi imej dan juga menghapuskan hingar tahap rendah Mengikut diskret token, kehilangan entropi silang boleh digunakan pada hujung keluaran. Ramalkan token bertopeng pada peringkat seterusnya

3 >Asas Muse Model ialah Transformer bertopeng, di mana inputnya ialah pembenaman T5 yang dipetakan dan token imej.

Penyelidik menetapkan semua pembenaman teks kepada tidak bertopeng dan secara rawak menutup sebahagian daripada token imej yang berbeza Gunakan teg [MASK] khas untuk menggantikan token asal.

Kemudian petakan token imej secara linear kepada input Transformer yang diperlukan atau imej dimensi saiz tersembunyi. pembenaman input, dan pada masa yang sama Mempelajari pembenaman kedudukan 2D

adalah sama dengan seni bina Transformer asal, termasuk beberapa lapisan pengubah, menggunakan blok perhatian kendiri, blok perhatian silang dan MLP blok untuk mengekstrak ciri.

Dalam lapisan keluaran, gunakan MLP untuk menukar setiap pembenaman imej bertopeng kepada satu set logit (bersamaan dengan saiz buku kod VQGAN) dan gunakan entropi silang untuk menyasarkan kehilangan token kebenaran tanah.

Dalam fasa latihan, matlamat latihan model asas adalah untuk meramalkan semua token msked pada setiap langkah; tetapi dalam fasa inferens, ramalan topeng dilakukan secara berulang, yang mana boleh sangat Sangat meningkatkan kualiti.

4. Model resolusi super

Para penyelidik mendapati bahawa secara langsung meramalkan 512× Imej resolusi 512 akan menyebabkan model memfokuskan pada butiran peringkat rendah dan bukannya semantik peringkat tinggi.

Menggunakan lata model boleh memperbaiki keadaan ini:

Mula-mula gunakan satu untuk menjana peta terpendam 16×16 ( Model asas yang sepadan kepada imej 256×256); dan kemudian model resolusi super yang meningkatkan sampel peta terpendam asas kepada 64×64 (bersamaan dengan imej 512×512). Model resolusi super dilatih selepas latihan model asas selesai.

Seperti yang dinyatakan di atas, para penyelidik melatih sejumlah dua model VQGAN, satu dengan resolusi terpendam 16×16 dan kadar resolusi spatial 256×256, yang satu lagi ialah resolusi terpendam 64×64 dan resolusi ruang 512×512.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Memandangkan model asas mengeluarkan token yang sepadan dengan peta terpendam 16×16, modul peleraian super belajar untuk "menterjemah" peta terpendam resolusi rendah kepada terpendam resolusi tinggi map , dan kemudian dapatkan imej resolusi tinggi akhir melalui penyahkodan VQGAN resolusi tinggi model terjemahan juga dilatih dengan pelaziman teks dan perhatian silang dengan cara yang serupa dengan model asas.

Untuk meningkatkan lagi keupayaan model untuk menjana butiran, para penyelidik memilih untuk meningkatkan kapasiti penyahkod VQGAN dengan menambahkan lebih banyak lapisan dan saluran baki sambil mengekalkan kapasiti pengekod tidak berubah.

Penyahkod baharu kemudiannya diperhalusi sambil memastikan pemberat, buku kod dan Transformer (iaitu model asas dan model resolusi super) pengekod VQGAN tidak berubah. Pendekatan ini meningkatkan kualiti visual imej yang dijana tanpa perlu melatih semula mana-mana komponen model lain (kerana token visual kekal tetap).

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Seperti yang anda lihat, penyahkod telah diperhalusi untuk membina semula butiran yang lebih jelas dan jelas.

6 Kadar Topeng Boleh Ubah (Kadar Topeng)

Penyelidik menggunakan Model ini ialah dilatih dengan kadar topeng berubah-ubah berdasarkan penjadualan Csoine: untuk setiap contoh latihan, kadar topeng r∈[0, 1] diambil daripada taburan arccos terpenggal, dan fungsi ketumpatannya adalah seperti berikut.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Nilai jangkaan kadar topeng ialah 0.64, bermakna kadar topeng yang lebih tinggi diutamakan, menjadikan masalah ramalan lebih sukar.

Kadar topeng rawak bukan sahaja penting untuk skim pensampelan selari, tetapi juga membolehkan beberapa ciri pengeditan yang tersebar dan di luar kotak.

7 Bimbingan Percuma Pengelas (CFG)

Penyelidik menggunakan bimbingan tanpa klasifikasi (CFG) untuk meningkatkan kualiti penjanaan imej dan penjajaran imej teks.

Semasa latihan, keadaan teks dialih keluar daripada 10% sampel yang dipilih secara rawak, dan mekanisme perhatian dikurangkan kepada perhatian kendiri token imej itu sendiri.

Dalam peringkat inferens, logit bersyarat lc dan logit tanpa syarat lu dikira untuk setiap token bertopeng, dan kemudian kuantiti t dikeluarkan daripada logit tanpa syarat sebagai skala panduan untuk membentuk logit terakhir lg:

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Secara intuitif, CFG memperdagangkan kepelbagaian untuk kesetiaan, tetapi tidak seperti kaedah sebelumnya, Muse menggunakan pensampelan Proses secara linear meningkatkan skala panduan t untuk mengurangkan kehilangan kepelbagaian, membenarkan token awal diambil sampel dengan lebih bebas dengan panduan yang rendah atau tiada, tetapi juga meningkatkan pengaruh isyarat bersyarat pada token kemudian.

Para penyelidik juga mengambil kesempatan daripada mekanisme ini dengan menggantikan logit lu tanpa syarat dengan logit yang dikondisikan pada gesaan negatif, yang mempromosikan imej yang dijana mempunyai ciri yang berkaitan dengan gesaan postif.

8 Penyahkodan selari berulang semasa inferens

Satu bahagian penting dalam meningkatkan kecekapan masa inferens model ialah penggunaan penyahkodan selari untuk meramalkan berbilang token keluaran dalam saluran hadapan tunggal, salah satu andaian utama ialah sifat Markov, iaitu, banyak token bebas bersyarat memandangkan token lain.

Penyahkodan dilakukan mengikut jadual kosinus, dan topeng dengan keyakinan tertinggi dalam perkadaran tetap dipilih untuk ramalan, di mana token ditetapkan untuk dibuka dalam langkah yang tinggal, dan token bertopeng dikurangkan dengan sewajarnya.

Menurut proses di atas, hanya 24 langkah penyahkodan boleh digunakan untuk mencapai penaakulan bagi 256 token dalam model asas, dan 8 langkah penyahkodan boleh digunakan dalam model resolusi super. Inferens pada 4096 token, berbanding 256 atau 4096 langkah untuk model autoregresif dan beratus-ratus langkah untuk model resapan.

Walaupun beberapa penyelidikan terkini termasuk penyulingan progresif dan penyelesai ODE yang lebih baik telah banyak mengurangkan langkah pensampelan model resapan, kaedah ini belum disahkan secara meluas dalam penjanaan teks-ke-imej berskala besar.

Hasil eksperimen

Para penyelidik melatih satu siri model Transformer asas berdasarkan T5-XXL dengan jumlah parameter yang berbeza (dari 600M hingga 3B).

Kualiti imej yang dijana

Percubaan menguji keupayaan model Muse untuk gesaan teks dengan atribut yang berbeza, termasuk Pemahaman asas kardinaliti ialah untuk objek bukan tunggal, Muse tidak menjana piksel objek yang sama beberapa kali, tetapi menambah perubahan kontekstual untuk menjadikan keseluruhan imej lebih realistik.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Sebagai contoh, saiz dan arah gajah, warna pembalut botol wain, putaran bola tenis, dsb.

Perbandingan kuantitatif

Para penyelidik menjalankan perbandingan eksperimen dengan kaedah penyelidikan lain pada set data CC3M dan COCO, Metrik termasuk Frechet Inception Distance (FID), yang mengukur kualiti dan kepelbagaian sampel, dan skor CLIP, yang mengukur penjajaran imej/teks.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Hasil percubaan membuktikan bahawa model 632M Muse mencapai keputusan SOTA pada CC3M, bertambah baik dalam skor FID, dan juga mencapai hasil terbaik pemarkahan.

Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda

Pada set data MS-COCO, model 3B mencapai skor FID 7.88, yang lebih baik sedikit daripada model Parti-3B dengan jumlah parameter yang serupa. Mencapai 8.1 mata.

Atas ialah kandungan terperinci Transformer mengalahkan Diffusion sekali lagi! Google mengeluarkan Muse, generasi baharu model penjanaan imej teks: kecekapan penjanaan meningkat sepuluh kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Anda mesti membina tempat kerja ai di belakang tudung kejahilanApr 29, 2025 am 11:15 AM

Dalam buku seminal John Rawls pada tahun 1971 The Theory of Justice, beliau mencadangkan percubaan pemikiran yang harus kita ambil sebagai inti reka bentuk AI hari ini dan menggunakan keputusan: tudung kejahilan. Falsafah ini menyediakan alat yang mudah untuk memahami ekuiti dan juga menyediakan pelan tindakan untuk pemimpin untuk menggunakan pemahaman ini untuk mereka bentuk dan melaksanakan AI dengan cara yang saksama. Bayangkan anda membuat peraturan untuk masyarakat baru. Tetapi ada premis: anda tidak tahu terlebih dahulu apa peranan yang akan anda mainkan dalam masyarakat ini. Anda mungkin menjadi kaya atau miskin, sihat atau kurang upaya, milik majoriti atau minoriti marginal. Beroperasi di bawah "VEIL OF KETIGA" ini menghalang pembuat peraturan daripada membuat keputusan yang memberi manfaat kepada diri mereka sendiri. Sebaliknya, orang akan lebih bermotivasi untuk merumuskan orang ramai

Keputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIApr 29, 2025 am 11:14 AM

Banyak syarikat yang mengkhususkan diri dalam Automasi Proses Robot (RPA), menawarkan bot untuk mengautomasikan tugas berulang -UIPATH, Automasi di mana sahaja, Prism Blue, dan lain -lain. Sementara itu, proses perlombongan, orkestrasi, dan pemprosesan dokumen pintar Special

Ejen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIApr 29, 2025 am 11:13 AM

Masa depan AI bergerak melampaui ramalan kata mudah dan simulasi perbualan; Ejen AI muncul, mampu tindakan bebas dan penyelesaian tugas. Peralihan ini sudah jelas dalam alat seperti Claude Anthropic. Ejen AI: Penyelidikan a

Mengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIApr 29, 2025 am 11:12 AM

Kemajuan teknologi yang pesat memerlukan perspektif yang berpandangan ke hadapan pada masa depan kerja. Apa yang berlaku apabila AI melampaui peningkatan produktiviti semata -mata dan mula membentuk struktur masyarakat kita? Buku yang akan datang Topher McDougal, Gaia Wakes:

AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?Apr 29, 2025 am 11:11 AM

Klasifikasi produk, sering melibatkan kod kompleks seperti "HS 8471.30" dari sistem seperti sistem harmoni (HS), adalah penting untuk perdagangan antarabangsa dan jualan domestik. Kod ini memastikan permohonan cukai yang betul, memberi kesan kepada setiap inv

Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Apr 29, 2025 am 11:10 AM

Masa Depan Penggunaan Tenaga di Pusat Data dan Pelaburan Teknologi Iklim Artikel ini menerangkan lonjakan penggunaan tenaga di pusat data yang didorong oleh AI dan kesannya terhadap perubahan iklim, dan menganalisis penyelesaian inovatif dan cadangan dasar untuk menangani cabaran ini. Cabaran Permintaan Tenaga: Pusat data besar-besaran dan ultra-besar menggunakan kuasa besar, setanding dengan jumlah beratus-ratus ribu keluarga Amerika Utara yang biasa, dan pusat-pusat skala ultra-besar AI yang muncul menggunakan puluhan kali lebih banyak kuasa daripada ini. Dalam lapan bulan pertama 2024, Microsoft, Meta, Google dan Amazon telah melabur kira -kira AS $ 125 bilion dalam pembinaan dan operasi pusat data AI (JP Morgan, 2024) (Jadual 1). Permintaan tenaga yang semakin meningkat adalah satu cabaran dan peluang. Menurut Canary Media, elektrik yang menjulang

Ai dan Hollywood's Next Golden AgeApr 29, 2025 am 11:09 AM

AI Generatif merevolusi pengeluaran filem dan televisyen. Model Ray 2 Luma, serta Runway's Gen-4, Openai's Sora, Veo Google dan model-model baru yang lain, meningkatkan kualiti video yang dihasilkan pada kelajuan yang belum pernah terjadi sebelumnya. Model-model ini dengan mudah boleh mewujudkan kesan khas yang kompleks dan adegan yang realistik, walaupun klip video pendek dan kesan gerakan yang diperolehi oleh kamera telah dicapai. Walaupun manipulasi dan konsistensi alat -alat ini masih perlu diperbaiki, kelajuan kemajuan adalah menakjubkan. Video generatif menjadi medium bebas. Sesetengah model baik pada pengeluaran animasi, sementara yang lain baik pada imej aksi langsung. Perlu diingat bahawa Firefly Adobe dan Moonvalley's Ma

Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Apr 29, 2025 am 11:08 AM

Pengalaman Pengguna CHATGPT Menolak: Adakah Degradasi Model atau Harapan Pengguna? Baru -baru ini, sebilangan besar pengguna berbayar ChatGPT telah mengadu tentang kemerosotan prestasi mereka, yang telah menarik perhatian yang meluas. Pengguna melaporkan tindak balas yang lebih perlahan terhadap model, jawapan yang lebih pendek, kekurangan bantuan, dan lebih banyak halusinasi. Sesetengah pengguna menyatakan rasa tidak puas hati di media sosial, menunjukkan bahawa ChatGPT telah menjadi "terlalu menyanjung" dan cenderung untuk mengesahkan pandangan pengguna dan bukannya memberikan maklum balas kritikal. Ini bukan sahaja memberi kesan kepada pengalaman pengguna, tetapi juga membawa kerugian sebenar kepada pelanggan korporat, seperti mengurangkan produktiviti dan pembaziran sumber pengkomputeran. Bukti kemerosotan prestasi Ramai pengguna telah melaporkan kemerosotan yang ketara dalam prestasi CHATGPT, terutamanya dalam model yang lebih lama seperti GPT-4 (yang tidak lama lagi akan dihentikan dari perkhidmatan pada akhir bulan ini). ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang laluByDDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7831

1648

1402

1300

1239