Rumah > Artikel > Peranti teknologi > Imej boleh dipaparkan pada telefon mudah alih dalam masa 0.2 saat Google membina model penyebaran mudah alih terpantas
Menjalankan model AI generatif besar seperti Stable Diffusion pada telefon mudah alih dan peranti mudah alih lain telah menjadi salah satu tempat hangat dalam industri, di mana kelajuan penjanaan adalah kekangan utama.
Baru-baru ini, kertas kerja daripada Google "MobileDiffusion: Penjanaan Teks-ke-Imej Subsaat pada Peranti Mudah Alih" mencadangkan Penjanaan Teks-ke-Imej terpantas pada peranti mudah alih, yang mengambil masa hanya 0.2 saat pada iPhone 15 Pro. Kertas kerja ini datang daripada pasukan yang sama dengan UFOGen Semasa mencipta model resapan ultra-kecil, ia juga menggunakan laluan teknologi GAN Resapan yang popular pada masa ini untuk pecutan pensampelan.
Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2311.16567
Berikut adalah hasil yang dihasilkan oleh MobileDiffusion dalam satu langkah.
Jadi, bagaimanakah MobileDiffusion dioptimumkan?
Pertama sekali, mari kita mulakan daripada masalah dan terokai sebab pengoptimuman diperlukan
Teknologi penjanaan teks-ke-imej yang paling popular pada masa ini adalah berdasarkan model penyebaran. Disebabkan oleh keupayaan penjanaan imej asas model pra-latihan yang kukuh dan keteguhan pada tugas penalaan halus hiliran, kami telah melihat prestasi cemerlang model resapan dalam bidang seperti penyuntingan imej, penjanaan terkawal, penjanaan diperibadikan dan penjanaan video
Walau bagaimanapun, sebagai model asas, kelemahannya juga jelas, terutamanya termasuk dua aspek: Pertama, bilangan besar parameter model resapan membawa kepada kelajuan pengiraan yang perlahan, terutamanya apabila sumber adalah terhad, kedua, model resapan memerlukan banyak parameter; Persampelan mengambil beberapa langkah, yang seterusnya menghasilkan inferens perlahan. Mengambil contoh Stable Diffusion 1.5 (SD) yang dinanti-nantikan, model asasnya mengandungi hampir 1 bilion parameter Kami mengukur model dan membuat inferens pada iPhone 15 Pro mengambil masa hampir 80 saat. Keperluan sumber yang mahal dan pengalaman pengguna yang perlahan sangat mengehadkan senario aplikasinya pada terminal mudah alih
Untuk menyelesaikan masalah di atas, MobileDiffusion mengoptimumkan titik-ke-titik. (1) Sebagai tindak balas kepada masalah saiz model yang besar, kami terutamanya menjalankan banyak eksperimen dan pengoptimuman pada komponen terasnya UNet, termasuk meletakkan penyederhanaan konvolusi yang mahal secara pengiraan dan operasi perhatian pada lapisan bawah, dan menyasarkan pengoptimuman Operasi Peranti Mudah Alih, seperti fungsi pengaktifan, dsb. (2) Sebagai tindak balas kepada masalah bahawa model resapan memerlukan pensampelan berbilang langkah, MobileDiffusion meneroka dan mengamalkan teknologi inferens satu langkah seperti Penyulingan Progresif dan UFOGen terkini.
MobileDiffusion dioptimumkan berdasarkan SD 1.5 UNet yang paling popular dalam komuniti sumber terbuka hari ini. Selepas setiap operasi pengoptimuman, kehilangan prestasi berbanding model asal UNet akan diukur pada masa yang sama. Penunjuk pengukuran termasuk dua metrik yang biasa digunakan: FID dan CLIP.
Perancangan keseluruhan
Di sebelah kiri gambar ialah gambar rajah reka bentuk UNet asal Ia boleh dilihat bahawa ia pada asasnya termasuk diri, konvolusi dan Transformer. Mekanisme daya perhatian dan mekanisme perhatian silang
Idea teras MobileDiffusion untuk pengoptimuman UNet terbahagi kepada dua perkara: 1) Memperkemas Konvolusi Seperti yang kita sedia maklum, Konvolusi pada ruang ciri resolusi tinggi sangat memakan masa, dan Bilangan parameter adalah besar, di sini ia merujuk kepada Konvolusi Penuh; 2) Meningkatkan kecekapan Perhatian. Seperti Convolution, Perhatian tinggi memerlukan pengiraan panjang keseluruhan ruang ciri Kerumitan Perhatian Kendiri adalah berkait tepat dengan panjang rata ruang ciri, dan Perhatian Silang juga berkadar dengan panjang ruang.
Eksperimen telah membuktikan bahawa memindahkan keseluruhan 16 Transformer UNet ke lapisan dalam dengan resolusi ciri yang paling rendah, dan memotong lilitan dalam setiap lapisan, tidak mempunyai kesan yang jelas terhadap prestasi. Kesan yang dicapai ialah: MobileDiffusion mengurangkan 22 konvolusi asal dan 16 Transformer kepada hanya 11 konvolusi dan kira-kira 12 Transformer, dan perhatian ini semuanya dilakukan pada peta ciri resolusi rendah. Kecekapan ini bertambah baik, menghasilkan peningkatan kecekapan 40% dan ricih parameter 40%. Model terakhir ditunjukkan di sebelah kanan. Berikut adalah perbandingan dengan model lain:
Kandungan yang perlu ditulis semula ialah: reka bentuk mikro
Hanya beberapa rekaan novel yang berminat boleh diperkenalkan di sini. teks utama , akan diperkenalkan dengan lebih terperinci. . lapisan tengah, didapati reka bentuk ini bukan sahaja meningkatkan kecekapan pengkomputeran tetapi juga memastikan kualiti lukisan model
Finetune softmax ke dalam relu
Seperti yang kita semua tahu, dalam kebanyakan kes yang tidak dioptimumkan, softmax fungsinya sangat Sukar untuk melakukan pemprosesan selari dan kecekapannya rendah. MobileDiffusion mencadangkan kaedah baharu, iaitu melaraskan secara terus (finetune) fungsi softmax kepada fungsi relu, kerana fungsi relu lebih cekap untuk pengaktifan setiap titik data. Anehnya, dengan hanya kira-kira 10,000 langkah penalaan halus, metrik model bertambah baik dan kualiti imej yang dijana dikekalkan. Oleh itu, berbanding dengan fungsi softmax, kelebihan fungsi relu adalah jelas
Separable Convolution (separable convolution)
MobileDiffuison Kunci untuk menyelaraskan parameter juga adalah penggunaan Seprable Convolution. Teknologi ini telah terbukti sangat berkesan dengan kerja seperti MobileNet, terutamanya pada bahagian mudah alih, tetapi ia biasanya jarang digunakan dalam model generatif. Eksperimen MobileDiffusion mendapati Separable Convolution sangat berkesan dalam mengurangkan parameter, terutamanya apabila ia diletakkan di lapisan paling dalam UNet Analisis membuktikan bahawa tiada kehilangan dalam kualiti model.
Pengoptimuman Persampelan
Kaedah pengoptimuman pensampelan yang paling popular pada masa ini termasuk Penyulingan Progresif dan UFOGen, yang boleh mencapai 8 langkah dan 1 langkah masing-masing. Untuk membuktikan bahawa kaedah persampelan ini masih berkesan walaupun selepas model telah dipermudahkan dengan sangat baik, MobileDiffusion menjalankan pengesahan eksperimen kedua-dua kaedah ini
Eksperimen dan Aplikasi
if Penanda Aras Mudah Alih
boleh berlari paling laju kelajuan pada masa ini Merancang adalah sepantas 0.2 saat!
Ujian Tugasan Hilir
MobileDiffusion meneroka tugas hiliran termasuk ControlNet/Plugin dan LoRA Finetune. Seperti yang dapat dilihat daripada rajah di bawah, selepas pengoptimuman model dan pensampelan, MobileDiffusion masih mengekalkan keupayaan penalaan halus model yang sangat baik.
Ringkasan
Atas ialah kandungan terperinci Imej boleh dipaparkan pada telefon mudah alih dalam masa 0.2 saat Google membina model penyebaran mudah alih terpantas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!