Rumah >Peranti teknologi >AI >LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas
Author丨Mike Young
Terjemahan: Bahasa untuk mencipta semula isi tanpa mengubah maksud asal ialah bahasa Cina, dan ayat asal tidak perlu muncul
Semak isi, tanpa mengubah maksud asal, bahasa perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu dipaparkan
Disyorkan | 51CTO Technology Stack (WeChat ID: blog51cto)
Pictures
kecemerlangan teknologi baharuModel (LCM), AI akan memulakan transformasi teks menjadi satu kejayaan besar dalam grafik. Kaedah tradisional seperti Model Resapan Terpendam (LDM) berprestasi baik dalam menghasilkan imej kreatif yang terperinci menggunakan isyarat teks, tetapi kelemahan yang membawa maut ialah kelajuannya yang perlahan. Menjana satu imej menggunakan LDM boleh memerlukan ratusan langkah, yang terlalu perlahan untuk banyak aplikasi praktikal
Ditulis semula dalam bahasa Cina: LCM mengubah permainan dengan mengurangkan bilangan langkah yang diperlukan untuk menjana imej. Berbanding dengan LDM, yang memerlukan beratus-ratus langkah untuk menjana imej dengan bersungguh-sungguh, LCM boleh menghasilkan hasil kualiti yang serupa dalam hanya 1 hingga 4 langkah. Untuk mencapai kecekapan ini, LCM memperhalusi LDM pra-latihan ke dalam bentuk yang lebih ringkas, dengan itu mengurangkan dengan ketara sumber dan masa pengkomputeran yang diperlukan. Kami akan menganalisis kertas baru-baru ini tentang cara model LDM berfungsi
1. Latihan cekap LCM
Dalam bidang rangkaian saraf, terdapat cabaran besar, yang memerlukan kuasa pengkomputeran yang besar, terutamanya apabila melatih rangkaian saraf dengan persamaan yang kompleks. Walau bagaimanapun, pasukan di sebalik kertas kerja ini berjaya menyelesaikan masalah ini menggunakan kaedah bijak yang dipanggil penghalusan
Kandungan yang ditulis semula: Pendekatan pasukan penyelidik adalah seperti berikut: Pertama, mereka menggunakan set data pasangan imej teks untuk melatih model resapan terpendam standard ( LDM). Setelah LDM siap dan berjalan, mereka menggunakannya sebagai mentor, menjana data latihan baharu. Mereka kemudian menggunakan data baharu ini untuk melatih model konsistensi terpendam (LCM). Perkara yang paling menarik ialah LCM boleh belajar daripada keupayaan LDM tanpa perlu berlatih dari awal dengan set data yang besar
Apa yang penting ialah kecekapan proses ini. Para penyelidik menyelesaikan latihan LCM berkualiti tinggi dalam kira-kira 32 jam menggunakan hanya satu GPU. Ini penting kerana ia lebih cepat dan lebih praktikal daripada kaedah sebelumnya. Ini bermakna lebih ramai orang dan projek kini boleh mencipta model lanjutan sedemikian, dan bukannya hanya model yang mempunyai akses kepada sumber pengkomputeran super.
Rajah 1, gambaran keseluruhan LCM-LoRA
2. Keputusan
Kajian ini menunjukkan kemajuan yang ketara dalam menggunakan AI untuk menjana imej berdasarkan model konsistensi terpendam (LCM). LCM cemerlang dalam mencipta imej 512x512 berkualiti tinggi dalam hanya empat langkah, peningkatan ketara berbanding ratusan langkah yang diperlukan oleh model tradisional seperti model resapan terpendam (LDM). Imej-imej itu mempunyai butiran yang jelas dan tekstur yang realistik, yang amat ketara dalam contoh di bawah. . imej, gunakan LCM-LoRA-SDXL dan LCM-LoRA-SSD-1B untuk menjana imej beresolusi 1024×1024 ”
Model ini bukan sahaja mengendalikan imej yang lebih kecil dengan mudah, tetapi juga pandai menjana imej 1024x1024. Mereka menunjukkan keupayaan untuk skala kepada model rangkaian saraf yang lebih besar daripada yang mungkin sebelum ini, menunjukkan kebolehsuaian mereka. Dalam contoh dalam kertas kerja (seperti contoh versi LCM-LoRA-SD-V1.5 dan LCM-LoRA-SSD-1B), kebolehgunaan luas model dalam pelbagai set data dan senario praktikal dijelaskan
3 , hadVersi semasa LCM mempunyai beberapa had. Perkara yang paling penting ialah proses latihan dua peringkat: mula-mula melatih LDM, dan kemudian menggunakannya untuk melatih LCM. Dalam penyelidikan masa depan, kaedah latihan LDM yang lebih langsung boleh diterokai, di mana LDM mungkin tidak diperlukan. Kertas kerja ini membincangkan penjanaan imej tanpa syarat, tugas penjanaan bersyarat (seperti sintesis teks ke imej) mungkin memerlukan lebih banyak kerja.
Model Ketekalan Terpendam (LCM) telah mengambil langkah penting dalam menjana imej berkualiti tinggi dengan cepat. Model ini boleh menghasilkan hasil yang setanding dengan LDM yang lebih perlahan dalam hanya 1 hingga 4 langkah, yang berpotensi merevolusikan aplikasi praktikal model teks ke imej. Walaupun pada masa ini terdapat beberapa batasan, terutamanya dari segi proses latihan dan skop tugas penjanaan, LCM menandakan kemajuan yang ketara dalam penjanaan imej praktikal berdasarkan rangkaian saraf. Contoh yang disediakan menyerlahkan potensi model ini
Seperti yang dinyatakan dalam pengenalan, kertas kerja dibahagikan kepada dua bahagian. Bahagian kedua membincangkan teknologi LCM-LoRA, yang mampu memperhalusi model pra-latihan menggunakan kurang memori, dengan itu meningkatkan kecekapan
Inovasi utama di sini adalah untuk menyepadukan parameter LoRA ke dalam LCM, sekali gus menjana model yang menggabungkan kelebihan kedua-dua model hibrid. Penyepaduan ini amat berguna untuk mencipta imej gaya tertentu atau bertindak balas kepada tugas tertentu. Jika set parameter LoRA yang berbeza dipilih dan digabungkan, setiap satu diperhalusi untuk gaya yang unik, para penyelidik mencipta model serba boleh yang boleh menjana imej dengan langkah minimum dan tanpa latihan tambahan.
Mereka menunjukkan perkara ini dalam penyelidikan mereka melalui contoh menggabungkan parameter LoRA yang diperhalusi untuk gaya lukisan tertentu dengan parameter LCM-LoRA. Gabungan ini membolehkan penciptaan imej resolusi 1024 × 1024 dengan gaya berbeza pada langkah pensampelan yang berbeza (seperti 2 langkah, 4 langkah, 8 langkah, 16 langkah dan 32 langkah). Keputusan menunjukkan bahawa parameter gabungan ini boleh menghasilkan imej berkualiti tinggi tanpa latihan lanjut, menyerlahkan kecekapan dan serba boleh model ini
Satu perkara yang perlu diberi perhatian di sini ialah penggunaan apa yang dipanggil "vektor kelajuan" (τLCM) dan "vektor gaya" (τ), kedua-duanya digabungkan menggunakan formula matematik tertentu (λ1 dan λ2 ialah faktor boleh laras dalam formula ini). Gabungan ini menghasilkan model yang boleh menjana imej gaya tersuai dengan cepat.
Rajah 3 dalam kertas (ditunjukkan di bawah) menunjukkan keberkesanan pendekatan ini dengan menunjukkan keputusan gaya khusus parameter LoRA digabungkan dengan parameter LCM-LoRA. Ini menunjukkan keupayaan model untuk menjana imej dengan gaya berbeza dengan cepat dan cekap.
Rajah 3
Secara keseluruhannya, bahagian artikel ini menyerlahkan kepelbagaian dan kecekapan model LCM-LoRA, yang boleh digunakan untuk menggayakan imej dengan cepat. hanya menggunakan sedikit sumber pengkomputeran. Teknologi ini mempunyai pelbagai aplikasi dan dijangka akan merevolusikan cara imej dijana dalam bidang yang terdiri daripada seni digital kepada penciptaan kandungan automatik
Kami menyiasat pendekatan baharu, Model Ketekalan Terpendam (LCM) ), digunakan untuk mempercepatkan proses penjanaan imej daripada teks. Tidak seperti model resapan pendam tradisional (LDM), LCM boleh menjana imej dengan kualiti yang serupa dalam hanya 1 hingga 4 langkah dan bukannya ratusan langkah. Peningkatan kecekapan yang ketara ini dicapai melalui kaedah penghalusan, yang menggunakan LDM pra-latihan untuk melatih LCM, dengan itu mengelakkan jumlah pengiraan yang besar
Selain itu, kami juga mengkaji LCM-LoRA, iaitu kaedah yang menggunakan rendah Teknik penambahan Adaptive (LoRA) peringkat yang memperhalusi model pra-latihan untuk mengurangkan keperluan memori. Pendekatan ensemble ini boleh mencipta gaya imej tertentu dengan langkah pengiraan yang minimum tanpa memerlukan latihan tambahan
Hasil utama yang diserlahkan termasuk keupayaan LCM untuk mencipta imej 512x512 dan 1024x1024 berkualiti tinggi dalam beberapa langkah sahaja, manakala LDM memerlukan ratusan langkah. Walau bagaimanapun, had semasa ialah LDM bergantung pada proses latihan dua langkah, jadi anda masih memerlukan LDM untuk bermula! Penyelidikan masa depan boleh memudahkan proses ini.
LCM adalah inovasi yang sangat bijak terutamanya apabila digabungkan dengan LoRA dalam model LCM-LoRA yang dicadangkan. Mereka menawarkan kelebihan untuk mencipta imej berkualiti tinggi dengan lebih cepat dan cekap, dan saya fikir mereka mempunyai prospek aplikasi yang luas dalam penciptaan kandungan digital.
Pautan rujukan: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-moch-faster/
Atas ialah kandungan terperinci LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!