Rumah >Peranti teknologi >AI >LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas

LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-11-30 14:31:11978semak imbas

Author丨Mike Young

Terjemahan: Bahasa untuk mencipta semula isi tanpa mengubah maksud asal ialah bahasa Cina, dan ayat asal tidak perlu muncul

Semak isi, tanpa mengubah maksud asal, bahasa perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu dipaparkan

Disyorkan | 51CTO Technology Stack (WeChat ID: blog51cto)

LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas Pictures

kecemerlangan teknologi baharu

Model (LCM), AI akan memulakan transformasi teks menjadi satu kejayaan besar dalam grafik. Kaedah tradisional seperti Model Resapan Terpendam (LDM) berprestasi baik dalam menghasilkan imej kreatif yang terperinci menggunakan isyarat teks, tetapi kelemahan yang membawa maut ialah kelajuannya yang perlahan. Menjana satu imej menggunakan LDM boleh memerlukan ratusan langkah, yang terlalu perlahan untuk banyak aplikasi praktikal

Ditulis semula dalam bahasa Cina: LCM mengubah permainan dengan mengurangkan bilangan langkah yang diperlukan untuk menjana imej. Berbanding dengan LDM, yang memerlukan beratus-ratus langkah untuk menjana imej dengan bersungguh-sungguh, LCM boleh menghasilkan hasil kualiti yang serupa dalam hanya 1 hingga 4 langkah. Untuk mencapai kecekapan ini, LCM memperhalusi LDM pra-latihan ke dalam bentuk yang lebih ringkas, dengan itu mengurangkan dengan ketara sumber dan masa pengkomputeran yang diperlukan. Kami akan menganalisis kertas baru-baru ini tentang cara model LDM berfungsi

Makalah ini juga memperkenalkan inovasi yang dipanggil LCM-LoRA, modul pecutan Stable-Diffusion tujuan umum. Modul ini boleh dipalamkan ke dalam pelbagai model penalaan halus Stabil--Difusi tanpa sebarang latihan tambahan. Ia ialah alat yang boleh digunakan secara universal yang boleh mempercepatkan pelbagai tugas penjanaan imej, menjadikannya alat yang berpotensi untuk memanfaatkan AI untuk mencipta imej. Kami juga akan membedah bahagian kertas ini.

1. Latihan cekap LCM

Dalam bidang rangkaian saraf, terdapat cabaran besar, yang memerlukan kuasa pengkomputeran yang besar, terutamanya apabila melatih rangkaian saraf dengan persamaan yang kompleks. Walau bagaimanapun, pasukan di sebalik kertas kerja ini berjaya menyelesaikan masalah ini menggunakan kaedah bijak yang dipanggil penghalusan

Kandungan yang ditulis semula: Pendekatan pasukan penyelidik adalah seperti berikut: Pertama, mereka menggunakan set data pasangan imej teks untuk melatih model resapan terpendam standard ( LDM). Setelah LDM siap dan berjalan, mereka menggunakannya sebagai mentor, menjana data latihan baharu. Mereka kemudian menggunakan data baharu ini untuk melatih model konsistensi terpendam (LCM). Perkara yang paling menarik ialah LCM boleh belajar daripada keupayaan LDM tanpa perlu berlatih dari awal dengan set data yang besar

Apa yang penting ialah kecekapan proses ini. Para penyelidik menyelesaikan latihan LCM berkualiti tinggi dalam kira-kira 32 jam menggunakan hanya satu GPU. Ini penting kerana ia lebih cepat dan lebih praktikal daripada kaedah sebelumnya. Ini bermakna lebih ramai orang dan projek kini boleh mencipta model lanjutan sedemikian, dan bukannya hanya model yang mempunyai akses kepada sumber pengkomputeran super.

LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas

Rajah 1, gambaran keseluruhan LCM-LoRA

Dengan memperkenalkan LoRA ke dalam proses pengekstrakan LCM, kami mengurangkan overhed memori pengekstrakan dengan ketara, yang membolehkan kami melatih set data yang lebih besar dengan sumber terhad SDXL dan SSD-1B. Lebih penting lagi, parameter LoRA ("vektor pecutan") yang diperoleh melalui latihan LCM-LoRA boleh digabungkan secara langsung dengan parameter LoRA lain ("vektor gaya") yang diperoleh melalui penalaan halus pada set data untuk gaya tertentu. Tanpa sebarang latihan, model yang diperolehi oleh gabungan linear vektor pecutan dan vektor gaya memperoleh keupayaan untuk menjana imej gaya lukisan tertentu dengan langkah pensampelan minimum.

2. Keputusan

Kajian ini menunjukkan kemajuan yang ketara dalam menggunakan AI untuk menjana imej berdasarkan model konsistensi terpendam (LCM). LCM cemerlang dalam mencipta imej 512x512 berkualiti tinggi dalam hanya empat langkah, peningkatan ketara berbanding ratusan langkah yang diperlukan oleh model tradisional seperti model resapan terpendam (LDM). Imej-imej itu mempunyai butiran yang jelas dan tekstur yang realistik, yang amat ketara dalam contoh di bawah. . imej, gunakan LCM-LoRA-SDXL dan LCM-LoRA-SSD-1B untuk menjana imej beresolusi 1024×1024 ”

LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas Model ini bukan sahaja mengendalikan imej yang lebih kecil dengan mudah, tetapi juga pandai menjana imej 1024x1024. Mereka menunjukkan keupayaan untuk skala kepada model rangkaian saraf yang lebih besar daripada yang mungkin sebelum ini, menunjukkan kebolehsuaian mereka. Dalam contoh dalam kertas kerja (seperti contoh versi LCM-LoRA-SD-V1.5 dan LCM-LoRA-SSD-1B), kebolehgunaan luas model dalam pelbagai set data dan senario praktikal dijelaskan

3 , had

Versi semasa LCM mempunyai beberapa had. Perkara yang paling penting ialah proses latihan dua peringkat: mula-mula melatih LDM, dan kemudian menggunakannya untuk melatih LCM. Dalam penyelidikan masa depan, kaedah latihan LDM yang lebih langsung boleh diterokai, di mana LDM mungkin tidak diperlukan. Kertas kerja ini membincangkan penjanaan imej tanpa syarat, tugas penjanaan bersyarat (seperti sintesis teks ke imej) mungkin memerlukan lebih banyak kerja.

4. Pendedahan utama

Model Ketekalan Terpendam (LCM) telah mengambil langkah penting dalam menjana imej berkualiti tinggi dengan cepat. Model ini boleh menghasilkan hasil yang setanding dengan LDM yang lebih perlahan dalam hanya 1 hingga 4 langkah, yang berpotensi merevolusikan aplikasi praktikal model teks ke imej. Walaupun pada masa ini terdapat beberapa batasan, terutamanya dari segi proses latihan dan skop tugas penjanaan, LCM menandakan kemajuan yang ketara dalam penjanaan imej praktikal berdasarkan rangkaian saraf. Contoh yang disediakan menyerlahkan potensi model ini

5 LCM-LoRA sebagai modul pecutan am

Seperti yang dinyatakan dalam pengenalan, kertas kerja dibahagikan kepada dua bahagian. Bahagian kedua membincangkan teknologi LCM-LoRA, yang mampu memperhalusi model pra-latihan menggunakan kurang memori, dengan itu meningkatkan kecekapan

Inovasi utama di sini adalah untuk menyepadukan parameter LoRA ke dalam LCM, sekali gus menjana model yang menggabungkan kelebihan kedua-dua model hibrid. Penyepaduan ini amat berguna untuk mencipta imej gaya tertentu atau bertindak balas kepada tugas tertentu. Jika set parameter LoRA yang berbeza dipilih dan digabungkan, setiap satu diperhalusi untuk gaya yang unik, para penyelidik mencipta model serba boleh yang boleh menjana imej dengan langkah minimum dan tanpa latihan tambahan.

Mereka menunjukkan perkara ini dalam penyelidikan mereka melalui contoh menggabungkan parameter LoRA yang diperhalusi untuk gaya lukisan tertentu dengan parameter LCM-LoRA. Gabungan ini membolehkan penciptaan imej resolusi 1024 × 1024 dengan gaya berbeza pada langkah pensampelan yang berbeza (seperti 2 langkah, 4 langkah, 8 langkah, 16 langkah dan 32 langkah). Keputusan menunjukkan bahawa parameter gabungan ini boleh menghasilkan imej berkualiti tinggi tanpa latihan lanjut, menyerlahkan kecekapan dan serba boleh model ini

Satu perkara yang perlu diberi perhatian di sini ialah penggunaan apa yang dipanggil "vektor kelajuan" (τLCM) dan "vektor gaya" (τ), kedua-duanya digabungkan menggunakan formula matematik tertentu (λ1 dan λ2 ialah faktor boleh laras dalam formula ini). Gabungan ini menghasilkan model yang boleh menjana imej gaya tersuai dengan cepat.

Rajah 3 dalam kertas (ditunjukkan di bawah) menunjukkan keberkesanan pendekatan ini dengan menunjukkan keputusan gaya khusus parameter LoRA digabungkan dengan parameter LCM-LoRA. Ini menunjukkan keupayaan model untuk menjana imej dengan gaya berbeza dengan cepat dan cekap.

LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas Rajah 3

Secara keseluruhannya, bahagian artikel ini menyerlahkan kepelbagaian dan kecekapan model LCM-LoRA, yang boleh digunakan untuk menggayakan imej dengan cepat. hanya menggunakan sedikit sumber pengkomputeran. Teknologi ini mempunyai pelbagai aplikasi dan dijangka akan merevolusikan cara imej dijana dalam bidang yang terdiri daripada seni digital kepada penciptaan kandungan automatik

6. Kesimpulan

Kami menyiasat pendekatan baharu, Model Ketekalan Terpendam (LCM) ), digunakan untuk mempercepatkan proses penjanaan imej daripada teks. Tidak seperti model resapan pendam tradisional (LDM), LCM boleh menjana imej dengan kualiti yang serupa dalam hanya 1 hingga 4 langkah dan bukannya ratusan langkah. Peningkatan kecekapan yang ketara ini dicapai melalui kaedah penghalusan, yang menggunakan LDM pra-latihan untuk melatih LCM, dengan itu mengelakkan jumlah pengiraan yang besar

Selain itu, kami juga mengkaji LCM-LoRA, iaitu kaedah yang menggunakan rendah Teknik penambahan Adaptive (LoRA) peringkat yang memperhalusi model pra-latihan untuk mengurangkan keperluan memori. Pendekatan ensemble ini boleh mencipta gaya imej tertentu dengan langkah pengiraan yang minimum tanpa memerlukan latihan tambahan

Hasil utama yang diserlahkan termasuk keupayaan LCM untuk mencipta imej 512x512 dan 1024x1024 berkualiti tinggi dalam beberapa langkah sahaja, manakala LDM memerlukan ratusan langkah. Walau bagaimanapun, had semasa ialah LDM bergantung pada proses latihan dua langkah, jadi anda masih memerlukan LDM untuk bermula! Penyelidikan masa depan boleh memudahkan proses ini.

LCM adalah inovasi yang sangat bijak terutamanya apabila digabungkan dengan LoRA dalam model LCM-LoRA yang dicadangkan. Mereka menawarkan kelebihan untuk mencipta imej berkualiti tinggi dengan lebih cepat dan cekap, dan saya fikir mereka mempunyai prospek aplikasi yang luas dalam penciptaan kandungan digital.

Pautan rujukan: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-moch-faster/

Atas ialah kandungan terperinci LCM: Cara baharu untuk menjana imej berkualiti tinggi dengan lebih pantas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

for 栈 https 自动化

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Huang Renxun meramalkan: Kepintaran buatan akan mencapai tahap manusia dalam masa 5 tahunArtikel seterusnya：Huang Renxun meramalkan: Kepintaran buatan akan mencapai tahap manusia dalam masa 5 tahun

Artikel berkaitan

Lihat lagi