Rumah > Artikel > Peranti teknologi > Model terpantas pada resolusi 1024, model terbuka graf ByteDance Vincent SDXL-Lightning dikeluarkan
. d169d3343a5452
1. Penjanaan imej sepantas kilatAI Generatif memenangi perhatian global dengan keupayaannya untuk mencipta imej yang menakjubkan dan juga video berdasarkan gesaan teks. Model generatif tercanggih semasa bergantung pada resapan, proses berulang yang secara beransur-ansur mengubah hingar menjadi sampel imej. Proses ini memerlukan sumber pengkomputeran yang besar dan lambat Dalam proses menjana sampel imej berkualiti tinggi, masa pemprosesan imej tunggal adalah kira-kira 5 saat, yang biasanya memerlukan berbilang panggilan (20 hingga 40 kali) ke rangkaian saraf yang besar. Rangkaian . Kelajuan ini mengehadkan senario aplikasi yang memerlukan penjanaan masa nyata yang pantas.
Bagaimana untuk meningkatkan kualiti penjanaan sambil mempercepatkanadalah bidang penyelidikan semasa yang hangat dan matlamat teras kerja kami.
SDXL-Kilat menembusi halangan ini melalui teknologi inovatif -Penyulingan Adversarial Progresif
- untuk mencapai kelajuan penjanaan yang tidak pernah berlaku sebelum ini. Model ini mampu menjana imej dengan kualiti dan resolusi yang sangat tinggi dalam hanya 2 atau 4 langkah, mengurangkan kos dan masa pengiraan dengan faktor sepuluh. Kaedah kami juga boleh menjana imej dalam 1 langkah untuk aplikasi sensitif tamat masa, walaupun dengan sedikit pengorbanan dalam kualiti.
speed (20 langkah), model sdxl-lightning (2 langkah)
2. 1 langkah , 2 langkah, 4 langkah dan 8 langkah untuk menjana imej. Lebih banyak langkah inferens, lebih baik kualiti imej.
Berikut adalah hasil daripada 4 langkah -
pergi lori naik balik Seekor ikan di atas a basikal , seni berwarna-warni
Sebuah cawan yang cantik
Monatch
Seekor panda berenang
Sebuah trak pikap menaiki sebuah suis balik gunung
house in the gurun, landskap surreal
The berikut adalah hasil dari 2 langkah - reka bentuk
furniture untuk ruang tamu pukulan sinematik dari raccoon bayi yang memakai jubah paderi Itali yang rumit
Seekor anjing dengan bulu lembut dan mata cerah melompat-lompat mengejar mainan, di ruang tamu yang selesa
Secawan teh yang mengandungi awan tembakan keluarga
Bayi bermain dengan mainan di salji
dengan sebelum Berbanding dengan kaedah lain (Turbo dan LCM), imej yang dijana oleh kaedah kami dipertingkatkan dengan ketara secara terperinci dan lebih setia kepada gaya dan susun atur model generatif asal.3. Berikan kembali kepada masyarakat, model terbuka
Gelombang sumber terbuka dan sumber terbuka telah menjadi kuasa utama dalam menggalakkan perkembangan pesat kecerdasan buatan, dan Bytedance berbangga menjadi sebahagian daripada gelombang ini. Model kami adalah berdasarkan SDXL, pada masa ini model terbuka paling popular untuk imej penjanaan teks, yang sudah mempunyai ekosistem yang berkembang maju. Kini, kami telah memutuskan untuk membuka SDXL-Lightning kepada pembangun, penyelidik dan pengamal kreatif di seluruh dunia supaya mereka boleh mengakses dan menggunakan model ini untuk terus memacu inovasi dan kerjasama merentas industri. Apabila mereka bentuk SDXL-Lightning, kami mempertimbangkankeserasian dengan komuniti model terbuka. Ramai artis dan pembangun dalam komuniti telah mencipta pelbagai model penjanaan imej yang digayakan, seperti gaya kartun dan anime. Untuk menyokong model ini, kami menyediakan SDXL-Lightning sebagai pemalam mempercepatkan, yang boleh disepadukan dengan lancar ke dalam pelbagai gaya model SDXL ini untuk mempercepatkan penjanaan imej untuk pelbagai model.
SDXL-LightningModel ini juga boleh digabungkan dengan pemalam kawalan ControlNet yang sangat popular pada masa ini untuk mencapai penjanaan imej yang sangat pantas dan boleh dikawal.
SDXL-LightningModel ini juga menyokong ComfyUI, perisian generasi paling popular dalam komuniti sumber terbuka Model ini boleh dimuatkan terus untuk digunakan:
Secara teorinya, penjanaan imej ialah proses transformasi beransur-ansur daripada hingar kepada imej yang jelas. Dalam proses ini, rangkaian saraf mempelajari kecerunan pada pelbagai kedudukan dalam aliran transformasi.
Langkah khusus untuk menjana imej adalah seperti berikut:
Mula-mula, kami mengambil sampel bunyi secara rawak di titik permulaan strim, dan kemudian menggunakan rangkaian saraf untuk mengira kecerunan. Berdasarkan kecerunan pada kedudukan semasa, kami membuat pelarasan kecil pada sampel dan kemudian mengulangi proses tersebut. Dengan setiap lelaran, sampel semakin hampir kepada pengedaran imej akhir sehingga imej yang jelas diperolehi.
Gambar: Proses penjanaan (gambar dari: https://www.php.cn/link/5c9b5c47258cf1499b7 Disebabkan oleh kerumitan dan tidak lineariti aliran penjanaan Garis lurus, proses penjanaan mesti sekali Hanya mengambil langkah kecil untuk mengurangkan pengumpulan ralat kecerunan, jadi pengiraan rangkaian saraf yang kerap diperlukan, itulah sebabnya jumlah pengiraan adalah besar
Gambar: Proses lengkung . telah mencadangkan kaedah persampelan yang boleh mengurangkan ralat, manakala yang lain telah cuba membuat aliran penjanaan Walaupun kaedah ini telah mencapai kemajuan, mereka masih memerlukan lebih daripada 10 langkah inferens untuk menghasilkan imej
Kaedah lain ialah penyulingan model. yang mampu menjana imej berkualiti tinggi dalam kurang daripada 10 langkah inferens Berbeza daripada mengira kecerunan di bawah kedudukan aliran semasa, penyulingan model mengubah matlamat ramalan model untuk meramalkan kedudukan aliran lebih jauh seterusnya rangkaian pelajar untuk meramalkan secara langsung rangkaian guru selepas menyelesaikan inferens pelbagai langkah Strategi sebegini boleh mengurangkan bilangan langkah inferens yang diperlukan dengan menggunakan proses ini berulang kali, kita boleh mengurangkan lagi bilangan langkah inferens Penyulingan progresif ralat untuk menguatkan dengan pengumpulan setiap langkah Dengan kurang daripada 8 langkah inferens, imej yang dihasilkan oleh model mula menjadi kabur Untuk menyelesaikan masalah ini, strategi kami adalah untuk tidak memaksa rangkaian pelajar untuk memadankan ramalan dengan tepat. daripada rangkaian guru, tetapi untuk membiarkan rangkaian pelajar memadankan ramalan rangkaian guru secara kebarangkalian selaras dengan rangkaian guru Dalam erti kata lain, rangkaian pelajar dilatih untuk meramalkan kedudukan yang berkemungkinan, walaupun kedudukan ini tidak sepenuhnya tepat, kami tidak menghukumnya. Matlamat ini dicapai melalui latihan lawan Satu rangkaian diskriminatif tambahan diperkenalkan untuk membantu mencapai pemadanan pengedaran output rangkaian pelajar dan guru Ini adalah gambaran ringkas kaedah penyelidikan kami (https:/. /www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452). meneroka cara menggunakan teknologi SDXL-Lightning untuk penjanaan imej Tetapi potensi aplikasi kaedah penyulingan progresif kami tidak terhad kepada imej statik Teknologi inovatif ini juga boleh digunakan untuk penjanaan video, audio dan berkualiti tinggi kandungan pelbagai modal lain. Kami dengan ikhlas menjemput anda untuk mengalami SDXL-Lightning di platform HuggingFace dan menantikan komen dan maklum balas anda yang berharga. Model:
https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7
Kertas: https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452
Atas ialah kandungan terperinci Model terpantas pada resolusi 1024, model terbuka graf ByteDance Vincent SDXL-Lightning dikeluarkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!