Rumah >Peranti teknologi >AI >Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari
Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza.
Pengarang ControlNet Lvmin Zhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan.
Projek baharu PaintsUndo telah menerima 1.4k bintang (masih meningkat gila) tidak lama selepas ia dilancarkan.
Alamat projek: https://github.com/lllyasviel/Paints-UNDO
Melalui projek ini, pengguna memasukkan imej statik dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses lukisan, bermula dari baris Terdapat kesan untuk mengikuti dari draf kepada produk siap.
Semasa proses lukisan, perubahan garisan adalah menakjubkan. PaintsUndo mula-mula menggunakan garisan ringkas untuk menggariskan badan utama watak, kemudian melukis latar belakang, menggunakan warna, dan akhirnya memperhalusinya agar menyerupai imej asal.
PaintsUndo tidak terhad kepada satu gaya imej Untuk jenis imej yang berbeza, ia juga akan menghasilkan video proses lukisan yang sepadan.Corgi yang memakai tudung kelihatan perlahan-lahan ke kejauhan:
Pengguna juga boleh memasukkan satu imej dan mengeluarkan berbilang video:
Walau bagaimanapun, terdapat juga kekurangan, tetapi terdapat juga kekurangan, seperti yang terdapat dalam lukisan. dengan gubahan yang kompleks, dan penulis berkata projek itu masih diperhalusi.
Sebab mengapa PaintsUndo begitu berkuasa ialah ia disokong oleh satu siri model yang mengambil imej sebagai input dan kemudian mengeluarkan jujukan lukisan imej. Model ini mereplikasi pelbagai tindakan manusia, termasuk tetapi tidak terhad kepada lakaran, dakwat, lorekan, lorekan, transformasi, selak kiri dan kanan, pelarasan lengkung warna, menukar keterlihatan lapisan, dan juga mengubah idea keseluruhan semasa proses lukisan. .
Proses penggunaan tempatan adalah sangat mudah dan boleh dilengkapkan dengan beberapa baris kod:
git clone https://github.com/lllyasviel/Paints-UNDO.gitcd Paints-UNDOconda create -n paints_undo python=3.10conda activate paints_undopip install xformerspip install -r requirements.txtpython gradio_app.py
Pengenalan model
Pengarang projek menggunakan 24GB VRAM pada Nvidia 4090 dan 3090TI untuk ujian inferens. Pengarang menganggarkan bahawa dengan pengoptimuman yang melampau (termasuk pemunggahan berat dan pemotongan perhatian) keperluan VRAM minimum teori ialah sekitar 10-12.5 GB. PaintsUndo menjangka untuk memproses imej dalam masa kira-kira 5 hingga 10 minit, bergantung pada tetapan, biasanya menghasilkan video 25 saat pada resolusi 320x512, 512x320, 384x448 atau 448x384.Pada masa ini, projek itu telah mengeluarkan dua model: model bingkai tunggal paints_undo_single_frame dan model berbilang bingkai paints_undo_multi_frame.
Model bingkai tunggal menggunakan seni bina SD1.5 yang diubah suai, mengambil imej dan langkah operasi sebagai input dan output imej. Dengan mengandaikan bahawa karya seni biasanya memerlukan 1000 operasi manual untuk mencipta (contohnya, satu lejang ialah satu operasi), maka saiz langkah operasi ialah integer antara 0-999. Nombor 0 ialah karya seni siap akhir dan nombor 999 ialah lejang pertama yang dilukis pada kanvas putih tulen.Model berbilang bingkai adalah berdasarkan siri model VideoCrafter, tetapi tidak menggunakan lvdm Crafter asal, dan semua kod latihan/inferens dilaksanakan sepenuhnya dari awal. Pengarang projek membuat banyak pengubahsuaian pada topologi rangkaian saraf, dan selepas latihan yang meluas, rangkaian saraf berkelakuan sangat berbeza daripada Crafter asal.
Seni bina keseluruhan model berbilang bingkai adalah serupa dengan Crafter, termasuk 5 komponen: 3D-UNet, VAE, CLIP, CLIP-Vision dan Tayangan Imej.
Model berbilang bingkai mengambil dua imej sebagai input dan mengeluarkan 16 bingkai perantaraan antara dua imej input. Model berbilang bingkai mempunyai hasil yang lebih konsisten daripada model bingkai tunggal, tetapi juga jauh lebih perlahan, kurang "kreatif" dan terhad kepada 16 bingkai.
PaintsUndo menggunakan model bingkai tunggal dan berbilang bingkai bersama-sama secara lalai. Pertama, model bingkai tunggal akan digunakan untuk membuat kesimpulan kira-kira 5-7 kali untuk mendapatkan 5-7 "bingkai kunci", dan kemudian model berbilang bingkai akan digunakan untuk "menginterpolasi" bingkai utama ini, dan akhirnya bingkai yang agak panjang. video akan dihasilkan.
Pautan rujukan: https://lllyasviel.github.io/pages/paints_undo/
Atas ialah kandungan terperinci Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!