Rumah > Artikel > Peranti teknologi > InstantID yang pernah popular mempunyai cara baharu untuk bermain: penjanaan imej bergaya, yang telah menjadi sumber terbuka
Pasukan asal InstantID melancarkan kaedah baharu untuk penghijrahan gaya yang dipanggil InstantStyle.
Penjanaan imej yang digayakan sering dipanggil pemindahan gaya, dan matlamatnya adalah untuk menghasilkan imej yang konsisten dalam gaya dengan imej rujukan dan konsisten dengan kandungan imej asal. Teknologi ini berdasarkan kaedah penyebaran (seperti LoRA) untuk latihan kelompok data gaya yang sama dan tidak boleh dipindahkan ke gaya baharu. Atau berdasarkan operasi penyongsangan (seperti StyleAlign), dengan memulihkan imej gaya kepada hingar terpendam, K dan V yang diperoleh melalui perambatan ke hadapan digunakan untuk menggantikan imej gaya dalam penjanaan. Kaedah ini sering merendahkan gaya penjanaan disebabkan oleh operasi penyongsangan.
Baru-baru ini, pasukan asal InstantID melancarkan kaedah pemindahan gaya baharu yang dipanggil InstantStyle. Tidak seperti Face ID, ia adalah rangka kerja suntikan gaya imej umum yang menggunakan dua teknik mudah tetapi sangat berkesan untuk mencapai pemisahan gaya dan kandungan yang berkesan daripada imej rujukan. Kaedah ini menyediakan teknik yang mudah tetapi sangat berkesan untuk mencapai pemisahan gaya dan kandungan yang berkesan daripada imej rujukan, sekali gus mencapai gabungan gaya dan kandungan yang berkesan.
Kertas: InstantStyle: Makan Tengahari Percuma ke arah Pemeliharaan Gaya dalam Penjanaan Teks-ke-Imej
Alamat kertas: https://huggingface.co/papers/2404.0273 ://instantstyle.github.io/
Pautan kod: https://github.com/InstantStyle/InstantStyle
Alamat demo: https://huggingface.co/spaces/InstantX/InstantStyle
Akhirnya, diilhamkan oleh kaedah B-LoRA, penulis menganalisis dengan teliti kesan suntikan Penyesuai IP pada setiap lapisan, dan terkejut apabila mendapati terdapat dua lapisan bebas yang masing-masing bertindak balas terhadap maklumat susun atur gaya dan ruang. Untuk tujuan ini, penulis memperkenalkan kaedah yang dicadangkan.
Pengenalan kaedahBerdasarkan pemerhatian dan eksperimen di atas, penulis mencadangkan kaedah InstantStyle, seperti yang ditunjukkan dalam rajah Inti kaedah ini mengandungi dua modul:
: menggunakan penolakan ciri. CLIP Ciri terbiar, melaksanakan penolakan ciri secara eksplisit, mengalih keluar maklumat kandungan dalam ciri imej dan mengurangkan kesan kandungan imej rujukan pada imej yang dijana. Berbanding dengan ketidakpastian gaya, maklumat kandungan selalunya mudah untuk diterangkan hanya melalui teks, jadi pengekod teks CLIP boleh digunakan untuk mengekstrak ciri kandungan untuk penyahgandingan.(2) Suntikan lapisan gaya sahaja: Suntikan ciri hanya diselesaikan dalam lapisan gaya tertentu, secara tersirat mencapai penyahgandingan gaya dan kandungan. Berhampiran blok pertengahan UNet, pengarang menemui dua lapisan khusus yang masing-masing mengawal gaya dan susun atur ruang, dan mendapati bahawa dalam sesetengah gaya, susun atur ruang mungkin juga jenis gaya.
Secara keseluruhannya, idea InstantStyle agak mudah dan mudah difahami Dengan hanya beberapa baris kod, ia mengurangkan masalah kebocoran kandungan yang paling menyusahkan dalam migrasi gaya.
Hasil eksperimenPengarang menunjukkan hasil penjanaan dua strategi dalam artikel kedua-dua strategi ini tidak terhad kepada model tertentu dan boleh digunakan secara berasingan dan bebas, dan kedua-duanya mencapai hasil yang cemerlang. Hasil penolakan ciri:
Hanya suntikan lapisan gaya:
Perbandingan dengan kaedah terkemuka semasa:
Penggayaan berdasarkan imej asal: gameplay
InstantStyle sudah disediakan Pembangun boleh cari pelaksanaan kod kaya terus melalui GitHub, termasuk Wenshengtu, Tushengtu dan Inpainting. Baru-baru ini, ia juga telah digunakan sebagai alat penggayaan yang disyorkan oleh projek penjanaan video AnyV2V. Untuk pengguna komuniti, InstantStyle juga menyokong ComfyUI secara asli (pengarang nod ini juga merupakan pengarang bersama InstantStyle), dan pengguna boleh mencubanya dengan cepat dengan mengemas kini nod Penyesuai IP.
Sebagai pengarang InstantID, kenapa kami tidak dijenamakan bersama InstantID Berbanding dengan InstantID yang hanya mengawal gaya yang dihasilkan melalui teks, InstantStyle sudah pasti boleh menjadikan gaya lebih pelbagai. Pasukan pengarang secara rasmi akan menyokong fungsi penggayaan wajah selepas bintang GitHub mencapai 1,000. Penulis juga secara rasmi menyokong Demo Huggingface dan boleh dicuba secara online.
Atas ialah kandungan terperinci InstantID yang pernah popular mempunyai cara baharu untuk bermain: penjanaan imej bergaya, yang telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!