Rumah > Artikel > Peranti teknologi > Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya
Dengan kemunculan model imej teks berskala besar, menghasilkan imej yang menarik menjadi sangat mudah. Apa yang perlu dilakukan oleh pengguna ialah memasukkan gesaan mudah dengan pergerakan jari mereka. Selepas mendapatkan imej melalui beberapa siri operasi, kami pasti akan mempunyai beberapa soalan: Bolehkah imej yang dijana berdasarkan segera memenuhi keperluan kami? Apakah jenis seni bina yang perlu kita bina untuk mengendalikan pelbagai keperluan yang dibangkitkan oleh pengguna? Bolehkah model besar mengekalkan kelebihan dan keupayaan yang diperoleh daripada berbilion imej dalam tugas tertentu?
Untuk menjawab soalan-soalan ini, penyelidik dari Stanford menjalankan sejumlah besar penyiasatan ke atas pelbagai aplikasi pemprosesan imej dan mencapai tiga penemuan berikut:
Pertama sekali, data yang tersedia dalam medan tertentu sebenarnya kurang daripada data untuk melatih model umum Ini terutamanya ditunjukkan dalam fakta bahawa sebagai contoh, set data terbesar pada masalah tertentu (seperti pemahaman isyarat,. dsb.) biasanya kurang daripada 100k, yang lebih kecil daripada skala besar, Set data imej teks berbilang mod LAION 5B ialah 5 × 10^4 tertib magnitud lebih kecil. Ini memerlukan rangkaian saraf menjadi teguh untuk mengelakkan model terlampau pasang dan mempunyai generalisasi yang baik apabila menyasarkan masalah khusus.
Kedua, apabila menggunakan pemprosesan dipacu data bagi tugas imej, gugusan pengkomputeran yang besar tidak selalu tersedia. Di sinilah kaedah latihan pantas menjadi penting, kaedah yang boleh mengoptimumkan model besar untuk tugasan tertentu dalam masa dan ruang ingatan yang boleh diterima. Tambahan pula, penalaan halus, pembelajaran pemindahan dan operasi lain mungkin diperlukan dalam pemprosesan seterusnya.
Akhir sekali, pelbagai masalah yang dihadapi semasa pemprosesan imej akan ditakrifkan dengan cara yang berbeza. Apabila menyelesaikan masalah ini, walaupun algoritma penyebaran imej boleh dilaraskan dengan cara "prosedur", contohnya, mengekang proses denoising, mengedit pengaktifan perhatian berbilang kepala, dll., peraturan buatan tangan ini pada dasarnya ditentukan oleh arahan manusia , Memandangkan beberapa tugas khusus seperti imej kedalaman, pose-orang, dsb., masalah ini pada asasnya memerlukan tafsiran input mentah ke dalam pemahaman peringkat objek atau peringkat pemandangan, yang menjadikan pendekatan prosedur buatan tangan kurang sesuai. Oleh itu, untuk menyediakan penyelesaian dalam pelbagai tugas, pembelajaran hujung ke hujung adalah penting.
Berdasarkan penemuan di atas, kertas kerja ini mencadangkan seni bina rangkaian saraf hujung ke hujung ControlNet, yang boleh mengawal model resapan (seperti Resapan Stabil) dengan menambahkan syarat tambahan, dengan itu menambah baik graf kesan gambar, dan boleh menjana gambar berwarna penuh daripada lukisan garisan, menjana gambar dengan struktur kedalaman yang sama, dan mengoptimumkan penjanaan tangan melalui titik utama tangan.
Alamat kertas: https://arxiv.org/pdf/2302.05543.pdf
Projek Alamat: https://github.com/lllyasviel/ControlNet
Jadi apakah kesan ControlNet?
Pengesanan tepi canny: Dengan mengekstrak lukisan garisan daripada imej asal, anda boleh menjana imej dengan komposisi yang sama.
Pengesanan kedalaman: Dengan mengekstrak maklumat kedalaman dalam imej asal, graf dengan struktur kedalaman yang sama boleh dihasilkan .
ControlNet dengan segmentasi semantik:
Menggunakan The deep berasaskan pembelajaran Transformasi Hough mengesan garis lurus dari Places2 dan kemudian menggunakan BLIP untuk menjana sari kata.
Ikon pengesanan tepi HED.
Ilustrasi pengecaman postur manusia.
ControlNet ialah seni bina rangkaian saraf yang mempertingkatkan model resapan imej terlatih dengan keadaan khusus tugas. Mari kita lihat struktur asas ControlNet.
ControlNet memanipulasi keadaan input blok rangkaian saraf, seterusnya mengawal kelakuan keseluruhan keseluruhan rangkaian saraf. Di sini "blok rangkaian" merujuk kepada sekumpulan lapisan saraf yang disatukan sebagai unit biasa untuk membina rangkaian saraf, seperti blok resnet, blok perhatian berbilang kepala dan blok Transformer.
Ambil ciri 2D sebagai contoh, diberikan peta ciri x ϵ R^h×w×c, dengan {h, w, c} ialah ketinggian, lebar dan bilangan saluran masing-masing. Blok rangkaian saraf F (・; Θ) dengan set parameter Θ mengubah x menjadi peta ciri y yang lain seperti ditunjukkan dalam persamaan (1) di bawah.
Proses ini ditunjukkan dalam Rajah 2-(a) di bawah.
Blok rangkaian saraf disambungkan oleh lapisan lilitan unik yang dipanggil "sifar lilitan", iaitu berat 1×1 lapisan konvolusi dengan permulaan sifar dan berat sebelah. Penyelidik mewakili operasi lilitan sifar sebagai Z (・;・) dan menggunakan dua contoh parameter {Θ_z1, Θ_z2} untuk membentuk struktur ControlNet, seperti yang ditunjukkan dalam formula berikut (2).
di mana y_c menjadi output bagi blok rangkaian saraf, seperti ditunjukkan dalam Rajah 2-(b) di bawah.
ControlNet dalam model penyebaran imej
Penyelidik mengambil Stable Diffusion sebagai contoh untuk memperkenalkan cara menggunakan kawalan ControlNet Model penyebaran berskala besar dengan keadaan khusus tugas. Stable Diffusion ialah model resapan teks-ke-imej berskala besar yang dilatih pada berbilion-bilion imej, pada asasnya U-net yang terdiri daripada pengekod, blok perantaraan dan penyahkod bersambung baki.
Seperti yang ditunjukkan dalam Rajah 3 di bawah, penyelidik menggunakan ControlNet untuk mengawal setiap lapisan U-net. Ambil perhatian bahawa cara ControlNet disambungkan di sini adalah cekap dari segi pengiraan: memandangkan pemberat asal dikunci, pengiraan kecerunan pada pengekod asal tidak memerlukan latihan. Dan kerana separuh daripada pengiraan kecerunan pada model asal dikurangkan, latihan boleh dipercepatkan dan memori GPU boleh disimpan. Melatih model Stable Diffusion menggunakan ControlNet hanya memerlukan lebih kurang 23% lebih memori GPU dan 34% lebih masa setiap lelaran latihan (diuji pada satu Nvidia A100 PCIE 40G).
Khususnya, penyelidik menggunakan ControlNet untuk mencipta 12 blok pengekodan boleh dilatih dan 1 salinan blok perantaraan Stable Diffusion. 12 blok pengekodan datang dalam 4 resolusi, 64×64, 32×32, 16×16, dan 8×8, dengan 3 blok dalam setiap resolusi. Output ditambah pada U-net dengan 12 sambungan baki dan 1 blok perantaraan. Memandangkan Stable Diffusion ialah struktur U-net biasa, kemungkinan seni bina ControlNet ini boleh digunakan dalam model resapan lain.
Latihan dan Meningkatkan Latihan
Memandangkan imej z_0, algoritma resapan menambah hingar pada imej secara berperingkat dan menghasilkan hingar Imej z_t, t ialah bilangan kali hingar ditambah. Apabila t cukup besar, imej menghampiri hingar tulen. Memandangkan satu set syarat termasuk langkah masa t, gesaan teks c_t, dan keadaan khusus tugas c_f, algoritma resapan imej mempelajari rangkaian ϵ_θ untuk meramalkan hingar yang ditambahkan pada imej bising z_t, seperti ditunjukkan dalam Persamaan (10) di bawah.
Semasa proses latihan, penyelidik secara rawak menggantikan 50% gesaan teks c_t dengan rentetan kosong, yang bermanfaat kepada keupayaan ControlNet untuk mengenal pasti kandungan semantik daripada peta keadaan input.
Selain itu, penyelidik juga membincangkan beberapa strategi untuk meningkatkan latihan ControlNets, terutamanya apabila peranti pengkomputeran sangat terhad (seperti komputer riba) atau sangat berkuasa (seperti dengan GPU berskala besar yang tersedia. ).
Sila rujuk kertas asal untuk butiran lanjut teknikal.
Atas ialah kandungan terperinci Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!