Rumah >Peranti teknologi >AI >'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama
Model penjanaan resapan teks-ke-imej, seperti Stable Diffusion, DALL-E 2 dan pertengahan perjalanan, telah berada dalam keadaan pembangunan yang rancak dan mempunyai keupayaan penjanaan teks-ke-imej yang kukuh, tetapi " terbalik ” Kes akan muncul sekali-sekala.
Seperti yang ditunjukkan dalam rajah di bawah, apabila diberi gesaan teks: "Foto warthog", model Stable Diffusion boleh menghasilkan foto warthog yang sepadan, jelas dan realistik. Walau bagaimanapun, apabila kita mengubah suai sedikit gesaan teks ini dan menukarnya kepada: "Foto warthog dan pengkhianat", bagaimana pula dengan warthog? Bagaimana ia menjadi kereta?
Mari kita lihat beberapa contoh seterusnya. Apakah spesies baharu ini?
Apakah yang menyebabkan fenomena aneh ini? Kes kegagalan generasi ini semuanya datang daripada kertas kerja yang diterbitkan baru-baru ini "Stable Diffusion is Unstable":
Dalam karya ini A adversarial berasaskan kecerunan algoritma untuk model teks-ke-imej dicadangkan buat kali pertama. Algoritma ini dengan cekap dan berkesan boleh menjana sejumlah besar gesaan teks yang menyinggung, dan boleh meneroka ketidakstabilan model resapan Stabil dengan berkesan. Algoritma ini mencapai kadar kejayaan serangan sebanyak 91.1% pada gesaan teks pendek dan 81.2% pada gesaan teks panjang. Di samping itu, algoritma ini menyediakan kes yang kaya untuk mengkaji mod kegagalan model penjanaan teks ke imej, meletakkan asas untuk penyelidikan tentang kebolehkawalan penjanaan imej.
Berdasarkan sejumlah besar kes kegagalan penjanaan yang dihasilkan oleh algoritma ini, penyelidik merumuskan empat sebab kegagalan penjanaan, iaitu:
Apabila gesaan (prompt) mengandungi berbilang sasaran generasi, kita sering menghadapi Terdapat isu di mana sasaran tertentu hilang semasa proses penjanaan. Secara teorinya, semua sasaran dalam isyarat yang sama harus berkongsi bunyi awal yang sama. Seperti yang ditunjukkan dalam Rajah 4, penyelidik menjana seribu sasaran kategori pada ImageNet di bawah keadaan hingar awal tetap. Mereka menggunakan imej terakhir yang dijana oleh setiap sasaran sebagai imej rujukan dan mengira skor Indeks Kesamaan Struktur (SSIM) antara imej yang dijana pada setiap langkah masa dan imej yang dijana pada langkah terakhir untuk menunjukkan Perbezaan dalam kelajuan binaan.
Semasa proses penjanaan resapan, penyelidik mendapati bahawa apabila Apabila terdapat persamaan ciri berbutir kasar global atau tempatan antara dua jenis sasaran, masalah akan timbul apabila mengira pemberat perhatian silang. Ini kerana kedua-dua kata nama sasaran mungkin memfokuskan pada blok yang sama pada gambar yang sama pada masa yang sama, mengakibatkan keterjeratan ciri. Sebagai contoh, dalam Rajah 6, bulu dan salmon perak mempunyai persamaan tertentu dalam ciri berbutir kasar, yang menyebabkan bulu dapat terus menyelesaikan tugas penjanaannya dalam langkah kelapan proses penjanaan berdasarkan salmon perak. Untuk dua jenis sasaran tanpa belitan, seperti salmon perak dan ahli silap mata, ahli silap mata tidak dapat menyelesaikan tugas penjanaannya pada imej langkah perantaraan berdasarkan salmon perak.
Dalam bab ini, penyelidik mendalami apabila sesuatu perkataan mempunyai pelbagai makna penjanaan masa. Apa yang mereka dapati ialah, tanpa sebarang gangguan luar, imej yang terhasil sering mewakili makna khusus perkataan itu. Ambil "warthog" sebagai contoh Baris pertama dalam Rajah A4 dijana berdasarkan makna perkataan "warthog".
Walau bagaimanapun, penyelidik juga mendapati bahawa apabila perkataan lain disuntik ke dalam gesaan asal , yang boleh menyebabkan pergeseran semantik. Contohnya, apabila perkataan "pengkhianat" diperkenalkan dalam gesaan yang menerangkan "warthog", kandungan imej yang dijana mungkin menyimpang daripada makna asal "warthog" dan menjana kandungan baharu sepenuhnya.
Dalam Rajah 10, pengkaji memerhati satu fenomena yang menarik. Walaupun dari perspektif manusia, gesaan yang disusun dalam susunan yang berbeza umumnya mempunyai makna yang sama, dan semuanya menggambarkan gambar kucing, terompah dan pistol. Walau bagaimanapun, bagi model bahasa, iaitu pengekod teks CLIP, susunan perkataan mempengaruhi pemahamannya terhadap teks pada tahap tertentu, yang seterusnya mengubah kandungan imej yang dihasilkan. Fenomena ini menunjukkan bahawa walaupun huraian kami konsisten dari segi semantik, model tersebut mungkin menghasilkan pemahaman dan hasil penjanaan yang berbeza disebabkan oleh susunan perkataan yang berbeza. Ini bukan sahaja mendedahkan bahawa cara model memproses bahasa dan memahami semantik adalah berbeza daripada manusia, tetapi juga mengingatkan kita bahawa kita perlu memberi lebih perhatian kepada kesan susunan perkataan apabila mereka bentuk dan menggunakan model sedemikian.
Seperti yang ditunjukkan dalam Rajah 1 di bawah, tanpa mengubah kata nama sasaran asal dalam segera Di bawah premis itu, penyelidik meneruskan proses diskret penggantian atau pengembangan perkataan dengan mempelajari pengedaran Gumbel Softmax, dengan itu memastikan kebolehbezaan penjanaan gangguan Selepas menjana imej, pengelas CLIP dan kehilangan margin digunakan untuk mengoptimumkan ω, bertujuan untuk jana CLIP Untuk imej yang tidak boleh dikelaskan dengan betul, untuk memastikan isyarat yang menyinggung mempunyai persamaan tertentu dengan isyarat bersih, penyelidik telah menggunakan lagi kekangan persamaan semantik dan kekangan kelancaran teks.
Setelah pengedaran ini dipelajari, algoritma dapat mencuba berbilang petua teks serangan untuk petua teks bersih yang sama.
Sila lihat artikel asal untuk butiran lanjut .
Atas ialah kandungan terperinci 'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!