


'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama
Model penjanaan resapan teks-ke-imej, seperti Stable Diffusion, DALL-E 2 dan pertengahan perjalanan, telah berada dalam keadaan pembangunan yang rancak dan mempunyai keupayaan penjanaan teks-ke-imej yang kukuh, tetapi " terbalik ” Kes akan muncul sekali-sekala.
Seperti yang ditunjukkan dalam rajah di bawah, apabila diberi gesaan teks: "Foto warthog", model Stable Diffusion boleh menghasilkan foto warthog yang sepadan, jelas dan realistik. Walau bagaimanapun, apabila kita mengubah suai sedikit gesaan teks ini dan menukarnya kepada: "Foto warthog dan pengkhianat", bagaimana pula dengan warthog? Bagaimana ia menjadi kereta?
Mari kita lihat beberapa contoh seterusnya. Apakah spesies baharu ini?
Apakah yang menyebabkan fenomena aneh ini? Kes kegagalan generasi ini semuanya datang daripada kertas kerja yang diterbitkan baru-baru ini "Stable Diffusion is Unstable":
- Alamat kertas: https://arxiv.org/abs/2306.02583
Dalam karya ini A adversarial berasaskan kecerunan algoritma untuk model teks-ke-imej dicadangkan buat kali pertama. Algoritma ini dengan cekap dan berkesan boleh menjana sejumlah besar gesaan teks yang menyinggung, dan boleh meneroka ketidakstabilan model resapan Stabil dengan berkesan. Algoritma ini mencapai kadar kejayaan serangan sebanyak 91.1% pada gesaan teks pendek dan 81.2% pada gesaan teks panjang. Di samping itu, algoritma ini menyediakan kes yang kaya untuk mengkaji mod kegagalan model penjanaan teks ke imej, meletakkan asas untuk penyelidikan tentang kebolehkawalan penjanaan imej.
Berdasarkan sejumlah besar kes kegagalan penjanaan yang dihasilkan oleh algoritma ini, penyelidik merumuskan empat sebab kegagalan penjanaan, iaitu:
- Perbezaan dalam kelajuan penjanaan
- Persamaan ciri berbutir kasar
- Kekaburan perkataan
- Kedudukan perkataan dalam gesaan
Perbezaan dalam kelajuan penjanaan
Apabila gesaan (prompt) mengandungi berbilang sasaran generasi, kita sering menghadapi Terdapat isu di mana sasaran tertentu hilang semasa proses penjanaan. Secara teorinya, semua sasaran dalam isyarat yang sama harus berkongsi bunyi awal yang sama. Seperti yang ditunjukkan dalam Rajah 4, penyelidik menjana seribu sasaran kategori pada ImageNet di bawah keadaan hingar awal tetap. Mereka menggunakan imej terakhir yang dijana oleh setiap sasaran sebagai imej rujukan dan mengira skor Indeks Kesamaan Struktur (SSIM) antara imej yang dijana pada setiap langkah masa dan imej yang dijana pada langkah terakhir untuk menunjukkan Perbezaan dalam kelajuan binaan.
Kesamaan ciri berbutir kasar
Semasa proses penjanaan resapan, penyelidik mendapati bahawa apabila Apabila terdapat persamaan ciri berbutir kasar global atau tempatan antara dua jenis sasaran, masalah akan timbul apabila mengira pemberat perhatian silang. Ini kerana kedua-dua kata nama sasaran mungkin memfokuskan pada blok yang sama pada gambar yang sama pada masa yang sama, mengakibatkan keterjeratan ciri. Sebagai contoh, dalam Rajah 6, bulu dan salmon perak mempunyai persamaan tertentu dalam ciri berbutir kasar, yang menyebabkan bulu dapat terus menyelesaikan tugas penjanaannya dalam langkah kelapan proses penjanaan berdasarkan salmon perak. Untuk dua jenis sasaran tanpa belitan, seperti salmon perak dan ahli silap mata, ahli silap mata tidak dapat menyelesaikan tugas penjanaannya pada imej langkah perantaraan berdasarkan salmon perak.
Polysemy
Dalam bab ini, penyelidik mendalami apabila sesuatu perkataan mempunyai pelbagai makna penjanaan masa. Apa yang mereka dapati ialah, tanpa sebarang gangguan luar, imej yang terhasil sering mewakili makna khusus perkataan itu. Ambil "warthog" sebagai contoh Baris pertama dalam Rajah A4 dijana berdasarkan makna perkataan "warthog".
Walau bagaimanapun, penyelidik juga mendapati bahawa apabila perkataan lain disuntik ke dalam gesaan asal , yang boleh menyebabkan pergeseran semantik. Contohnya, apabila perkataan "pengkhianat" diperkenalkan dalam gesaan yang menerangkan "warthog", kandungan imej yang dijana mungkin menyimpang daripada makna asal "warthog" dan menjana kandungan baharu sepenuhnya.
Kedudukan perkataan dalam gesaan
Dalam Rajah 10, pengkaji memerhati satu fenomena yang menarik. Walaupun dari perspektif manusia, gesaan yang disusun dalam susunan yang berbeza umumnya mempunyai makna yang sama, dan semuanya menggambarkan gambar kucing, terompah dan pistol. Walau bagaimanapun, bagi model bahasa, iaitu pengekod teks CLIP, susunan perkataan mempengaruhi pemahamannya terhadap teks pada tahap tertentu, yang seterusnya mengubah kandungan imej yang dihasilkan. Fenomena ini menunjukkan bahawa walaupun huraian kami konsisten dari segi semantik, model tersebut mungkin menghasilkan pemahaman dan hasil penjanaan yang berbeza disebabkan oleh susunan perkataan yang berbeza. Ini bukan sahaja mendedahkan bahawa cara model memproses bahasa dan memahami semantik adalah berbeza daripada manusia, tetapi juga mengingatkan kita bahawa kita perlu memberi lebih perhatian kepada kesan susunan perkataan apabila mereka bentuk dan menggunakan model sedemikian.
Struktur model
Seperti yang ditunjukkan dalam Rajah 1 di bawah, tanpa mengubah kata nama sasaran asal dalam segera Di bawah premis itu, penyelidik meneruskan proses diskret penggantian atau pengembangan perkataan dengan mempelajari pengedaran Gumbel Softmax, dengan itu memastikan kebolehbezaan penjanaan gangguan Selepas menjana imej, pengelas CLIP dan kehilangan margin digunakan untuk mengoptimumkan ω, bertujuan untuk jana CLIP Untuk imej yang tidak boleh dikelaskan dengan betul, untuk memastikan isyarat yang menyinggung mempunyai persamaan tertentu dengan isyarat bersih, penyelidik telah menggunakan lagi kekangan persamaan semantik dan kekangan kelancaran teks.
Setelah pengedaran ini dipelajari, algoritma dapat mencuba berbilang petua teks serangan untuk petua teks bersih yang sama.
Sila lihat artikel asal untuk butiran lanjut .
Atas ialah kandungan terperinci 'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

META telah bergabung dengan rakan-rakan seperti Nvidia, IBM dan Dell untuk mengembangkan integrasi penempatan peringkat perusahaan Llama Stack. Dari segi keselamatan, Meta telah melancarkan alat -alat baru seperti Llama Guard 4, Llamifirewall dan Cyberseceval 4, dan melancarkan program pembela Llama untuk meningkatkan keselamatan AI. Di samping itu, META telah mengedarkan $ 1.5 juta dalam geran Llama Impact kepada 10 institusi global, termasuk pemula yang bekerja untuk meningkatkan perkhidmatan awam, penjagaan kesihatan dan pendidikan. Permohonan Meta AI yang baru dikuasakan oleh Llama 4, dikandung sebagai Meta AI

Joi Ai, sebuah syarikat yang merintis interaksi manusia-ai, telah memperkenalkan istilah "AI-Lationships" untuk menggambarkan hubungan yang berkembang ini. Jaime Bronstein, ahli terapi hubungan di Joi Ai, menjelaskan bahawa ini tidak dimaksudkan untuk menggantikan manusia c

Penipuan dalam talian dan serangan bot menimbulkan cabaran penting bagi perniagaan. Peruncit melawan bot produk penimbunan, pengambilalihan akaun Bank Battle, dan platform media sosial berjuang dengan peniru. Kebangkitan AI memburukkan lagi masalah ini, Rende

Ejen AI bersedia untuk merevolusikan pemasaran, yang berpotensi melampaui kesan peralihan teknologi terdahulu. Ejen -ejen ini, yang mewakili kemajuan yang signifikan dalam AI generatif, bukan sahaja memproses maklumat seperti chatgpt tetapi juga mengambil actio

Impak AI terhadap keputusan NBA Game 4 penting Dua pertandingan NBA permainan yang penting mempamerkan peranan permainan AI yang berubah-ubah dalam merasmikan. Pada mulanya, Nikola Jokic dari Denver yang terlepas tiga pointer membawa kepada lorong-lorong terakhir yang terakhir oleh Aaron Gordon. Sony's Haw

Secara tradisinya, memperluaskan kepakaran perubatan regeneratif secara global menuntut perjalanan yang luas, latihan tangan, dan tahun mentor. Sekarang, AI sedang mengubah landskap ini, mengatasi batasan geografi dan mempercepatkan kemajuan melalui en

Intel sedang berusaha untuk mengembalikan proses pembuatannya ke kedudukan utama, sambil cuba menarik pelanggan semikonduktor yang hebat untuk membuat cip di fabanya. Untuk tujuan ini, Intel mesti membina lebih banyak kepercayaan dalam industri, bukan sahaja untuk membuktikan daya saing prosesnya, tetapi juga untuk menunjukkan bahawa rakan kongsi boleh mengeluarkan cip dalam aliran kerja yang biasa dan matang, konsisten dan sangat dipercayai. Semua yang saya dengar hari ini membuatkan saya percaya Intel bergerak ke arah matlamat ini. Ucapan utama CEO baru Tan Libai memulakan hari. Tan Libai adalah mudah dan ringkas. Beliau menggariskan beberapa cabaran dalam Perkhidmatan Foundry Intel dan langkah -langkah syarikat telah mengambil untuk menangani cabaran -cabaran ini dan merancang laluan yang berjaya untuk perkhidmatan Foundry Intel pada masa akan datang. Tan Libai bercakap mengenai proses perkhidmatan OEM Intel yang dilaksanakan untuk menjadikan pelanggan lebih banyak

Mengulas kebimbangan yang semakin meningkat di sekitar risiko AI, Chaucer Group, firma insurans semula khusus global, dan Armilla AI telah bergabung untuk memperkenalkan produk insurans liabiliti pihak ketiga (TPL) novel. Dasar ini melindungi perniagaan terhadap


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Dreamweaver Mac版
Alat pembangunan web visual
