'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama-AI-php.cn

Rumah

Peranti teknologi

'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2023 pm 02:26 PM

imejModel

Model penjanaan resapan teks-ke-imej, seperti Stable Diffusion, DALL-E 2 dan pertengahan perjalanan, telah berada dalam keadaan pembangunan yang rancak dan mempunyai keupayaan penjanaan teks-ke-imej yang kukuh, tetapi " terbalik ” Kes akan muncul sekali-sekala.

Seperti yang ditunjukkan dalam rajah di bawah, apabila diberi gesaan teks: "Foto warthog", model Stable Diffusion boleh menghasilkan foto warthog yang sepadan, jelas dan realistik. Walau bagaimanapun, apabila kita mengubah suai sedikit gesaan teks ini dan menukarnya kepada: "Foto warthog dan pengkhianat", bagaimana pula dengan warthog? Bagaimana ia menjadi kereta?

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Mari kita lihat beberapa contoh seterusnya. Apakah spesies baharu ini?

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Apakah yang menyebabkan fenomena aneh ini? Kes kegagalan generasi ini semuanya datang daripada kertas kerja yang diterbitkan baru-baru ini "Stable Diffusion is Unstable":

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Alamat kertas: https://arxiv.org/abs/2306.02583

Dalam karya ini A adversarial berasaskan kecerunan algoritma untuk model teks-ke-imej dicadangkan buat kali pertama. Algoritma ini dengan cekap dan berkesan boleh menjana sejumlah besar gesaan teks yang menyinggung, dan boleh meneroka ketidakstabilan model resapan Stabil dengan berkesan. Algoritma ini mencapai kadar kejayaan serangan sebanyak 91.1% pada gesaan teks pendek dan 81.2% pada gesaan teks panjang. Di samping itu, algoritma ini menyediakan kes yang kaya untuk mengkaji mod kegagalan model penjanaan teks ke imej, meletakkan asas untuk penyelidikan tentang kebolehkawalan penjanaan imej.

Berdasarkan sejumlah besar kes kegagalan penjanaan yang dihasilkan oleh algoritma ini, penyelidik merumuskan empat sebab kegagalan penjanaan, iaitu:

Perbezaan dalam kelajuan penjanaan
Persamaan ciri berbutir kasar
Kekaburan perkataan
Kedudukan perkataan dalam gesaan

Perbezaan dalam kelajuan penjanaan

Apabila gesaan (prompt) mengandungi berbilang sasaran generasi, kita sering menghadapi Terdapat isu di mana sasaran tertentu hilang semasa proses penjanaan. Secara teorinya, semua sasaran dalam isyarat yang sama harus berkongsi bunyi awal yang sama. Seperti yang ditunjukkan dalam Rajah 4, penyelidik menjana seribu sasaran kategori pada ImageNet di bawah keadaan hingar awal tetap. Mereka menggunakan imej terakhir yang dijana oleh setiap sasaran sebagai imej rujukan dan mengira skor Indeks Kesamaan Struktur (SSIM) antara imej yang dijana pada setiap langkah masa dan imej yang dijana pada langkah terakhir untuk menunjukkan Perbezaan dalam kelajuan binaan.

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Kesamaan ciri berbutir kasar

Semasa proses penjanaan resapan, penyelidik mendapati bahawa apabila Apabila terdapat persamaan ciri berbutir kasar global atau tempatan antara dua jenis sasaran, masalah akan timbul apabila mengira pemberat perhatian silang. Ini kerana kedua-dua kata nama sasaran mungkin memfokuskan pada blok yang sama pada gambar yang sama pada masa yang sama, mengakibatkan keterjeratan ciri. Sebagai contoh, dalam Rajah 6, bulu dan salmon perak mempunyai persamaan tertentu dalam ciri berbutir kasar, yang menyebabkan bulu dapat terus menyelesaikan tugas penjanaannya dalam langkah kelapan proses penjanaan berdasarkan salmon perak. Untuk dua jenis sasaran tanpa belitan, seperti salmon perak dan ahli silap mata, ahli silap mata tidak dapat menyelesaikan tugas penjanaannya pada imej langkah perantaraan berdasarkan salmon perak.

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Polysemy

Dalam bab ini, penyelidik mendalami apabila sesuatu perkataan mempunyai pelbagai makna penjanaan masa. Apa yang mereka dapati ialah, tanpa sebarang gangguan luar, imej yang terhasil sering mewakili makna khusus perkataan itu. Ambil "warthog" sebagai contoh Baris pertama dalam Rajah A4 dijana berdasarkan makna perkataan "warthog".

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Walau bagaimanapun, penyelidik juga mendapati bahawa apabila perkataan lain disuntik ke dalam gesaan asal , yang boleh menyebabkan pergeseran semantik. Contohnya, apabila perkataan "pengkhianat" diperkenalkan dalam gesaan yang menerangkan "warthog", kandungan imej yang dijana mungkin menyimpang daripada makna asal "warthog" dan menjana kandungan baharu sepenuhnya.

Kedudukan perkataan dalam gesaan

Dalam Rajah 10, pengkaji memerhati satu fenomena yang menarik. Walaupun dari perspektif manusia, gesaan yang disusun dalam susunan yang berbeza umumnya mempunyai makna yang sama, dan semuanya menggambarkan gambar kucing, terompah dan pistol. Walau bagaimanapun, bagi model bahasa, iaitu pengekod teks CLIP, susunan perkataan mempengaruhi pemahamannya terhadap teks pada tahap tertentu, yang seterusnya mengubah kandungan imej yang dihasilkan. Fenomena ini menunjukkan bahawa walaupun huraian kami konsisten dari segi semantik, model tersebut mungkin menghasilkan pemahaman dan hasil penjanaan yang berbeza disebabkan oleh susunan perkataan yang berbeza. Ini bukan sahaja mendedahkan bahawa cara model memproses bahasa dan memahami semantik adalah berbeza daripada manusia, tetapi juga mengingatkan kita bahawa kita perlu memberi lebih perhatian kepada kesan susunan perkataan apabila mereka bentuk dan menggunakan model sedemikian.

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Struktur model

Seperti yang ditunjukkan dalam Rajah 1 di bawah, tanpa mengubah kata nama sasaran asal dalam segera Di bawah premis itu, penyelidik meneruskan proses diskret penggantian atau pengembangan perkataan dengan mempelajari pengedaran Gumbel Softmax, dengan itu memastikan kebolehbezaan penjanaan gangguan Selepas menjana imej, pengelas CLIP dan kehilangan margin digunakan untuk mengoptimumkan ω, bertujuan untuk jana CLIP Untuk imej yang tidak boleh dikelaskan dengan betul, untuk memastikan isyarat yang menyinggung mempunyai persamaan tertentu dengan isyarat bersih, penyelidik telah menggunakan lagi kekangan persamaan semantik dan kekangan kelancaran teks.

Setelah pengedaran ini dipelajari, algoritma dapat mencuba berbilang petua teks serangan untuk petua teks bersih yang sama.

Ditapis semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama

Sila lihat artikel asal untuk butiran lanjut .

Atas ialah kandungan terperinci 'Ditapis' semasa penjanaan imej: Kes kegagalan resapan stabil dipengaruhi oleh empat faktor utama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Pembantu AI baru Meta: Booster Produktiviti atau Tenggelam Masa?May 01, 2025 am 11:18 AM

META telah bergabung dengan rakan-rakan seperti Nvidia, IBM dan Dell untuk mengembangkan integrasi penempatan peringkat perusahaan Llama Stack. Dari segi keselamatan, Meta telah melancarkan alat -alat baru seperti Llama Guard 4, Llamifirewall dan Cyberseceval 4, dan melancarkan program pembela Llama untuk meningkatkan keselamatan AI. Di samping itu, META telah mengedarkan $ 1.5 juta dalam geran Llama Impact kepada 10 institusi global, termasuk pemula yang bekerja untuk meningkatkan perkhidmatan awam, penjagaan kesihatan dan pendidikan. Permohonan Meta AI yang baru dikuasakan oleh Llama 4, dikandung sebagai Meta AI

80% Gen Zers akan berkahwin dengan AI: KajianMay 01, 2025 am 11:17 AM

Joi Ai, sebuah syarikat yang merintis interaksi manusia-ai, telah memperkenalkan istilah "AI-Lationships" untuk menggambarkan hubungan yang berkembang ini. Jaime Bronstein, ahli terapi hubungan di Joi Ai, menjelaskan bahawa ini tidak dimaksudkan untuk menggantikan manusia c

AI membuat masalah bot Internet lebih teruk. Permulaan $ 2 bilion ini berada di barisan hadapanMay 01, 2025 am 11:16 AM

Penipuan dalam talian dan serangan bot menimbulkan cabaran penting bagi perniagaan. Peruncit melawan bot produk penimbunan, pengambilalihan akaun Bank Battle, dan platform media sosial berjuang dengan peniru. Kebangkitan AI memburukkan lagi masalah ini, Rende

Menjual ke Robot: Revolusi Pemasaran yang akan membuat atau memecahkan perniagaan andaMay 01, 2025 am 11:15 AM

Ejen AI bersedia untuk merevolusikan pemasaran, yang berpotensi melampaui kesan peralihan teknologi terdahulu. Ejen -ejen ini, yang mewakili kemajuan yang signifikan dalam AI generatif, bukan sahaja memproses maklumat seperti chatgpt tetapi juga mengambil actio

Bagaimana Teknologi Penglihatan Komputer Mengubah NBA Playoff merasmikanMay 01, 2025 am 11:14 AM

Impak AI terhadap keputusan NBA Game 4 penting Dua pertandingan NBA permainan yang penting mempamerkan peranan permainan AI yang berubah-ubah dalam merasmikan. Pada mulanya, Nikola Jokic dari Denver yang terlepas tiga pointer membawa kepada lorong-lorong terakhir yang terakhir oleh Aaron Gordon. Sony's Haw

Bagaimana AI mempercepat masa depan ubat regeneratifMay 01, 2025 am 11:13 AM

Secara tradisinya, memperluaskan kepakaran perubatan regeneratif secara global menuntut perjalanan yang luas, latihan tangan, dan tahun mentor. Sekarang, AI sedang mengubah landskap ini, mengatasi batasan geografi dan mempercepatkan kemajuan melalui en

Pengambilan kunci dari Intel Foundry Direct Connect 2025May 01, 2025 am 11:12 AM

Intel sedang berusaha untuk mengembalikan proses pembuatannya ke kedudukan utama, sambil cuba menarik pelanggan semikonduktor yang hebat untuk membuat cip di fabanya. Untuk tujuan ini, Intel mesti membina lebih banyak kepercayaan dalam industri, bukan sahaja untuk membuktikan daya saing prosesnya, tetapi juga untuk menunjukkan bahawa rakan kongsi boleh mengeluarkan cip dalam aliran kerja yang biasa dan matang, konsisten dan sangat dipercayai. Semua yang saya dengar hari ini membuatkan saya percaya Intel bergerak ke arah matlamat ini. Ucapan utama CEO baru Tan Libai memulakan hari. Tan Libai adalah mudah dan ringkas. Beliau menggariskan beberapa cabaran dalam Perkhidmatan Foundry Intel dan langkah -langkah syarikat telah mengambil untuk menangani cabaran -cabaran ini dan merancang laluan yang berjaya untuk perkhidmatan Foundry Intel pada masa akan datang. Tan Libai bercakap mengenai proses perkhidmatan OEM Intel yang dilaksanakan untuk menjadikan pelanggan lebih banyak

Ai salah? Sekarang ada insurans ' s untuk ituMay 01, 2025 am 11:11 AM

Mengulas kebimbangan yang semakin meningkat di sekitar risiko AI, Chaucer Group, firma insurans semula khusus global, dan Armilla AI telah bergabung untuk memperkenalkan produk insurans liabiliti pihak ketiga (TPL) novel. Dasar ini melindungi perniagaan terhadap

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang laluByDDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.