Rumah >Peranti teknologi >AI >Tak sehebat GAN! Artikel yang dikeluarkan oleh Google, DeepMind dan lain-lain: Model penyebaran 'disalin' terus daripada set latihan
Tahun lepas, model penjanaan imej menjadi popular Selepas karnival seni besar-besaran, isu hak cipta diikuti.
Model pembelajaran mendalam seperti DALL-E 2, Imagen dan Stable Diffusion dilatih mengenai ratusan juta data Tiada cara untuk menyingkirkan pengaruh set latihan , tetapi adakah beberapa imej yang dihasilkan sepenuhnya daripada set latihan? Jika imej yang dihasilkan sangat serupa dengan imej asal, Siapakah pemilik hak cipta?
Baru-baru ini, penyelidik dari banyak universiti dan syarikat terkenal seperti Google, Deepmind dan ETH Zurich bersama-sama menerbitkan kertas kerja Mereka mendapati bahawa model penyebaran It sememangnya mungkin untuk mengingati sampel dalam set latihan dan menghasilkan semula mereka semasa proses penjanaan.
Pautan kertas: https://arxiv.org/abs/2301.13188
Dalam karya ini, penyelidik menunjukkan bagaimana model resapan boleh mengingati satu imej dalam data latihannya dan menghasilkan semula ia semasa ia dijana.
Artikel itu mencadangkan saluran paip jana-dan-penapis (jana-dan-penapis) , daripada Model tercanggih mengekstrak lebih daripada seribu contoh latihan, meliputi foto orang, tanda dagangan, logo syarikat dan banyak lagi. Kami juga melatih ratusan model resapan dalam persekitaran yang berbeza untuk menganalisis cara pemodelan dan keputusan data yang berbeza mempengaruhi privasi.
Secara keseluruhan, keputusan percubaan menunjukkan bahawa model resapan memberikan perlindungan privasi yang jauh lebih teruk untuk set latihan berbanding model generatif sebelumnya (seperti GAN).
Model penyebaran denoising ialah jenis rangkaian neural generatif baharu yang telah muncul baru-baru ini, melalui proses denoising berulang Menjana imej daripada pengedaran latihan adalah lebih baik daripada model GAN atau VAE yang biasa digunakan sebelum ini, dan lebih mudah untuk mengembangkan model dan mengawal penjanaan imej, jadi ia dengan cepat menjadi kaedah arus perdana untuk menjana pelbagai imej resolusi tinggi.
Terutama selepas OpenAI mengeluarkan DALL-E 2, model penyebaran cepat menjadi popular dalam seluruh bidang penjanaan AI.
Rayuan model resapan generatif berpunca daripada keupayaan mereka untuk mensintesis imej baharu yang kononnya berbeza daripada apa-apa dalam set latihan Malah, usaha latihan berskala besar yang lalu "belum Discover masalah overfitting", dan penyelidik dalam domain sensitif privasi malah mencadangkan bahawa model resapan boleh "melindungi privasi imej sebenar" dengan mensintesis imej.
Walau bagaimanapun, kerja-kerja ini semuanya bergantung pada andaian: iaitu, model penyebaran tidak akan mengingati dan menjana semula data latihan , jika tidak, ia akan melanggar jaminan privasi dan menimbulkan banyak kebimbangan. Masalah generalisasi model dan pemalsuan digital.
Tetapi adakah ini benar-benar berlaku?
Untuk menentukan sama ada imej yang dijana datang daripada set latihan, anda perlu terlebih dahulu menentukan apa itu "hafalan" .
Kerja berkaitan sebelum ini tertumpu terutamanya pada model bahasa teks Jika model boleh memulihkan urutan yang direkodkan secara verbatim daripada set latihan, maka urutan ini dipanggil "pengekstrakan" dan "ingatan"; tetapi kerana kerja ini berdasarkan imej beresolusi tinggi, definisi memori padanan perkataan demi perkataan tidak sesuai.
Berikut ialah ingatan berdasarkan ukuran persamaan imej yang ditakrifkan oleh penyelidik.
Jika jarak antara imej yang dijana x dan berbilang sampel dalam set latihan adalah kurang daripada ambang yang diberikan, maka sampel itu dianggap daripada set latihan Apakah yang diperoleh dengan penumpuan ialah Hafazan Eidetik.
Kemudian, artikel itu mereka bentuk serangan pengekstrakan data dua peringkat kaedah:
1 daripada imej
Langkah pertama adalah mudah tetapi mahal dari segi pengiraan: gunakan gesaan yang dipilih sebagai input untuk menjana imej dalam cara kotak hitam .
Para penyelidik menjana 500 imej calon untuk setiap gesaan teks untuk meningkatkan peluang menemui kenangan.
2. Jalankan Inferens Keahlian
Janakan mereka yang disyaki berdasarkan kepada imej memori set latihan ditanda.
Strategi serangan inferens ahli yang direka oleh penyelidik adalah berdasarkan idea berikut: untuk dua benih awal rawak yang berbeza, kebarangkalian persamaan antara dua imej yang dihasilkan oleh model resapan akan menjadi sangat tinggi, dan ada kemungkinan bahawa Metrik jarak dianggap dijana daripada ingatan.
Untuk menilai kesan serangan, penyelidik memilih 350,000 contoh dengan kadar pengulangan tertinggi daripada set data latihan dan menjana 500 imej untuk setiap imej Calon segera (175 juta imej dijana secara keseluruhan).
Isih dahulu semua imej yang dijana ini mengikut jarak purata antara imej dalam klik untuk mengenal pasti imej yang mungkin dijana dengan menghafal data latihan.
Kemudian imej yang dijana ini dibandingkan dengan imej latihan, dan setiap imej telah ditandakan sebagai "diekstrak" dan "tidak diekstrak". Akhirnya, 94 imej ditemui yang disyaki diekstrak daripada gambar set latihan.
Melalui analisis visual, 1000 imej teratas secara manual dilabelkan sebagai "dihafal" atau "tidak dihafal", dan didapati 13 imej telah dihasilkan dengan menyalin sampel latihan.
Dari keluk P-R, kaedah serangan ini sangat tepat: dalam 175 juta imej yang dihasilkan , boleh mengenali 50 imej yang dihafal dengan kadar positif palsu 0; dan semua imej yang dijana berdasarkan ingatan boleh diekstrak dengan ketepatan lebih tinggi daripada 50%
Untuk lebih memahami bagaimana dan mengapa ingatan berlaku, para penyelidik juga melatih beratus-ratus model resapan yang lebih kecil pada CIFAR10 untuk menganalisis kesan privasi ketepatan model, hiperparameter, pembesaran dan penyahduplikasian.
Tidak seperti model resapan, GAN tidak dilatih secara eksplisit untuk Menghafal dan membina semulanya set data latihan.
GAN terdiri daripada dua rangkaian neural yang bersaing: penjana dan diskriminator. Penjana juga menerima hingar rawak sebagai input, tetapi tidak seperti model resapan, ia mesti menukar hingar ini kepada imej yang sah dalam satu laluan ke hadapan.
Dalam proses melatih GAN, diskriminasi perlu meramalkan sama ada imej itu datang daripada penjana, dan penjana perlu memperbaiki dirinya untuk memperdayakan diskriminator.
Oleh itu, perbezaan antara kedua-duanya ialah penjana GAN hanya dilatih menggunakan maklumat tidak langsung tentang data latihan (iaitu menggunakan kecerunan daripada diskriminator) dan tidak menerima latihan secara langsung data sebagai input.
1 juta imej latihan yang dijana tanpa syarat diekstrak daripada model generasi pra-latihan yang berbeza, dan kemudian diisih mengikut FID Place the GAN model (lebih rendah adalah lebih baik) di bahagian atas dan model resapan di bahagian bawah.
Hasilnya menunjukkan bahawa model resapan mengingati lebih banyak daripada model GAN, dan model generatif yang lebih baik (FID yang lebih rendah) cenderung untuk mengingati lebih banyak data, iaitu, Model resapan ialah bentuk yang paling kurang peribadi model imej, membocorkan lebih daripada dua kali lebih banyak data latihan berbanding GAN.
Dan daripada keputusan di atas, kami juga boleh mendapati bahawa teknologi peningkatan privasi sedia ada tidak memberikan pertukaran prestasi privasi yang boleh diterima meningkatkan kualiti penjanaan, anda perlu mengingati lebih banyak data dalam set latihan.
Secara keseluruhannya, kertas kerja ini menyerlahkan ketegangan antara model generatif yang semakin berkuasa dan privasi data, dan menimbulkan persoalan tentang cara model penyebaran kerja dan bagaimana ia boleh digunakan secara bertanggungjawab.
Dari segi teknikal, pembinaan semula ialah kelebihan model penyebaran tetapi dari perspektif hak cipta, pembinaan semula adalah kelemahannya.
Artis telah berhujah pelbagai mengenai isu hak cipta mereka kerana persamaan yang berlebihan antara imej yang dihasilkan oleh model penyebaran dan data latihan.
Sebagai contoh, AI dilarang menggunakan karyanya sendiri untuk latihan, dan sejumlah besar tera air ditambahkan pada karya yang diterbitkan dan Stable Diffusion juga telah mengumumkan bahawa ia hanya merancang untuk menggunakan sahaja latihan yang mengandungi kandungan yang dibenarkan dalam set data langkah seterusnya dan menyediakan mekanisme keluar artis.
Kami juga menghadapi masalah ini dalam bidang NLP Beberapa netizen mengatakan bahawa berjuta-juta perkataan teks telah diterbitkan sejak 1993, dan semua AI termasuk ChatGPT-3 "sedang digunakan". . Adalah tidak beretika untuk menggunakan model generatif berasaskan AI yang dilatih mengenai kandungan yang dicuri.
Walaupun terdapat banyak artikel yang diciplak di dunia, bagi orang biasa, plagiarisme hanyalah satu perkara yang tidak boleh diketepikan Shortcut ; tetapi bagi pencipta, kandungan yang diciplak adalah kerja keras mereka.
Adakah model penyebaran masih mempunyai kelebihan pada masa hadapan?
Atas ialah kandungan terperinci Tak sehebat GAN! Artikel yang dikeluarkan oleh Google, DeepMind dan lain-lain: Model penyebaran 'disalin' terus daripada set latihan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!