Rumah > Artikel > Peranti teknologi > Tidak boleh menghalangnya! Model resapan boleh digunakan untuk memfotoshop foto menggunakan teks sahaja
Adalah hasrat bersama Parti A dan Parti B untuk menukar gambar menjadi lebih baik hanya dengan bercakap, tetapi biasanya hanya Parti B yang tahu kesakitan dan kesedihan yang terlibat. Hari ini, AI telah melancarkan cabaran kepada masalah sukar ini.
Dalam kertas kerja yang dimuat naik ke arXiv pada 17 Oktober, penyelidik dari Google Research, Institut Teknologi Israel dan Institut Sains Weizmann di Israel memperkenalkan kaedah berdasarkan Imagic, imej sebenar kaedah penyuntingan model penyebaran, boleh merealisasikan PS foto sebenar hanya menggunakan teks, seperti meminta seseorang memberi ibu jari atau dua burung kakak tua untuk mencium:
"Tolong bantu saya dengan gerak isyarat suka: Model penyebaran: Tidak mengapa, saya akan menutupnya."
Seperti yang dapat dilihat daripada imej dalam kertas, imej yang diubah suai masih sangat semula jadi, dan tiada kerosakan yang jelas pada maklumat selain daripada kandungan yang perlu diubah suai. Penyelidikan serupa termasuk Prompt-to-Prompt yang telah disiapkan sebelum ini oleh Google Research dan Tel Aviv University di Israel (rujukan [16] dalam kertas Imagic):
Pautan projek (termasuk kertas, kod): https://prompt-to-prompt.github.io/
Oleh itu, seseorang berkata dengan penuh emosi , "Bidang ini berubah dengan pantas sehingga ia agak dibesar-besarkan mulai sekarang, Parti A benar-benar boleh membuat apa-apa perubahan yang mereka mahu hanya dengan kata-kata mereka.
Pautan kertas: https://arxiv.org /pdf/2210.09276.pdf
Menggunakan pengeditan semantik berskala besar pada foto sebenar sentiasa menjadi tugas yang menarik dalam pemprosesan imej. Tugas ini telah menarik minat yang besar daripada komuniti penyelidikan kerana sistem berasaskan pembelajaran mendalam telah mencapai kemajuan yang besar dalam beberapa tahun kebelakangan ini.
Menggunakan gesaan teks bahasa semula jadi yang mudah untuk menerangkan pengeditan yang kita mahu (seperti meminta anjing duduk) adalah sangat konsisten dengan cara manusia berkomunikasi. Oleh itu, penyelidik telah membangunkan banyak kaedah penyuntingan imej berasaskan teks, dan kaedah ini juga berkesan.
Walau bagaimanapun, kaedah arus perdana mempunyai lebih kurang masalah, seperti:
1 Terhad kepada set Penyuntingan tertentu sebagai lukisan pada imej, menambah objek atau memindahkan gaya [6, 28]; , 40, 44].
Artikel ini mencadangkan kaedah penyuntingan imej semantik "Imagic" untuk mengurangkan masalah di atas. Memandangkan imej input untuk diedit dan gesaan teks tunggal yang menerangkan pengeditan sasaran, kaedah ini membolehkan pengeditan tidak tegar yang kompleks bagi imej resolusi tinggi sebenar. Output imej yang terhasil sejajar dengan teks sasaran, sambil mengekalkan keseluruhan konteks, struktur dan komposisi imej asal.
Seperti yang ditunjukkan dalam Rajah 1, Imagic boleh membuat dua burung kakak tua berciuman atau membuat seseorang mengacungkan ibu jari. Penyuntingan semantik berasaskan teks yang ditawarkannya adalah kali pertama operasi kompleks sedemikian, termasuk pengeditan berbilang objek, boleh digunakan pada satu imej resolusi tinggi sebenar. Sebagai tambahan kepada perubahan kompleks ini, Imagic membenarkan pelbagai jenis suntingan, termasuk perubahan gaya, perubahan warna dan penambahan objek.
Untuk mencapai pencapaian ini, para penyelidik memanfaatkan model penyebaran teks-ke-imej yang berjaya baru-baru ini. Model resapan ialah model generatif berkuasa yang mampu menghasilkan sintesis imej berkualiti tinggi. Apabila dikondisikan pada gesaan teks bahasa semula jadi, ia dapat menghasilkan imej yang konsisten dengan teks yang diminta. Dalam kerja ini, penyelidik menggunakannya untuk mengedit imej sebenar dan bukannya mensintesis imej baharu.
Seperti yang ditunjukkan dalam Rajah 3, Imagic hanya memerlukan tiga langkah untuk menyelesaikan tugasan di atas: pertama mengoptimumkan pembenaman teks untuk menghasilkan imej yang serupa dengan imej input. Model resapan generatif yang telah dilatih kemudiannya diperhalusi untuk membina semula imej input dengan lebih baik, dikondisikan pada benam yang dioptimumkan. Akhir sekali, interpolasi linear dilakukan antara pembenaman teks sasaran dan pembenaman yang dioptimumkan, menghasilkan perwakilan yang menggabungkan imej input dan teks sasaran. Perwakilan ini kemudiannya dihantar ke proses resapan generatif dengan model yang diperhalusi, menghasilkan imej akhir yang disunting.
Untuk membuktikan kuasa Imagic, para penyelidik menjalankan beberapa eksperimen, menggunakan kaedah tersebut pada banyak imej dalam bidang yang berbeza, dan menghasilkan keputusan yang mengagumkan dalam semua keputusan eksperimen. Imej berkualiti tinggi yang dikeluarkan oleh Imagic sangat serupa dengan imej input dan konsisten dengan teks sasaran yang diperlukan. Keputusan ini menunjukkan fleksibiliti, serba boleh dan kualiti Imagic. Para penyelidik juga menjalankan kajian ablasi yang menonjolkan keberkesanan setiap komponen kaedah yang dicadangkan. Berbanding dengan pelbagai kaedah baru-baru ini, Imagic mempamerkan kualiti penyuntingan yang jauh lebih baik dan kesetiaan kepada imej asal, terutamanya apabila menjalankan tugas penyuntingan tidak tegar yang sangat kompleks.
Memandangkan imej input x dan teks sasaran, artikel ini bertujuan untuk mengedit imej dengan cara yang memenuhi teks yang diberikan sambil mengekalkan imej x Banyak butiran. Untuk mencapai matlamat ini, kertas kerja ini menggunakan lapisan pembenaman teks model resapan untuk melaksanakan operasi semantik dengan cara yang agak serupa dengan kaedah berasaskan GAN. Penyelidik bermula dengan mencari perwakilan yang bermakna dan kemudian melalui proses generatif yang menghasilkan imej yang serupa dengan imej input. Model generatif kemudiannya dioptimumkan untuk membina semula imej input dengan lebih baik, dan langkah terakhir ialah memproses perwakilan terpendam untuk mendapatkan hasil pengeditan.
Seperti yang ditunjukkan dalam Rajah 3 di atas, kaedah kami terdiri daripada tiga peringkat: (1) Optimumkan pembenaman teks untuk mencari pembenaman teks yang paling sesuai dengan imej yang diberikan berhampiran pembenaman teks sasaran; 2) Perhalusi model penyebaran agar lebih sepadan dengan imej yang diberikan; (3) Interpolasi secara linear antara pembenaman yang dioptimumkan dan pembenaman teks sasaran untuk mencari yang mencapai kedua-dua kesetiaan imej dan penjajaran teks sasaran.
Butiran yang lebih khusus adalah seperti berikut:
Pengoptimuman pembenaman teks
Mula-mula teks sasaran ialah input kepada pengekod teks, yang mengeluarkan pembenaman teks yang sepadan , dengan T ialah bilangan token teks sasaran yang diberikan dan d ialah dimensi pembenaman token. Kemudian, penyelidik membekukan parameter model resapan yang dijana f_θ dan menggunakan objektif resapan denoising untuk mengoptimumkan pembenaman teks sasaran e_tgt
Di mana, x ialah imej input, ialah versi hingar bagi x, dan θ ialah berat model resapan yang telah dilatih. Ini menjadikan pembenaman teks sepadan dengan imej input sedekat mungkin. Proses ini berjalan dalam beberapa langkah, mengekalkan hampir dengan pembenaman teks sasaran asal, menghasilkan e_opt pembenaman yang dioptimumkan.
Penalaan halus model
Perlu diingatkan di sini bahawa e_opt benam yang dioptimumkan yang diperoleh di sini dihasilkan oleh proses penyebaran, mereka tidak semestinya sama persis dengan imej input x kerana mereka hanya menjalankan sebilangan kecil langkah pengoptimuman (lihat imej kiri atas dalam Rajah 5). Oleh itu, pada peringkat kedua, penulis menutup jurang ini dengan mengoptimumkan parameter model θ menggunakan fungsi kehilangan yang sama yang disediakan dalam Persamaan (2) sambil membekukan pembenaman pengoptimuman.
Interpolasi Benam Teks
Peringkat ketiga Imagic adalah Mudah interpolasi linear antara e_tgt dan e_opt. Untuk hiperparameter , kami memperoleh Kemudian, pengarang menggunakan model yang diperhalusi untuk menggunakan proses resapan generatif asas, bersyarat pada . Ini menghasilkan imej yang disunting dengan resolusi rendah, yang kemudiannya diselesaikan dengan sangat baik menggunakan model tambahan yang diperhalusi untuk menyelesaikan dengan sangat baik teks sasaran. Proses penjanaan ini mengeluarkan imej terakhir yang disunting resolusi tinggi .
Untuk menguji kesannya, penyelidik menggunakan kaedah ini pada sebilangan besar gambar sebenar dari medan yang berbeza, menggunakan gesaan teks ringkas untuk menerangkan yang berbeza. kategori penyuntingan , seperti: gaya, penampilan, warna, postur dan komposisi. Mereka mengumpul imej beresolusi tinggi, percuma untuk digunakan daripada Unsplash dan Pixabay, mengoptimumkannya untuk menjana setiap suntingan dengan 5 biji rawak dan memilih hasil terbaik. Imagic menunjukkan hasil yang mengagumkan dengan keupayaannya untuk menggunakan pelbagai kategori penyuntingan pada mana-mana imej dan teks input umum, seperti yang ditunjukkan dalam Rajah 1 dan 7.
Rajah 2 menunjukkan kepelbagaian Imagic dengan eksperimen gesaan teks yang berbeza pada imej yang sama.
Memandangkan model resapan generatif asas yang digunakan oleh penyelidik adalah berdasarkan kebarangkalian, kaedah ini boleh digunakan untuk satu pasangan teks imej menghasilkan hasil yang berbeza. Rajah 4 menunjukkan beberapa pilihan untuk menyunting menggunakan benih rawak yang berbeza (dengan sedikit pelarasan kepada eta untuk setiap benih). Kerawak ini membolehkan pengguna memilih antara pilihan yang berbeza ini, kerana gesaan teks bahasa semula jadi biasanya samar-samar dan tidak tepat.
Kajian ini membandingkan Imagic dengan kaedah tujuan umum terkemuka semasa pada input tunggal imej dunia sebenar Ambil tindakan dan mengeditnya berdasarkan gesaan teks. Rajah 6 menunjukkan hasil penyuntingan kaedah yang berbeza seperti Text2LIVE[7] dan SDEdit[32].
Ia boleh dilihat bahawa kaedah kami mengekalkan kesetiaan tinggi pada imej input sambil melaksanakan pengeditan yang diperlukan dengan sewajarnya. Apabila diberi tugas penyuntingan yang tidak tegar yang kompleks, seperti "membuat anjing duduk", kaedah kami dengan ketara mengatasi teknik sebelumnya. Imagic ialah demo pertama yang menggunakan pengeditan berasaskan teks yang canggih ini pada satu imej dunia sebenar.
Atas ialah kandungan terperinci Tidak boleh menghalangnya! Model resapan boleh digunakan untuk memfotoshop foto menggunakan teks sahaja. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!