Rumah >Peranti teknologi >AI >Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

WBOY
WBOYke hadapan
2023-08-22 13:49:041337semak imbas

Dalam beberapa tahun kebelakangan ini, teknologi penjanaan imej telah membuat banyak penemuan penting. Terutama sejak keluaran model besar seperti DALLE2 dan Stable Diffusion, teknologi imej penjanaan teks telah matang secara beransur-ansur, dan penjanaan imej berkualiti tinggi mempunyai senario praktikal yang luas. Walau bagaimanapun, penyuntingan terperinci imej sedia ada masih menjadi masalah yang sukar

Di satu pihak, disebabkan oleh keterbatasan penerangan teks, model imej tekstual berkualiti tinggi sedia ada hanya boleh menggunakan teks untuk mengedit imej secara deskriptif, dan untuk beberapa tertentu. kesan, teks sukar untuk diterangkan; sebaliknya, dalam senario aplikasi sebenar, tugas penyuntingan pemurnian imej selalunya hanya mempunyai sebilangan kecil imej rujukan, Ini menjadikan banyak penyelesaian yang memerlukan sejumlah besar data untuk latihan, dalam Small jumlah data, terutamanya apabila terdapat hanya satu imej rujukan, sukar untuk digunakan.

Baru-baru ini, penyelidik dari NetEase Interactive Entertainment AI Lab mencadangkan penyelesaian pengeditan imej ke imej berdasarkan panduan imej tunggal Memandangkan imej rujukan tunggal, objek atau gaya dalam imej rujukan boleh dipindahkan ke imej sumber tanpa mengubah. struktur keseluruhan imej sumber.

Kertas penyelidikan telah diterima oleh ICCV 2023, dan kod yang berkaitan adalah sumber terbuka.

    Alamat kertas: https://arxiv.org/abs/2307.14352
  • Alamat kod: https://github.com/CrystalNeuro
  • -concept-visual-concept Mari kita lihat dahulu set gambar untuk merasai kesannya.

Penyampaian tesis: Sudut kiri atas setiap set gambar ialah imej sumber, sudut kiri bawah ialah imej rujukan, dan sebelah kanan ialah imej hasil terjana

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Bingkai utama

Pengarang kertas kerja mencadangkan rangka kerja penyuntingan imej berdasarkan Inversion-Fusion - VCT (penterjemah konsep visual, penukar konsep visual). Seperti yang ditunjukkan dalam rajah di bawah, rangka kerja keseluruhan VCT merangkumi dua proses: proses penyongsangan kandungan-konsep (Content-concept Inversion) dan proses gabungan konsep kandungan (Content-concept Fusion). Proses penyongsangan konsep kandungan menggunakan dua algoritma penyongsangan berbeza untuk mempelajari dan mewakili vektor terpendam maklumat struktur imej asal dan maklumat semantik imej rujukan proses gabungan konsep kandungan menggunakan vektor terpendam maklumat struktur dan maklumat semantik untuk menjana hasil akhir.

Kandungan yang perlu ditulis semula ialah: rangka kerja utama kertas tersebut

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Perlu dinyatakan bahawa dalam bidang Generative Adversarial Networks (GAN) dalam beberapa tahun kebelakangan ini, kaedah penyongsangan telah digunakan secara meluas dan digunakan dalam banyak hasil yang luar biasa telah dicapai pada tugas penjanaan imej [1]. Apabila GAN menulis semula kandungan, teks asal perlu ditulis semula ke dalam bahasa Cina. ruang tersembunyi. Skim penyongsangan ini boleh mengeksploitasi sepenuhnya kuasa penjanaan model generatif pra-terlatih. Kajian ini sebenarnya menulis semula kandungan dengan GAN Teks asal perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu digunakan untuk tugas penyuntingan imej berdasarkan panduan imej dengan model penyebaran sebagai priori.


Apabila menulis semula kandungan, teks asal perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Pengenalan kaedah

​​​​​​​​​​​​ VCT mereka bentuk proses resapan dua cawangan, yang merangkumi pembinaan semula kandungan Cawangan B* dan cawangan induk B untuk penyuntingan. Ia bermula daripada bunyi xT yang sama yang diperoleh daripada DDIM Inversion

【2】

, algoritma yang menggunakan model resapan untuk mengira hingar daripada imej, untuk pembinaan semula kandungan dan penyuntingan kandungan masing-masing. Model pra-latihan yang digunakan dalam kertas ini ialah Model Resapan Terpendam (pendekatan LDM Proses resapan berlaku dalam ruang z ruang vektor terpendam Proses dua cabang boleh dinyatakan sebagai:

. Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah


Proses resapan dua cawangan

Cawangan pembinaan semula kandungan B* mempelajari vektor ciri kandungan T Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah, yang digunakan untuk memulihkan maklumat struktur imej asal, dan melalui skema kawalan perhatian lembut, struktur Maklumat diserahkan kepada editor cabang induk B. Skim kawalan perhatian lembut menggunakan kerja prompt2prompt [3] Google Formulanya ialah:

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Iaitu, apabila bilangan langkah larian model resapan berada dalam julat tertentu, peta ciri perhatian bagi menyunting cawangan utama akan digantikan dengan cawangan pembinaan semula kandungan Peta ciri untuk mencapai kawalan struktur imej yang dihasilkan. Cawangan utama penyuntingan B menggabungkan vektor ciri kandungan Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah dipelajari daripada imej asal dan vektor ciri konsep Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah dipelajari daripada imej rujukan untuk menghasilkan gambar yang diedit.

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Ruang hingar (Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudahruang) gabungan

Pada setiap langkah model resapan, gabungan vektor ciri berlaku dalam ruang hingar bagi ruang bunyi, yang merupakan pemberat vektor ciri adalah input kepada model resapan. Percampuran ciri cawangan pembinaan semula kandungan berlaku pada vektor ciri kandungan Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah dan vektor teks kosong, selaras dengan bentuk panduan penyebaran bebas pengelas [4]: ​​​​

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

pencampuran penyuntingan cabang utama Ia merupakan campuran vektor ciri kandungan Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah dan vektor ciri konsep Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah, iaitu

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Pada ketika ini, kunci kepada penyelidikan adalah bagaimana untuk mendapatkan vektor ciri maklumat struktur daripada imej sumber tunggal Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah, dan daripada imej sumber tunggal Gambar rujukan untuk mendapatkan vektor ciri maklumat konsep Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah. Artikel mencapai tujuan ini melalui dua skema penyongsangan yang berbeza.

Untuk memulihkan imej sumber, artikel itu merujuk kepada skema pengoptimuman NULL-text [5] dan mempelajari vektor ciri peringkat T untuk dipadankan dan sesuai dengan imej sumber. Tetapi tidak seperti NULL-text, yang mengoptimumkan vektor teks kosong agar sesuai dengan laluan DDIM, artikel ini secara langsung menepati anggaran vektor ciri bersih dengan mengoptimumkan vektor ciri imej sumber Formula pemasangan ialah:

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

.

Berbeza daripada maklumat struktur pembelajaran, maklumat konsep dalam imej rujukan perlu diwakili oleh satu vektor ciri yang sangat umum Peringkat T model resapan berkongsi vektor ciri konsep Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah. Artikel tersebut mengoptimumkan skema penyongsangan sedia ada Penyongsangan Tekstual [6] dan DreamArtist [7]. Ia menggunakan vektor ciri berbilang konsep untuk mewakili kandungan imej rujukan Fungsi kehilangan termasuk istilah anggaran hingar model resapan dan anggaran jangka kerugian pembinaan semula dalam ruang vektor pendam:

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah


Hasil eksperimen


Artikel menjalankan eksperimen mengenai penggantian subjek dan tugas penggayaan, yang boleh menukar kandungan menjadi subjek atau gaya imej rujukan sambil mengekalkan maklumat struktur imej sumber dengan lebih baik.


Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Kandungan yang ditulis semula: Kertas mengenai kesan eksperimen

Berbanding dengan penyelesaian sebelumnya, rangka kerja VCT yang dicadangkan dalam artikel ini mempunyai kelebihan berikut:

)

Generalisasi aplikasi : Berbanding dengan tugas penyuntingan imej sebelumnya berdasarkan panduan imej, VCT tidak memerlukan sejumlah besar data untuk latihan, dan mempunyai kualiti penjanaan dan generalisasi yang lebih baik. Ia berdasarkan idea penyongsangan dan berdasarkan model graf Vincentian berkualiti tinggi yang dipralatih pada data dunia terbuka Dalam aplikasi sebenar, hanya satu imej input dan satu imej rujukan diperlukan untuk mencapai kesan penyuntingan imej yang lebih baik.

(2) Ketepatan visual: Berbanding dengan penyelesaian imej penyuntingan teks terkini, VCT menggunakan gambar untuk panduan rujukan. Rujukan gambar membolehkan anda mengedit gambar dengan lebih tepat daripada penerangan teks. Rajah berikut menunjukkan hasil perbandingan antara VCT dan penyelesaian lain:

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Perbandingan kesan tugasan penggantian subjek

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Perbandingan tugas pemindahan gaya

Tiada maklumat tambahan diperlukan : Berbanding dengan beberapa penyelesaian terkini yang memerlukan penambahan maklumat kawalan tambahan (seperti peta topeng atau peta kedalaman) untuk kawalan panduan, VCT secara langsung mempelajari maklumat struktur dan maklumat semantik daripada imej sumber dan imej rujukan generasi, rajah berikut menunjukkan beberapa hasil perbandingan. Antaranya, Paint-by-example menggantikan objek yang sepadan dengan objek dalam imej rujukan dengan menyediakan peta topeng imej sumber Controlnet mengawal hasil yang dijana melalui lukisan garisan, peta kedalaman, dan lain-lain imej dan rujukan imej, maklumat struktur pembelajaran dan maklumat kandungan untuk digabungkan ke dalam imej sasaran tanpa sekatan tambahan.

Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah

Kesan Kesan Penyuntingan Imej Berdasarkan Panduan Imej -Metease Interactive Entertainment AI Lab

Netease Interactive Entertainment AI Lab telah ditubuhkan pada tahun 2017 dan bergabung dengan Netease Interactive Entertainment Business Group makmal kecerdasan buatan terkemuka dalam industri permainan. Makmal ini memberi tumpuan kepada penyelidikan dan aplikasi penglihatan komputer, pertuturan dan pemprosesan bahasa semula jadi, dan pembelajaran pengukuhan dalam senario permainan. Ia bertujuan untuk meningkatkan tahap teknikal permainan dan produk popular NetEase Interactive Entertainment melalui teknologi AI. Pada masa ini, teknologi ini telah digunakan dalam banyak permainan popular, seperti "Fantasy Westward Journey", "Harry Potter: Magic Awakening", "Onmyoji", "Westward Journey", dll.

Atas ialah kandungan terperinci Pelbagai gaya panduan VCT, semuanya dengan satu gambar, membolehkan anda melaksanakannya dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam