Rumah >Peranti teknologi >AI >Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

PHPz
PHPzke hadapan
2023-04-12 09:58:031509semak imbas

Dalam beberapa tahun kebelakangan ini, penyelidikan mengenai penjanaan imej berdasarkan Generative Adversarial Network (GAN) telah mencapai kemajuan yang ketara. Selain dapat menghasilkan gambar beresolusi tinggi, realistik, banyak aplikasi inovatif juga telah muncul, seperti penyuntingan gambar yang diperibadikan, animasi gambar, dll. Walau bagaimanapun, cara menggunakan GAN untuk penjanaan video masih menjadi masalah yang mencabar.

Selain memodelkan imej bingkai tunggal, penjanaan video juga memerlukan pembelajaran perhubungan temporal yang kompleks. Baru-baru ini, penyelidik dari Universiti China Hong Kong, Makmal Kecerdasan Buatan Shanghai, Institut Penyelidikan Teknologi Semut dan Universiti California, Los Angeles mencadangkan kaedah penjanaan video baharu (Menuju Komposisi Video Lancar). Dalam artikel itu, mereka menjalankan pemodelan dan penambahbaikan terperinci pada hubungan siri masa bagi rentang yang berbeza (julat jangka pendek, julat sederhana, julat panjang) dan mencapai peningkatan yang ketara berbanding kerja sebelumnya pada berbilang set data. Kerja ini menyediakan penanda aras baharu yang mudah dan berkesan untuk penjanaan video berasaskan GAN.

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

  • Alamat kertas: https://arxiv.org/pdf/2212.07413.pdf
  • Pautan kod projek: https://github.com/genforce/StyleSV

Seni bina model

Rangkaian penjanaan imej berdasarkan GAN boleh dinyatakan sebagai: I=G(Z), di mana Z ialah pembolehubah rawak, G ialah rangkaian penjanaan, dan I ialah imej yang dijana. Kita hanya boleh memanjangkan rangka kerja ini kepada kategori penjanaan video: I_i=G(z_i), i=[1,...,N], di mana kita sampel N pembolehubah rawak z_i pada satu masa, dan setiap pembolehubah rawak z_i menjana a sepadan A bingkai gambar I_i. Video yang dijana boleh diperolehi dengan menyusun imej yang dihasilkan dalam dimensi masa.

MoCoGAN, StyleGAN-V dan karya lain telah mencadangkan ungkapan penyahgandingan atas dasar ini: I_i=G(u, v_i), i=[1,..., N], di mana u mewakili pembolehubah rawak yang mengawal kandungan, dan v_i mewakili pembolehubah rawak yang mengawal tindakan. Perwakilan ini berpendapat bahawa semua bingkai berkongsi kandungan yang sama dan mempunyai gerakan yang unik. Melalui ungkapan yang dipisahkan ini, kami boleh menjana video aksi dengan lebih baik dengan gaya kandungan yang konsisten dan realisme yang boleh diubah. Kerja baharu itu mengguna pakai reka bentuk StyleGAN-V dan menggunakannya sebagai garis dasar.

Kesukaran dalam penjanaan video: Bagaimana untuk memodelkan perhubungan pemasaan secara berkesan dan munasabah?

Kerja baharu memfokuskan pada perhubungan pemasaan bagi rentang yang berbeza (julat pendek, julat sederhana, julat panjang) dan masing-masing menjalankan pemodelan dan penambahbaikan terperinci:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

1. Hubungan pemasaan masa yang singkat (~5 bingkai)

Mari kita pertimbangkan dahulu video dengan hanya beberapa bingkai . Bingkai video pendek ini selalunya mengandungi kandungan yang hampir sama, hanya menunjukkan pergerakan yang sangat halus. Oleh itu, adalah penting untuk menjana pergerakan halus antara bingkai secara realistik. Walau bagaimanapun, tekstur melekat yang serius berlaku dalam video yang dihasilkan oleh StyleGAN-V.

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Lekatan tekstur bermaksud bahagian kandungan yang dijana bergantung pada koordinat tertentu menyebabkan fenomena "melekat" pada kawasan tetap. Dalam bidang penjanaan imej, StyleGAN3 mengurangkan masalah lekatan tekstur melalui pemprosesan isyarat terperinci, julat padding yang diperluas dan operasi lain. Kerja ini mengesahkan bahawa teknik yang sama masih berkesan untuk penjanaan video.

Dalam visualisasi di bawah, kami menjejaki piksel pada lokasi yang sama dalam setiap bingkai video. Adalah mudah untuk mengetahui bahawa dalam video StyleGAN-V, beberapa kandungan telah "melekit" pada koordinat tetap untuk masa yang lama dan tidak bergerak dari semasa ke semasa, sekali gus menghasilkan "fenomena berus" dalam visualisasi. Dalam video yang dihasilkan oleh kerja baharu, semua piksel mempamerkan pergerakan semula jadi.

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Walau bagaimanapun, penyelidik mendapati bahawa merujuk tulang belakang StyleGAN3 akan mengurangkan kualiti penjanaan imej. Untuk mengurangkan masalah ini, mereka memperkenalkan pra-latihan peringkat imej. Dalam peringkat pra-latihan, rangkaian hanya perlu mempertimbangkan kualiti penjanaan bingkai tertentu dalam video, dan tidak perlu mempelajari pemodelan julat temporal, menjadikannya lebih mudah untuk mempelajari pengetahuan tentang pengedaran imej.

2 perhubungan pemasaan panjang sederhana (~5 saat)

Dengan lebih banyak video bingkai yang dihasilkan, ia akan dapat menunjukkan tindakan yang lebih spesifik. Oleh itu, adalah penting untuk memastikan bahawa video yang dihasilkan mempunyai gerakan yang realistik. Contohnya, jika kita ingin menjana video pemanduan orang pertama, kita harus menjana pemandangan tanah dan jalanan yang surut secara beransur-ansur, dan kereta yang menghampiri juga harus mengikut trajektori pemanduan semula jadi.

Dalam latihan lawan, untuk memastikan rangkaian generatif menerima penyeliaan latihan yang mencukupi, rangkaian diskriminatif adalah penting. Oleh itu, dalam penjanaan video, untuk memastikan rangkaian penjanaan boleh menjana tindakan yang realistik, rangkaian diskriminatif perlu memodelkan hubungan temporal dalam berbilang bingkai dan menangkap gerakan tidak realistik yang dihasilkan. Walau bagaimanapun, dalam kerja sebelumnya, rangkaian diskriminasi hanya menggunakan operasi penggabungan mudah untuk melaksanakan pemodelan temporal: y = cat (y_i), di mana y_i mewakili ciri bingkai tunggal dan y mewakili ciri selepas gabungan domain masa.

Untuk rangkaian diskriminasi, kerja baharu ini mencadangkan pemodelan pemasaan yang jelas, iaitu, memperkenalkan Modul Anjakan Temporal (TSM) pada setiap lapisan rangkaian diskriminasi. TSM berasal dari bidang pengecaman tindakan dan merealisasikan pertukaran maklumat temporal melalui operasi anjakan mudah:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Eksperimen menunjukkan bahawa selepas pengenalan TSM, tiga FVD16 , FVD128 pada set data telah dikurangkan ke tahap yang besar.

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

3 Penjanaan video tanpa had

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitterSeperti yang ditunjukkan dalam rajah, dalam video yang dijana oleh StyleGAN-V, apabila kereta sendiri bergerak maju, lintasan zebra pada asalnya berundur seperti biasa, tetapi kemudian tiba-tiba berubah untuk bergerak ke hadapan. Kerja ini mendapati ketakselanjaran dalam ciri gerakan (motion embedding) menyebabkan fenomena jitter ini.

Kerja sebelumnya menggunakan interpolasi linear untuk mengira ciri tindakan Walau bagaimanapun, interpolasi linear akan membawa kepada ketakselanjaran urutan pertama, seperti yang ditunjukkan dalam rajah di bawah (sebelah kiri ialah rajah interpolasi, sebelah kanan. ialah ciri T-SNE) Visualisasi):

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitterKerja ini mencadangkan ciri-ciri gerakan kawalan B-spline (pembenaman gerakan berasaskan B-Spline) . Interpolasi melalui B-spline boleh memperoleh ciri tindakan yang lebih lancar berkenaan dengan masa, seperti yang ditunjukkan dalam rajah (kiri ialah rajah interpolasi, kanan ialah visualisasi ciri T-SNE):

Dengan memperkenalkan ciri-ciri tindakan kawalan B-spline, kerja baharu ini mengurangkan fenomena jitter:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Seperti yang ditunjukkan dalam rajah, dalam video yang dijana oleh StyleGAN-V, lampu jalan dan tanah secara tiba-tiba akan menukar arah pergerakan. Dalam video yang dihasilkan oleh karya baharu, arah pergerakan adalah konsisten dan semula jadi.

Pada masa yang sama, karya baharu itu juga mencadangkan kekangan peringkat rendah pada ciri tindakan untuk mengurangkan lagi kejadian kandungan berulang berkala.

Eksperimen

Kerja telah diuji sepenuhnya pada tiga set data (YouTube Pemanduan, Timelapse, Taichi-HD) dan dibandingkan sepenuhnya dengan kerja sebelumnya, Keputusan menunjukkan bahawa kerja baharu telah mencapai peningkatan yang mencukupi dalam kualiti gambar (FID) dan kualiti video (FVD).

Keputusan percubaan SkyTimelapse:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Hasil percubaan Taichi-HD:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Hasil percubaan Memandu YouTube:

Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter

Ringkasan

Karya baharu adalah berdasarkan model GAN, Penanda aras penjanaan video baharu dicadangkan, bermula daripada perhubungan temporal skala yang berbeza, dan mencadangkan penambahbaikan baru dan berkesan. Percubaan pada berbilang set data menunjukkan bahawa kerja baharu itu berjaya mencapai kualiti video yang jauh melebihi kerja sebelumnya.

Atas ialah kandungan terperinci Video licin dijana berdasarkan GAN, dan kesannya sangat mengagumkan: tiada lekatan tekstur, pengurangan jitter. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam