Rumah >Peranti teknologi >AI >Ali berinovasi lagi: anda boleh merealisasikan tarian 'Membersihkan Kaca' dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!

Ali berinovasi lagi: anda boleh merealisasikan tarian 'Membersihkan Kaca' dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan: 2023-12-15 12:39:161080semak imbas

Satu lagi kertas Alibaba bernama "Dance Work" menimbulkan sensasi selepas AnimateAnyone

Sekarang, muat naik sahaja foto muka dan penerangan ringkas, dan anda boleh menari di mana-mana sahaja!

Sebagai contoh, video tarian "Membersihkan Kaca" di bawah:

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! Gambar

Apa yang anda perlu lakukan ialah memuat naik foto potret dan isikan maklumat segera yang sepadan

Dalam daun emas musim luruh, seorang gadis Pakai gaun biru muda dan menari dengan senyuman

Apabila segera berubah, latar belakang watak dan pakaian akan berubah dengan sewajarnya. Sebagai contoh, kita boleh menukar beberapa ayat lagi:

Seorang gadis tersenyum dan menari di dalam rumah kayu Dia memakai baju sejuk dan seluar

Seorang gadis sedang tersenyum dan menari di Times Square baju putih dengan seluar panjang Lengan, seluar.

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! Gambar

Ini adalah penyelidikan terbaru Ali - DreaMoving, yang memfokuskan pada membenarkan sesiapa sahaja menari pada bila-bila masa dan di mana-mana sahaja.

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! Pictures

dan bukan sahaja orang sebenar, tetapi juga watak -watak kartun dan animasi boleh diadakan ~

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! pictures 'tidak lama lagi projek itu keluar, ia juga menarik perhatian banyak netizens orang ramai Selepas melihat kesannya, saya memanggilnya "Unbelievable"~

gambar

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! Jadi bagaimana keputusan ini dicapai? Bagaimanakah penyelidikan ini dijalankan?

Prinsip di sebalik

Walaupun kemunculan model teks-ke-video (T2V) seperti Stable Video Diffusion dan Gen2 telah membuat kejayaan besar dalam bidang penjanaan video, ia masih berdepan dengan Banyak cabaran

Sebagai contoh, dari segi set data, pada masa ini terdapat kekurangan set data video tarian manusia sumber terbuka dan kesukaran untuk mendapatkan huraian teks tepat yang sepadan, yang menyukarkan model untuk menjana video dengan kepelbagaian, ketekalan bingkai dan tempoh yang lebih lama

Dan dalam bidang penjanaan kandungan berpusatkan manusia, pemperibadian dan kebolehkawalan hasil yang dihasilkan juga merupakan faktor utama.

Gambar

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! Untuk menangani kedua-dua cabaran ini, pasukan Alibaba mula memproses set data

Para penyelidik mula-mula mengumpul kira-kira 1,000 video tarian manusia berkualiti tinggi daripada Internet. Kemudian, mereka memotong video ini kepada kira-kira 6000 video pendek (8 hingga 10 saat setiap satu) untuk memastikan bahawa tiada peralihan dan kesan khas dalam klip video, yang kondusif untuk latihan model temporal

Selain itu, dalam susunan untuk menjana penerangan teks video , mereka menggunakan Minigpt-v2 sebagai kapsyen video, khususnya menggunakan versi "grounding" Arahannya adalah untuk menerangkan bingkai secara terperinci.

Dengan menjana sari kata berdasarkan bingkai tengah bingkai utama, tema dan kandungan latar belakang klip video boleh diterangkan dengan tepat

Dari segi rangka kerja, pasukan Alibaba mencadangkan model yang dipanggil DreaMoving berdasarkan Stable Diffusion.

Ia terutamanya terdiri daripada tiga rangkaian saraf, termasuk Denoising U-Net, Video ControlNet dan Content Guider.

gambar

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!

Antaranya, Video ControlNet ialah rangkaian kawalan imej yang disuntik ke dalam Motion Block selepas setiap blok U-Net, memproses urutan kawalan (pose atau kedalaman) ke dalam sisa temporal tambahan

Denoising U-Net ialah terbitan Stable- Diffusion U- Net, dengan blok gerakan untuk penjanaan video.

Pemandu Kandungan menghantar gesaan teks input dan ekspresi penampilan (seperti muka) ke benaman kandungan.

Dengan melakukan ini, DreaMoving dapat menjana video berkualiti tinggi, kesetiaan tinggi

Ali berinovasi lagi: anda boleh merealisasikan tarian Membersihkan Kaca dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas! gambar

tetapi sayangnya, pada masa ini tiada kod sumber terbuka untuk projek DreaMoving.

Bagi mereka yang berminat dengan ini, anda boleh memberi perhatian dahulu dan tunggu keluaran kod sumber terbuka~

Sila rujuk pautan berikut: [1]https://dreamoving.github.io/dreamoving/ [2]https:// arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

Atas ialah kandungan terperinci Ali berinovasi lagi: anda boleh merealisasikan tarian 'Membersihkan Kaca' dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

github stable diffusion https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023)Artikel seterusnya：QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023)

Artikel berkaitan

Lihat lagi