Rumah >Peranti teknologi >AI >Ali berinovasi lagi: anda boleh merealisasikan tarian 'Membersihkan Kaca' dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!
Satu lagi kertas Alibaba bernama "Dance Work" menimbulkan sensasi selepas AnimateAnyone
Sekarang, muat naik sahaja foto muka dan penerangan ringkas, dan anda boleh menari di mana-mana sahaja!
Sebagai contoh, video tarian "Membersihkan Kaca" di bawah:
Gambar
Apa yang anda perlu lakukan ialah memuat naik foto potret dan isikan maklumat segera yang sepadan
Dalam daun emas musim luruh, seorang gadis Pakai gaun biru muda dan menari dengan senyuman
Apabila segera berubah, latar belakang watak dan pakaian akan berubah dengan sewajarnya. Sebagai contoh, kita boleh menukar beberapa ayat lagi:
Seorang gadis tersenyum dan menari di dalam rumah kayu Dia memakai baju sejuk dan seluar
Seorang gadis sedang tersenyum dan menari di Times Square baju putih dengan seluar panjang Lengan, seluar.
Gambar
Ini adalah penyelidikan terbaru Ali - DreaMoving, yang memfokuskan pada membenarkan sesiapa sahaja menari pada bila-bila masa dan di mana-mana sahaja.
Pictures
dan bukan sahaja orang sebenar, tetapi juga watak -watak kartun dan animasi boleh diadakan ~
pictures 'tidak lama lagi projek itu keluar, ia juga menarik perhatian banyak netizens orang ramai Selepas melihat kesannya, saya memanggilnya "Unbelievable"~
gambarJadi bagaimana keputusan ini dicapai? Bagaimanakah penyelidikan ini dijalankan?
Prinsip di sebalikWalaupun kemunculan model teks-ke-video (T2V) seperti Stable Video Diffusion dan Gen2 telah membuat kejayaan besar dalam bidang penjanaan video, ia masih berdepan dengan Banyak cabaranSebagai contoh, dari segi set data, pada masa ini terdapat kekurangan set data video tarian manusia sumber terbuka dan kesukaran untuk mendapatkan huraian teks tepat yang sepadan, yang menyukarkan model untuk menjana video dengan kepelbagaian, ketekalan bingkai dan tempoh yang lebih lama Dan dalam bidang penjanaan kandungan berpusatkan manusia, pemperibadian dan kebolehkawalan hasil yang dihasilkan juga merupakan faktor utama. GambarUntuk menangani kedua-dua cabaran ini, pasukan Alibaba mula memproses set data
Para penyelidik mula-mula mengumpul kira-kira 1,000 video tarian manusia berkualiti tinggi daripada Internet. Kemudian, mereka memotong video ini kepada kira-kira 6000 video pendek (8 hingga 10 saat setiap satu) untuk memastikan bahawa tiada peralihan dan kesan khas dalam klip video, yang kondusif untuk latihan model temporalSelain itu, dalam susunan untuk menjana penerangan teks video , mereka menggunakan Minigpt-v2 sebagai kapsyen video, khususnya menggunakan versi "grounding" Arahannya adalah untuk menerangkan bingkai secara terperinci. Dengan menjana sari kata berdasarkan bingkai tengah bingkai utama, tema dan kandungan latar belakang klip video boleh diterangkan dengan tepatDari segi rangka kerja, pasukan Alibaba mencadangkan model yang dipanggil DreaMoving berdasarkan Stable Diffusion. Ia terutamanya terdiri daripada tiga rangkaian saraf, termasuk Denoising U-Net, Video ControlNet dan Content Guider. gambarAntaranya, Video ControlNet ialah rangkaian kawalan imej yang disuntik ke dalam Motion Block selepas setiap blok U-Net, memproses urutan kawalan (pose atau kedalaman) ke dalam sisa temporal tambahan
Denoising U-Net ialah terbitan Stable- Diffusion U- Net, dengan blok gerakan untuk penjanaan video.
Pemandu Kandungan menghantar gesaan teks input dan ekspresi penampilan (seperti muka) ke benaman kandungan.
Dengan melakukan ini, DreaMoving dapat menjana video berkualiti tinggi, kesetiaan tinggi
gambar
tetapi sayangnya, pada masa ini tiada kod sumber terbuka untuk projek DreaMoving.
Bagi mereka yang berminat dengan ini, anda boleh memberi perhatian dahulu dan tunggu keluaran kod sumber terbuka~
Sila rujuk pautan berikut: [1]https://dreamoving.github.io/dreamoving/ [2]https:// arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project
Atas ialah kandungan terperinci Ali berinovasi lagi: anda boleh merealisasikan tarian 'Membersihkan Kaca' dengan ayat dan wajah manusia, dan kostum serta latar belakang boleh ditukar dengan bebas!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!