Rumah > Artikel > Peranti teknologi > Satu kejayaan baharu dalam penjanaan video: PixelDance, mempersembahkan pergerakan yang kompleks dan kesan khas yang menarik dengan mudah
Baru-baru ini, sebagai tambahan kepada model bahasa berskala besar yang ditonton secara meluas yang terus menduduki tajuk utama, teknologi penjanaan video juga terus membuat penemuan besar Banyak syarikat telah mengeluarkan model baharu satu demi satu #🎜 🎜#
Pertama sekali, Runway, sebagai salah satu peneraju terawal meneroka bidang penjanaan video, telah menaik taraf model Gen-2nya, membawakan definisi tinggi peringkat filem yang menarik perhatian. Pada masa yang sama, konsistensi penjanaan video juga telah dipertingkatkan dengan ketara Walau bagaimanapun, peningkatan dalam konsistensi ini nampaknya datang dengan mengorbankan dinamik video. Ia boleh dilihat daripada video promosi rasmi Gen-2 bahawa walaupun beberapa klip pendek dipasang, dinamik setiap klip adalah agak lemah, menjadikannya sukar untuk menangkap aksi dan pergerakan watak, haiwan atau objek yang jelas.
Baru-baru ini, Meta turut mengeluarkan model penjanaan video Emu Video. Seperti yang dapat dilihat daripada contoh rasmi Emu Video, dinamik videonya meningkat dengan ketara berbanding Gen-2, tetapi ia masih terhad kepada tindakan yang lebih mudah.
Stability.ai, syarikat yang membangunkan model graf Vincent klasik Stable Diffusion, juga baru-baru ini mengeluarkan sumber terbuka Model penjanaan video Stable Video Diffusion (SVD) telah menarik banyak perhatian dan perbincangan dalam komuniti sumber terbuka. Kesan SVD adalah setanding dengan Gen-2 Daripada sampel ujian, dapat dilihat bahawa video yang dihasilkan oleh SVD agak kurang dinamik.
menunjukkan dalam kertas SVD bahawa video semasa yang dijana oleh SVD mempunyai dinamik tidak mencukupi ### 🎜🎜 🎜#
Contoh di atas menunjukkan bahawa
Menjana video dengan konsistensi tinggi dan dinamik yang kaya, supaya kandungan video benar-benar boleh bergerak, kini merupakan cabaran terbesar dalam bidang penjanaan video# 🎜 🎜#.Dalam hal ini, hasil penyelidikan terkini
PixelDance telah mengambil langkah kritikal, dan dinamik hasil yang dihasilkan adalah jauh lebih baik daripada Model sedia ada lain telah menarik perhatian industri.
Berita PixelDance yang dimajukan oleh @_akhaliq, blogger AI terkenal di Twitter, telah menerima hampir 80,000 tontonan # 🎜🎜#
#🎜 🎜 #Di tapak web rasmi (https://makepixelsdance.github.io), PixelDance menyediakan dua mod penjanaan video berbeza.
Terdapat dua mod untuk dipilih, yang pertama ialah Mod Asas. Dalam mod ini, pengguna hanya perlu menyediakan imej panduan dan penerangan teks, dan PixelDance boleh menjana video yang sangat konsisten dan dinamik. Gambar panduan boleh menjadi foto sebenar, atau ia boleh dijana oleh model graf penjanaan teks sedia ada
Daripada hasil yang dipaparkan, gaya sebenar, gaya animasi, PixelDance boleh mengendalikan semua gaya dua dimensi dan ajaib, serta pergerakan watak, ekspresi muka, kawalan perspektif kamera dan pergerakan kesan khas PixelDance juga boleh melengkapkannya dengan baik. Apa yang boleh saya katakan ialah tql!
Yang kedua ialah mod sihir lanjutan (Mod Ajaib), yang membolehkan pengguna menggunakan imaginasi dan kreativiti mereka dengan lebih banyak. memaksa ruang. Dalam mod ini, pengguna perlu menyediakan dua gambar panduan + penerangan teks, yang boleh menjana kandungan video yang lebih sukar dengan lebih baik. Laman web ini memaparkan pelbagai tangkapan kesan khas yang hebat yang dibuat dengan mod ajaib.
Selain itu, laman web rasmi turut memaparkan filem cerpen berdurasi 3 minit yang dihasilkan sepenuhnya menggunakan PixelDance
Perkara yang sangat mengejutkan ialah menggunakan PixelDance boleh mencipta setiap adegan dan tindakan yang sepadan mengikut cerita yang dibayangkan oleh pengguna. Sama ada pemandangan sebenar (seperti Mesir, Tembok Besar, dll.) atau pemandangan khayalan (seperti planet asing), PixelDance boleh menjana video dengan butiran dan aksi yang kaya, malah pelbagai tangkapan kesan khas.
Topi atas hitam dan tali leher merah watak protagonis Encik Beruang Kutub diselenggara dengan baik dalam pelbagai adegan. Kini menjana video panjang bukan lagi sekadar menyatukan klip video pendek yang tidak berkaitan!
Untuk mencapai kesan penjanaan video yang luar biasa, ia tidak bergantung pada set data yang kompleks dan latihan model berskala besar berdasarkan data WebVid-10M awam set. Kesan di atas dicapai dengan hanya model saiz 1.5B.
Alamat kertas: https://arxiv.org/abs/2311.10982#🎜🎜🎜
Tulis semula kandungan tanpa mengubah maksud asal dan tulis semula ke dalam bahasa Cina: Sila lawati URL berikut untuk mendapatkan demo: https://makepixelsdance.github.io# 🎜🎜##🎜 🎜#Dalam kertas yang sepadan "Make Pixels Dance: High-Dynamic Video Generation", pengarang menunjukkan sebab mengapa penjanaan video sukar untuk mencapai hasil yang baik: berbanding dengan penjanaan imej, penjanaan video mempunyai penjanaan video yang jauh lebih besar. ruang ciri dan pergerakan yang pelbagai. Ini menyukarkan kaedah penjanaan video sedia ada untuk mempelajari maklumat tindakan domain masa yang berkesan Walaupun video yang dihasilkan mempunyai kualiti gambar yang tinggi, dinamiknya sangat terhad.
Sebagai tindak balas kepada masalah di atas, PixelDance mencadangkan kaedah penjanaan video berdasarkan panduan teks + panduan gambar bingkai pertama dan terakhir, membolehkan model memberi perhatian sepenuhnya kepada dan pelajari maklumat dinamik video.
Dalam penjanaan video, imej bingkai pertama menyediakan bingkai dan bahan keseluruhan kandungan video. Pada masa yang sama, video yang lebih panjang boleh dihasilkan dengan menggunakan bingkai terakhir klip video sebelumnya sebagai panduan untuk bingkai pertama klip seterusnya. Perihalan teks video menerangkan kandungan khusus tindakan video. Panduan gambar bingkai terakhir menyediakan maklumat status tamat untuk proses penjanaan video. Penulis mencadangkan kaedah penyesuaian yang membolehkan model menerima imej yang agak kasar sebagai panduan, yang membolehkan pengguna menggunakan alat penyuntingan imej asas untuk mendapatkan panduan imej bingkai akhir
# 🎜🎜# Maklumat di laman web rasmi menunjukkan bahawa ia masih aktif mengulangi kesan model, dan model yang semua orang boleh cuba akan dikeluarkan dalam masa 2-3 bulan akan datang. Pada masa ini, penulis juga menyediakan cara untuk menyokong semua orang dalam menghantar sampel yang mereka ingin uji Pada masa ini, beberapa sampel ujian pengguna telah dikeluarkan di laman web rasmi:
.
Nampaknya dengan PixelDance, semua orang boleh menjadi "tuan kesan khas berjuta dolar" asalkan mereka mempunyai imaginasi yang liar!Atas ialah kandungan terperinci Satu kejayaan baharu dalam penjanaan video: PixelDance, mempersembahkan pergerakan yang kompleks dan kesan khas yang menarik dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!