Rumah > Artikel > Peranti teknologi > Model penjanaan video generasi baharu Byte menjadikan kesan Hulk memakai cermin mata VR lebih baik daripada Gen-2!
Dengan satu ayat, Hulk boleh memakai cermin mata VR.
Kualiti 4K.
Panda’s Life of Fantasy~
Ini adalah model generasi video AI terbaru Byte MagicVideo-V2, semua jenis idea hebat boleh direalisasikan. Ia bukan sahaja menyokong resolusi ultra tinggi 4K dan 8K, tetapi boleh memegang pelbagai gaya lukisan dengan mudah.
Kesan penilaian melebihi Gen-2, Pika dan alatan penjanaan video AI sedia ada.
Akibatnya, dalam masa 24 jam selepas ia masuk dalam talian, ia menarik perhatian ramai Contohnya, satu tweet mempunyai hampir 200,000 tontonan.
Ramai netizen terkejut dengan kesannya, malah terus terang berkata: Ia lebih baik daripada landasan dan pika.
Para penyelidik melakukan perbandingan kesan sebenar. Para peserta ialah: MagicVideo-V2, StabilityAI's SVD-XT, pemain berpotensi baharu Pika1.0, dan Runway's Gen-2.
Pusingan 1: Kesan cahaya dan bayang.
Ketika matahari terbenam, pengembara berjalan sendirian di dalam hutan berkabus.
(dari kiri ke kanan: MagicVideo-V2, SVD-XT, Pika kanan atas, bawah kanan Gen-2, sama di bawah)
Anda boleh lihat MagicVideo-V2, Gen-2 dan Pika mempunyai cahaya dan bayangan yang jelas. Walau bagaimanapun, Pika tidak boleh dilihat untuk pengembara, kerana MagicVideo-V2 mempunyai nada yang lebih kaya.
Pusingan kedua: ekspresi plot situasi.
Sebuah sitkom pada tahun 1910-an, menceritakan kehidupan seharian dan perkara remeh dalam masyarakat
Pusingan ini, MagicVideo-V2 dan Gen-2 jelas lebih baik. Walaupun komposisi julat pertengahan yang dipersembahkan oleh SVD-XT mencerminkan umur, ia tidak cukup ekspresif.
Pusingan 3: Realistik.
Budak kecil itu menunggang basikal di laluan di taman, dan rodanya mengeluarkan bunyi denting di atas batu kelikir.
Kali ini kontrasnya lebih jelas. MagicVideo-V2 dan SVD-XT mencerminkan sepenuhnya maksud ayat tersebut, tetapi MagicVideo-V2 dapat melihat butiran kaki kanak-kanak yang bergerak dengan jelas.
Selain itu, para penyelidik juga menjalankan penilaian manusia satu lawan satu terhadap MagicVideo-V2 terhadap kaedah terkini.
Hasilnya menunjukkan bahawa orang berpendapat MagicVideo-V2 berfungsi lebih baik berbanding kaedah lain.
(Bar hijau, kelabu dan merah jambu mewakili hasil percubaan di mana MagicVideo-V2 masing-masing dinilai sebagai lebih baik, setara atau lebih teruk.)
Ringkasnya, MagicVideo-V2 ialah saluran penjanaan video yang menyepadukan model teks-ke-imej, penjana gerakan video, modul pembenaman imej rujukan dan modul interpolasi.
Pertama sekali, modul T2I mula-mula menjana imej 1024×1024 berdasarkan teks, dan kemudian modul I2V menghidupkan imej statik untuk menghasilkan jujukan bingkai 600×600×32, dan kemudian menggunakan modul V2V untuk meningkatkan dan tingkatkan kandungan video , dan akhirnya gunakan modul interpolasi untuk memanjangkan jujukan kepada 94 bingkai.
Dengan cara ini, kesetiaan yang tinggi dan kesinambungan masa terjamin.
Tetapi seawal November 2022, Byte melancarkan versi MagicVideo V1.
Walau bagaimanapun, penekanan lebih diberikan pada kecekapan pada masa itu, yang boleh menjana video resolusi 256x256 pada satu kad GPU.
Pautan rujukan:
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
Pautan projek: 2
Pautan kertas :
https://arxiv.org/abs/2401.04468
Atas ialah kandungan terperinci Model penjanaan video generasi baharu Byte menjadikan kesan Hulk memakai cermin mata VR lebih baik daripada Gen-2!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!