Rumah >Peranti teknologi >AI >Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

王林ke hadapan: 2024-01-22 13:06:121050semak imbas

Penjanaan video AI adalah salah satu bidang paling hangat baru-baru ini. Pelbagai makmal universiti, Makmal AI gergasi Internet, dan syarikat pemula telah menyertai trek penjanaan video AI. Keluaran model penjanaan video seperti Pika, Gen-2, Show-1, VideoCrafter, ModelScope, SEINE, LaVie dan VideoLDM adalah lebih menarik perhatian. v⁽ⁱ⁾

Anda mesti ingin tahu tentang soalan berikut:

Model penjanaan video manakah yang terbaik?
Apakah keistimewaan setiap model?
Apakah isu yang patut diberi perhatian dan perlu diselesaikan dalam bidang penjanaan video AI?

Untuk tujuan ini, kami telah melancarkan VBench, "rangka kerja penilaian untuk model penjanaan video" komprehensif yang direka untuk menyediakan pengguna dengan maklumat tentang kelebihan, kelemahan dan ciri pelbagai model video. Melalui VBench, pengguna boleh memahami kekuatan dan kelebihan model video yang berbeza. .

Laman web: https ://vchitect.github.io/VBench-project/

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang? Tajuk kertas: VBench: Suite Penanda Aras Komprehensif untuk Model Generatif Video

VBench mengandungi 16 dimensi penilaian berlapis dan dipisahkan
VBench mempunyai sumber terbuka sistem penilaian Senarai Prompt untuk penilaian penjanaan video Vincent🜎🜎 dinyalakan dengan persepsi manusia dan Evaluasi

VBench memberikan pandangan pelbagai perspektif untuk membantu penjelajahan masa depan generasi video AI

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang? "VBench" - suite penanda aras komprehensif "model generasi video"

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

- keputusan penilaian

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video AI sumber terbuka

Prestasi setiap model penjanaan video AI sumber terbuka pada VBench adalah seperti berikut.

Prestasi pelbagai model penjanaan video AI sumber terbuka di VBench. Dalam carta radar, kami menormalkan keputusan untuk setiap dimensi menjadi antara 0.3 dan 0.8 untuk menggambarkan perbandingan dengan lebih jelas.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang? Prestasi pelbagai model penjanaan video AI sumber terbuka pada VBench.

Di antara 6 model di atas, dapat dilihat bahawa VideoCrafter-1.0 dan Show-1 mempunyai kelebihan relatif dalam kebanyakan dimensi.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video pemula

VBench kini menyediakan hasil penilaian dua model permulaan, Gen-2 dan Pika.

Prestasi Gen-2 dan Pika di VBench. Dalam carta radar, untuk menggambarkan perbandingan dengan lebih jelas, kami menambah VideoCrafter-1.0 dan Show-1 sebagai rujukan, dan menormalkan keputusan penilaian setiap dimensi menjadi antara 0.3 dan 0.8.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Prestasi Gen-2 dan Pika di VBench. Kami menyertakan hasil berangka VideoCrafter-1.0 dan Show-1 sebagai rujukan.

Dapat dilihat bahawa Gen-2 dan Pika mempunyai kelebihan yang jelas dalam kualiti video (Kualiti Video), seperti ketekalan temporal (Temporal Consistency) dan kualiti bingkai tunggal (Kualiti Estetik dan Kualiti Pengimejan) berkaitan dimensi. Dari segi konsistensi semantik dengan gesaan input pengguna (seperti Tindakan Manusia dan Gaya Penampilan), model sumber terbuka separa dimensi akan menjadi lebih baik.

Model penjanaan video VS model penjanaan gambar

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video VS model penjanaan gambar. Antaranya, SD1.4, SD2.1 dan SDXL ialah model penjanaan imej.

Prestasi model penjanaan video pada 8 kategori adegan utama

Berikut ialah keputusan penilaian model berbeza pada 8 kategori berbeza.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

VBench kini sumber terbuka dan boleh dipasang dengan satu klik

Pada masa ini, VBench adalah sumber terbuka sepenuhnya dan menyokong pemasangan satu klik. Semua orang dialu-alukan untuk bermain, menguji model yang anda minati dan bekerjasama untuk mempromosikan pembangunan komuniti penjanaan video.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Alamat sumber terbuka: https://github.com/Vchitect/VBench

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Kami juga mempunyai siri Prompt sumber terbuka Senarai: https ://github.com/Vchitect/VBench/tree/master/prompts, mengandungi Penanda Aras untuk penilaian dalam dimensi keupayaan yang berbeza, serta Penanda Aras penilaian pada kandungan senario yang berbeza.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Perkataan awan di sebelah kiri menunjukkan pengedaran perkataan frekuensi tinggi dalam Prompt Suite kami, dan gambar di sebelah kanan menunjukkan bilangan gesaan dalam dimensi dan kategori yang berbeza.

Adakah VBench tepat?

Untuk setiap dimensi, kami mengira korelasi antara keputusan penilaian VBench dan keputusan penilaian manual untuk mengesahkan ketekalan kaedah kami dengan persepsi manusia. Dalam rajah di bawah, paksi mendatar mewakili keputusan penilaian manual dalam dimensi yang berbeza, dan paksi menegak menunjukkan hasil penilaian automatik kaedah VBench Ia dapat dilihat bahawa kaedah kami sangat sejajar dengan persepsi manusia dalam semua dimensi.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

VBench membawa pemikiran kepada penjanaan video AI

VBench bukan sahaja boleh menilai model sedia ada, tetapi yang lebih penting, ia juga boleh menemui pelbagai masalah yang mungkin wujud dalam model yang berbeza untuk menyediakan AI masa depan Pembangunan video generasi memberikan pandangan yang berharga.

"Ketekalan temporal" dan "Dinamik video": Jangan pilih satu atau yang lain, tetapi perbaiki kedua-duanya

Kami mendapati bahawa ketekalan temporal (seperti Ketekalan Subjek, Ketekalan Latar Belakang) dan Kelancaran Pergerakan video Terdapat hubungan tukar ganti tertentu antara amplitud gerakan (Dasar Dinamik). Sebagai contoh, Show-1 dan VideoCrafter-1.0 menunjukkan prestasi yang sangat baik dari segi konsistensi latar belakang dan kelancaran tindakan, tetapi mendapat markah yang lebih rendah dari segi dinamik ini mungkin kerana menjana gambar "tidak bergerak" lebih berkemungkinan muncul "dalam masa"; Sangat koheren." VideoCrafter-0.9, sebaliknya, lebih lemah pada dimensi yang berkaitan dengan ketekalan masa, tetapi mendapat markah tinggi pada Ijazah Dinamik. 🎜🎜

Ini menunjukkan bahawa memang sukar untuk mencapai "keselarasan temporal" dan "tahap dinamik yang lebih tinggi" pada masa yang sama, kita seharusnya tidak hanya menumpukan pada penambahbaikan satu aspek, tetapi harus meningkatkan "keselarasan temporal" dan "video" kualiti" pada masa yang sama. Ijazah dinamik" kedua-dua aspek ini, ini bermakna.

Nilai mengikut kandungan adegan untuk meneroka potensi setiap model

Sesetengah model mempunyai perbezaan besar dalam prestasi dalam kategori yang berbeza Contohnya, dari segi kualiti estetik (Kualiti Estetik), CogVideo Kategori " ” menunjukkan prestasi yang baik, tetapi mendapat markah yang lebih rendah dalam kategori "Gaya Hidup". Jika data latihan dilaraskan, bolehkah kualiti estetik CogVideo dalam kategori "Gaya Hidup" dipertingkatkan, sekali gus meningkatkan kualiti estetik video keseluruhan model?

Ini juga memberitahu kita bahawa apabila menilai model penjanaan video, kita perlu mempertimbangkan prestasi model di bawah kategori atau topik yang berbeza, meneroka had atas model dalam dimensi keupayaan tertentu, dan kemudian meningkatkan " ketinggalan" kategori adegan.

Kategori dengan gerakan kompleks: prestasi spatiotemporal yang lemah

Kategori dengan kerumitan spatial yang tinggi mempunyai markah yang rendah dalam dimensi kualiti estetik. Sebagai contoh, kategori "Gaya Hidup" mempunyai keperluan yang agak tinggi untuk susun atur elemen kompleks dalam ruang, dan kategori "Manusia" menimbulkan cabaran disebabkan penjanaan struktur berengsel.

Untuk kategori dengan pemasaan yang kompleks, seperti kategori "Manusia", yang biasanya melibatkan tindakan yang kompleks, dan kategori "Kenderaan", yang sering bergerak lebih pantas, mereka mempunyai markah yang agak rendah dalam semua dimensi yang diuji. Ini menunjukkan bahawa model semasa masih mempunyai kekurangan tertentu dalam memproses pemodelan temporal Had pemodelan temporal boleh menyebabkan kekaburan dan herotan spatial, mengakibatkan kualiti video yang tidak memuaskan dalam masa dan ruang.

Sukar untuk menjana kategori: Terdapat sedikit faedah daripada meningkatkan jumlah data

Kami menjalankan statistik pada set data video yang biasa digunakan WebVid-10M dan mendapati bahawa kira-kira 26% daripada data berkaitan dengan "Manusia". Perkadaran tertinggi antara lapan kategori yang kami kira. Walau bagaimanapun, dalam keputusan penilaian, kategori "Manusia" adalah antara yang paling teruk berprestasi antara lapan kategori.

Ini menunjukkan bahawa untuk kategori kompleks seperti "Manusia", hanya menambah jumlah data mungkin tidak membawa peningkatan yang ketara kepada prestasi. Satu kaedah yang berpotensi adalah untuk membimbing pembelajaran model dengan memperkenalkan pengetahuan atau kawalan terdahulu berkaitan "Manusia", seperti Skeletons, dsb. . skor. Oleh itu, kami menganalisis lagi prestasi kualiti estetik bagi kategori kandungan yang berbeza dalam set data WebVid-10M dan mendapati bahawa kategori "Makanan" juga mempunyai skor estetik tertinggi dalam WebVid-10M.

Ini bermakna berdasarkan berjuta-juta data, menapis/meningkatkan kualiti data adalah lebih membantu daripada meningkatkan jumlah data.

Keupayaan untuk dipertingkatkan: Menjana berbilang objek dengan tepat dan hubungan antara objek

Model penjanaan video semasa adalah dalam "Multiple Objects" dan "Spatial Relationship" Dari segi prestasi, ia masih tidak dapat mengejar ketinggalan dengan model penjanaan imej (terutama SDXL), yang menyerlahkan kepentingan meningkatkan keupayaan gabungan. Keupayaan gabungan yang dipanggil merujuk kepada sama ada model boleh memaparkan dengan tepat berbilang objek dalam penjanaan video, serta hubungan ruang dan interaktif antara mereka.

Kaedah yang berpotensi untuk menyelesaikan masalah ini mungkin termasuk:

Pelabelan data: Bina set data video untuk memberikan penerangan yang jelas tentang berbilang objek dalam video, serta penerangan tentang hubungan kedudukan ruang dan interaksi antara objek.

Tambah mod/modul perantaraan semasa proses penjanaan video untuk membantu dalam mengawal gabungan dan kedudukan spatial objek.

Atas ialah kandungan terperinci Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

for 对象 background github https prompt

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Berapa banyak lapisan Transformer digunakan dalam model BERT?Artikel seterusnya：Berapa banyak lapisan Transformer digunakan dalam model BERT?

Artikel berkaitan

Lihat lagi