Rangka kerja sintesis video baharu Meta telah membawa kami beberapa kejutan
Generatif AI dikurniakan keupayaan untuk mencipta atau mengubah suai kandungan dengan mudah. Pengeditan imej, khususnya, telah mengalami pertumbuhan yang ketara, didorong oleh model penyebaran teks ke imej yang telah dilatih terlebih dahulu pada set data berskala bilion. Gelombang ini telah menghasilkan banyak aplikasi penyuntingan imej dan penciptaan kandungan.
Berdasarkan pencapaian model generatif berasaskan imej, bidang cabaran seterusnya mestilah menambah "dimensi masa" padanya, untuk mencapai penyuntingan video yang mudah dan kreatif.
Strategi mudah ialah menggunakan model imej untuk memproses bingkai video demi bingkai, namun, pengeditan imej generatif sememangnya sangat berubah-ubah—terdapat banyak cara untuk mengedit imej yang diberikan walaupun daripada gesaan teks yang sama. Jika setiap bingkai diedit secara bebas, sukar untuk mengekalkan konsistensi temporal.
Dalam kertas kerja baru-baru ini, penyelidik dari pasukan Meta GenAI mencadangkan Fairy - "penyesuaian mudah" model penyebaran penyuntingan imej, yang sangat meningkatkan prestasi AI dalam penyuntingan video.
Berikut ialah paparan kesan video suntingan Fairy:
4x 3 saat F ) dalam masa 14 saat sahaja , iaitu sekurang-kurangnya 44 kali lebih pantas daripada kaedah sebelumnya. Kajian pengguna menyeluruh yang melibatkan 1000 sampel yang dijana mengesahkan bahawa kaedah yang dicadangkan menjana kualiti tinggi dan dengan ketara mengatasi kaedah sedia ada.
Bagaimana caranya?
Menurut kertas itu, Fairy adalah berdasarkan konsep perhatian bingkai silang berdasarkan titik penambat Mekanisme ini secara tersirat boleh menyebarkan ciri resapan merentasi bingkai, memastikan kesan sintesis yang konsisten masa dan ketepatan tinggi. Fairy bukan sahaja menyelesaikan batasan model terdahulu dari segi memori dan kelajuan pemprosesan, tetapi juga meningkatkan ketekalan temporal melalui strategi penambahan data unik yang menjadikan model itu setara dengan transformasi afin bagi imej sumber dan sasaran.
paper Alamat: https://arxiv.org/pdf/2312.13834.pdf
project homepage: https://fairy-video2video.github.io/
-
Kaedah
Fairy menyemak semula paradigma penjejakan dan penyebaran sebelumnya dalam konteks ciri model resapan. Khususnya, kajian ini menggunakan anggaran korespondensi untuk merapatkan perhatian bingkai silang, membenarkan model menjejak dan menyebarkan ciri perantaraan dalam model resapan. Peta perhatian merentas bingkai boleh ditafsirkan sebagai ukuran persamaan untuk menilai korespondensi antara token dalam setiap bingkai, di mana ciri dalam satu kawasan semantik akan memperuntukkan perhatian yang lebih tinggi kepada bingkai lain Kawasan semantik yang serupa, seperti yang ditunjukkan dalam Rajah 3 di bawah .
Oleh itu, perwakilan ciri semasa diperhalusi dan disebarkan dengan memfokuskan pada jumlah wajaran kawasan yang serupa antara bingkai, dengan itu meminimumkan perbezaan ciri antara bingkai dengan berkesan.
Satu siri operasi menghasilkan model berasaskan sauh, yang merupakan komponen teras Fairy. Untuk memastikan ketekalan temporal video yang dijana, kajian ini mengambil sampel bingkai penambat K untuk mengekstrak ciri resapan, dan ciri yang diekstrak ditakrifkan sebagai satu set ciri global untuk disebarkan ke bingkai berturut-turut. Kajian ini menggantikan lapisan perhatian kendiri dengan perhatian bingkai silang untuk ciri tembolok bingkai penambat apabila setiap bingkai baharu dijana. Melalui perhatian bingkai silang, token dalam setiap bingkai mengguna pakai ciri yang mempamerkan kandungan semantik yang serupa dalam bingkai utama, dengan itu meningkatkan konsistensi.
Di bahagian eksperimen, penyelidik terutamanya melaksanakan Fairy berdasarkan model penyuntingan imej pengajaran, dan menggunakan perhatian bingkai silang untuk menggantikan perhatian kendiri model. Mereka menetapkan bilangan bingkai sauh kepada 3. Model ini boleh menerima input nisbah aspek yang berbeza dan menskalakan semula resolusi input saiz yang lebih panjang kepada 512, memastikan nisbah aspek tidak berubah. Para penyelidik mengedit semua bingkai video input tanpa pensampelan turun. Semua pengiraan diedarkan pada 8 GPU A100. Pengkaji mula-mula menunjukkan hasil kualitatif Fairy, seperti yang ditunjukkan dalam Rajah 5 di bawah, Fairy boleh mengedit topik yang berbeza.
Dalam Rajah 6 di bawah, penyelidik menunjukkan bahawa Fairy boleh melakukan pelbagai jenis penyuntingan mengikut arahan teks, termasuk penggayaan, perubahan peranan, penyuntingan setempat, penyuntingan atribut, dll.
Rajah 9 di bawah menunjukkan Fairy boleh menukar watak sumber kepada aksara sasaran yang berbeza mengikut arahan.
Para penyelidik menunjukkan hasil perbandingan kualiti keseluruhan dalam Rajah 7 di bawah, di mana video yang dihasilkan oleh Fairy lebih popular.
Rajah 10 di bawah menunjukkan hasil perbandingan visual dengan model garis dasar.
Untuk butiran lanjut teknikal dan keputusan percubaan, sila rujuk kertas asal. Atas ialah kandungan terperinci Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!