Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.-AI-php.cn

Rumah

Peranti teknologi

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

王林

Dec 27, 2023 pm 06:35 PM

projekfairy

Rangka kerja sintesis video baharu Meta telah membawa kami beberapa kejutan

Generatif AI dikurniakan keupayaan untuk mencipta atau mengubah suai kandungan dengan mudah. Pengeditan imej, khususnya, telah mengalami pertumbuhan yang ketara, didorong oleh model penyebaran teks ke imej yang telah dilatih terlebih dahulu pada set data berskala bilion. Gelombang ini telah menghasilkan banyak aplikasi penyuntingan imej dan penciptaan kandungan.

Berdasarkan pencapaian model generatif berasaskan imej, bidang cabaran seterusnya mestilah menambah "dimensi masa" padanya, untuk mencapai penyuntingan video yang mudah dan kreatif.

Strategi mudah ialah menggunakan model imej untuk memproses bingkai video demi bingkai, namun, pengeditan imej generatif sememangnya sangat berubah-ubah—terdapat banyak cara untuk mengedit imej yang diberikan walaupun daripada gesaan teks yang sama. Jika setiap bingkai diedit secara bebas, sukar untuk mengekalkan konsistensi temporal.

Dalam kertas kerja baru-baru ini, penyelidik dari pasukan Meta GenAI mencadangkan Fairy - "penyesuaian mudah" model penyebaran penyuntingan imej, yang sangat meningkatkan prestasi AI dalam penyuntingan video.

Berikut ialah paparan kesan video suntingan Fairy:

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

4x 3 saat F ) dalam masa 14 saat sahaja , iaitu sekurang-kurangnya 44 kali lebih pantas daripada kaedah sebelumnya. Kajian pengguna menyeluruh yang melibatkan 1000 sampel yang dijana mengesahkan bahawa kaedah yang dicadangkan menjana kualiti tinggi dan dengan ketara mengatasi kaedah sedia ada. Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Bagaimana caranya?

Menurut kertas itu, Fairy adalah berdasarkan konsep perhatian bingkai silang berdasarkan titik penambat Mekanisme ini secara tersirat boleh menyebarkan ciri resapan merentasi bingkai, memastikan kesan sintesis yang konsisten masa dan ketepatan tinggi. Fairy bukan sahaja menyelesaikan batasan model terdahulu dari segi memori dan kelajuan pemprosesan, tetapi juga meningkatkan ketekalan temporal melalui strategi penambahan data unik yang menjadikan model itu setara dengan transformasi afin bagi imej sumber dan sasaran.

paper Alamat: https://arxiv.org/pdf/2312.13834.pdf

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Fairy menyemak semula paradigma penjejakan dan penyebaran sebelumnya dalam konteks ciri model resapan. Khususnya, kajian ini menggunakan anggaran korespondensi untuk merapatkan perhatian bingkai silang, membenarkan model menjejak dan menyebarkan ciri perantaraan dalam model resapan.

Peta perhatian merentas bingkai boleh ditafsirkan sebagai ukuran persamaan untuk menilai korespondensi antara token dalam setiap bingkai, di mana ciri dalam satu kawasan semantik akan memperuntukkan perhatian yang lebih tinggi kepada bingkai lain Kawasan semantik yang serupa, seperti yang ditunjukkan dalam Rajah 3 di bawah .

Oleh itu, perwakilan ciri semasa diperhalusi dan disebarkan dengan memfokuskan pada jumlah wajaran kawasan yang serupa antara bingkai, dengan itu meminimumkan perbezaan ciri antara bingkai dengan berkesan.

Satu siri operasi menghasilkan model berasaskan sauh, yang merupakan komponen teras Fairy.

Untuk memastikan ketekalan temporal video yang dijana, kajian ini mengambil sampel bingkai penambat K untuk mengekstrak ciri resapan, dan ciri yang diekstrak ditakrifkan sebagai satu set ciri global untuk disebarkan ke bingkai berturut-turut. Kajian ini menggantikan lapisan perhatian kendiri dengan perhatian bingkai silang untuk ciri tembolok bingkai penambat apabila setiap bingkai baharu dijana. Melalui perhatian bingkai silang, token dalam setiap bingkai mengguna pakai ciri yang mempamerkan kandungan semantik yang serupa dalam bingkai utama, dengan itu meningkatkan konsistensi.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Penilaian eksperimen

Di bahagian eksperimen, penyelidik terutamanya melaksanakan Fairy berdasarkan model penyuntingan imej pengajaran, dan menggunakan perhatian bingkai silang untuk menggantikan perhatian kendiri model. Mereka menetapkan bilangan bingkai sauh kepada 3. Model ini boleh menerima input nisbah aspek yang berbeza dan menskalakan semula resolusi input saiz yang lebih panjang kepada 512, memastikan nisbah aspek tidak berubah. Para penyelidik mengedit semua bingkai video input tanpa pensampelan turun. Semua pengiraan diedarkan pada 8 GPU A100.

Penilaian kualitatif

Pengkaji mula-mula menunjukkan hasil kualitatif Fairy, seperti yang ditunjukkan dalam Rajah 5 di bawah, Fairy boleh mengedit topik yang berbeza.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Dalam Rajah 6 di bawah, penyelidik menunjukkan bahawa Fairy boleh melakukan pelbagai jenis penyuntingan mengikut arahan teks, termasuk penggayaan, perubahan peranan, penyuntingan setempat, penyuntingan atribut, dll.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Rajah 9 di bawah menunjukkan Fairy boleh menukar watak sumber kepada aksara sasaran yang berbeza mengikut arahan.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Penilaian Kuantitatif

Para penyelidik menunjukkan hasil perbandingan kualiti keseluruhan dalam Rajah 7 di bawah, di mana video yang dihasilkan oleh Fairy lebih popular.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Rajah 10 di bawah menunjukkan hasil perbandingan visual dengan model garis dasar.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Untuk butiran lanjut teknikal dan keputusan percubaan, sila rujuk kertas asal.

Atas ialah kandungan terperinci Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:机器之心. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles