Rumah  >  Artikel  >  Peranti teknologi  >  Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

王林
王林ke hadapan
2024-02-29 19:07:02381semak imbas

Selepas Sora, sebenarnya ada model video AI baharu, yang menakjubkan dan membuatkan semua orang sukakannya!

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Gambar

Dengan itu, Gao Qiqiang, penjahat "Cepat" berubah menjadi Luo Xiang, dan dia boleh mendidik semua orang (kepala anjing).

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

Ini ialah rangka kerja penjanaan video potret dipacu audio terbaharu Alibaba, EMO (Emote Portrait Alive).

Dengannya, anda boleh menjana video AI dengan ekspresi yang jelas dengan memasukkan satu imej rujukan dan sekeping audio (ucapan, nyanyian atau rap). Panjang akhir video bergantung pada panjang audio input.

Anda boleh meminta Mona Lisa, peserta veteran pengalaman kesan AI, untuk membacakan monolog:

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

DiCaprio yang muda dan kacak melakukan persembahan bakat RAP pantas, dan bentuk mulutnya tidak dapat dikekalkan. sama sekali. Soalan:

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

saya pun boleh tahan penyegerakan bibir Kantonis, jadi saya minta abang saya Leslie Cheung menyanyikan lagu "Tanpa Syarat" Eason Chan:

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

Pendek kata, sama ada membiarkan potret itu menyanyi (gaya potret dan lagu yang berbeza), Biarkan potret bercakap (dalam bahasa berbeza), atau melakukan pelbagai persembahan silang pelakon Kesan EMO membuatkan kami terpegun seketika.

Netizen berseru: "Kami memasuki realiti baharu!"

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Versi 2019 "Joker" berkata barisan versi 2008 "The Dark Knight"

Sesetengah netizen telah mula menjana video EMO Tarik tab dan analisa kesan bingkai demi bingkai.

Seperti yang ditunjukkan dalam video di bawah, protagonis adalah wanita AI yang dijana oleh Sora Lagu yang dia nyanyikan untuk anda kali ini ialah "Jangan Mulakan Sekarang".

Tweeters dianalisis:

Konsistensi video ini lebih baik daripada sebelumnya!
Dalam video lebih daripada satu minit, cermin mata hitam di muka Cik Sora hampir tidak bergerak, dan telinga serta keningnya bergerak secara bebas.
Perkara yang paling mengujakan ialah tekak Cik Sora nampaknya benar-benar bernafas! Tubuhnya menggeletar dan bergerak sedikit semasa menyanyi, yang mengejutkan saya!

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Pictures

Setelah berkata, EMO adalah teknologi baharu yang hangat, dan tidak dapat dielakkan untuk membandingkannya dengan produk yang serupa -

Baru semalam, syarikat penjanaan video AI Pika turut melancarkan alih suara video aksara, dan ciri penyegerakan bibir "penyegerakan bibir", ranap.

Bagaimana dengan kesan spesifiknya kami akan letak di sini terus Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

Selepas perbandingan, netizen di ruangan komen membuat kesimpulan bahawa mereka dipukul oleh Ali.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Pictures

EMO mengeluarkan kertas itu dan mengumumkan ia adalah sumber terbuka.

Tetapi! Walaupun ia adalah sumber terbuka, masih terdapat kedudukan pendek pada GitHub.

Tetapi sekali lagi! Walaupun ia adalah kedudukan pendek, bilangan bintang telah melebihi 2.1k.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Gambar

membuatkan netizen benar-benar cemas, cemas seperti Raja Gigi.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.

Senibina yang berbeza dari Sora

Sebaik sahaja kertas EMO keluar, ramai orang dalam bulatan itu menarik nafas lega.

Ia berbeza daripada laluan teknikal Sora, yang menunjukkan bahawa menyalin Sora bukan satu-satunya cara.

EMO tidak berdasarkan seni bina seperti DiT, iaitu, ia tidak menggunakan Transformer untuk menggantikan rangkaian tulang belakangnya yang diubah suai daripada Stable Diffusion 1.5.

Secara khusus, EMO ialah rangka kerja penjanaan video potret dipacu audio ekspresif yang boleh menjana video dalam sebarang tempoh berdasarkan panjang video input. .

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Peringkat resapan

Pertama, pengekod audio pra-latihan memproses pembenaman audio, dan topeng kawasan muka digabungkan dengan hingar berbilang bingkai untuk mengawal penjanaan imej muka.

Kemudian rangkaian tulang belakang mengetuai operasi denoising. Dua jenis perhatian digunakan dalam rangkaian tulang belakang, perhatian rujukan dan perhatian audio, yang berfungsi untuk mengekalkan konsistensi identiti watak dan mengawal pergerakan watak masing-masing.
  • Selain itu, modul masa digunakan untuk memanipulasi dimensi masa dan melaraskan kelajuan pergerakan.
Dari segi data latihan, pasukan membina set data audio dan video yang besar dan pelbagai yang mengandungi lebih daripada 250 jam video dan lebih daripada 15 juta imej.

Ciri-ciri khusus pelaksanaan akhir adalah seperti berikut:
  • Boleh menjana video dalam mana-mana tempoh berdasarkan audio input sambil memastikan konsistensi identiti watak (video tunggal terpanjang yang diberikan dalam demonstrasi ialah 1 minit dan 49 saat).

Menyokong bercakap dan menyanyi dalam pelbagai bahasa (demo termasuk Mandarin, Kantonis, Inggeris, Jepun, Korea)

Menyokong gaya lukisan yang berbeza (foto, lukisan tradisional, komik, rendering 3D, orang digital AI)

Gambar

    Perbandingan kuantitatif juga bertambah baik berbanding kaedah sebelumnya, mencapai SOTA, dan hanya lebih rendah sedikit daripada penunjuk SyncNet yang mengukur kualiti penyegerakan bibir.
  • Gambar
Berbanding dengan kaedah lain yang tidak bergantung pada model penyebaran, EMO lebih memakan masa.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Dan memandangkan tiada isyarat kawalan eksplisit digunakan, yang mungkin membawa kepada penghasilan bahagian badan lain yang tidak disengajakan seperti tangan, penyelesaian yang berpotensi adalah menggunakan isyarat kawalan khusus untuk bahagian badan. Pasukan EMO

Akhir sekali, mari kita lihat orang dalam pasukan di belakang EMO.

Kertas menunjukkan bahawa pasukan EMO berasal dari Institut Penyelidikan Pengkomputeran Pintar Alibaba. Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Terdapat empat pengarang iaitu Linrui Tian, ​​​​Qi Wang, Bang Zhang dan Liefeng Bo.

Gambar

Antaranya, Liefeng Bo ialah ketua makmal XR Makmal Alibaba Tongyi sekarang.

Dr. Bo Liefeng lulus dari Universiti Sains dan Teknologi Elektronik Xi'an Beliau telah terlibat dalam penyelidikan pasca doktoral di Toyota Research Institute of the University of Chicago dan University of Washington. Petikan Google Scholarnya melebihi 13,000.

Sebelum menyertai Alibaba, beliau mula-mula berkhidmat sebagai ketua saintis di ibu pejabat Amazon di Seattle, dan kemudian menyertai makmal AI JD Digital Technology Group sebagai ketua saintis.

Pada September 2022, Bo Liefeng menyertai Alibaba.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Pictures

EMO bukanlah kali pertama Alibaba mencapai kejayaan dalam bidang AIGC.

Gambar

OutfitSesiapa sahaja dengan AI menukar pakaian satu klik.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Gambar

Selain itu, AnimateAnyone membuat kucing dan anjing di seluruh dunia menari tarian mandi.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Ini adalah yang di bawah:

Gambar

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Sekarang EMO dilancarkan, ramai netizen mengeluh bahawa Alibaba telah mengumpulkan beberapa teknologi padanya.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Gambar

Jika semua teknologi ini digabungkan sekarang, kesannya...

Saya tidak berani memikirkannya, tetapi saya menantikannya.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Pictures

Ringkasnya, kami semakin hampir untuk "menghantar skrip kepada AI dan mengeluarkan keseluruhan filem".

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Pictures

One More Thing

Sora, mewakili satu kejayaan dalam sintesis video dipacu teks.

EMO juga mewakili tahap baharu sintesis video dipacu audio.

Walaupun kedua-duanya mempunyai tugas dan seni bina khusus yang berbeza, mereka masih mempunyai satu persamaan penting:

Tiada model fizikal eksplisit di tengah, tetapi kedua-duanya mensimulasikan undang-undang fizikal pada tahap tertentu.

Jadi sesetengah orang berpendapat bahawa ini bertentangan dengan desakan Lecun bahawa "memodelkan dunia untuk tindakan dengan menjana piksel adalah membazir dan ditakdirkan untuk gagal", dan menyokong idea "model dunia dipacu data" Jim Fan.

Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.Gambar

Pelbagai kaedah telah gagal pada masa lalu, tetapi kejayaan semasa mungkin benar-benar datang dari "Pelajaran Pahit" yang ditulis oleh Sutton, bapa pembelajaran pengukuhan, di mana usaha yang hebat boleh menghasilkan keajaiban.

Dayakan AI menemui seperti orang, bukannya mengandungi perkara yang orang temui

Kemajuan terobosan akhirnya dicapai dengan mengembangkan skala pengkomputeran

Kertas: https://www.php.cn/link/a717f6b706f9c41b706f9c41b706f itHub :https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40

Pautan rujukan:

[1]
https://www.php.cn/link /0dd4f2526c7c5c2526c36c5f2526c

Atas ialah kandungan terperinci Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam