Rumah >Peranti teknologi >AI >Membunuh seperti orang gila! Google melancarkan video ke pertuturan, dan kesan bunyi yang realistik menjadikan video AI selamat tinggal kepada senyap!

Membunuh seperti orang gila! Google melancarkan video ke pertuturan, dan kesan bunyi yang realistik menjadikan video AI selamat tinggal kepada senyap!

PHPzasal: 2024-06-19 09:36:24529semak imbas

Industri AI yang berkembang pesat telah mengejutkan semua orang.

Hari ini, orang di seberang lautan menjadi gila!

Keterujaan Luma belum berlalu, malam tadi Runway mengeluarkan bom raja - Gen-3 Alpha. (Untuk butiran, sila pergi ke: Runway versi Sora dikeluarkan: kesetiaan tinggi, konsistensi super, Gen-3 Alpha terkejut netizen)

Apatah lagi, saya tidak sangka apabila saya bangun, Google DeepMind also had it Berita baharu, secara senyap mengeluarkan kemajuan teknologi video-to-speech (V2A).

Membunuh seperti orang gila! Google melancarkan video ke pertuturan, dan kesan bunyi yang realistik menjadikan video AI selamat tinggal kepada senyap!

Walaupun ciri ini belum dibuka kepada umum, jika dilihat dari demo video rasmi, kesannya cukup lancar. Pada masa yang sama, Google DeepMind menekankan bahawa semua contoh dicipta secara bersama oleh teknologi V2A dan model video generatif mereka yang paling maju Veo.

Gesaan audio: Runut bunyi filem seram yang menarik, tapak kaki bergema di atas konkrit. (Sinematik, thriller, filem seram, muzik, ketegangan, suasana, jejak kaki di atas konkrit)

Di dalam gudang terbiar dengan lampu hitam, seorang lelaki berpakaian hitam berjalan perlahan-lahan seperti hantu, ditambah dengan muzik dan tapak kaki yang pelik, suasana adalah menakutkan Laman.

Gesaan audio: Serigala melolong dalam cahaya bulan. (Serigala melolong di bulan)

Sebaik sahaja demo video keluar, Qing Yishui di ruang komen bertanya: Bilakah ia akan tersedia?

Sesetengah netizen berharap komuniti sumber terbuka akan menjadi bodhisattva siber dan menyalin teknologi Google.

Malah, tidak lama selepas Google DeepMind diumumkan secara rasmi, ElevenLabs, "peneraju" dalam bidang audio AI, melangkah masuk dan membuka sumber projek untuk alih suara automatik bagi video yang dimuat naik, yang boleh menghasilkan kesan bunyi yang sesuai untuk video.

Pautan:

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

Kini, persaingan dalam AI circle telah menjadi sengit Persaingan antara pengeluar besar dan kecil akan mewujudkan medan permainan yang lebih seimbang, dan apabila teknologi ini matang, akan ada kemungkinan yang tidak berkesudahan dalam bidang video AI.

AI Video Say Goodbye to Silent Movies

Seperti yang kita sedia maklum, model penjanaan video berkembang pada kadar yang membimbangkan. Walau bagaimanapun, sama ada Sora, yang menggemparkan dunia pada awal tahun, atau Keling, Luma, dan Gen-3 Alpha baru-baru ini, semuanya adalah "filem senyap" tanpa pengecualian.

Dan teknologi video-ke-audio (V2A) Google DeepMind membolehkan penjanaan audio-visual segerak. Ia boleh menggabungkan piksel video dan isyarat teks bahasa semula jadi untuk menjana alih suara yang kaya untuk tindakan pada skrin.

Dari segi aplikasi teknikal, teknologi V2A boleh digabungkan dengan model penjanaan video seperti Veo untuk mencipta syot dialog dengan runut bunyi dramatik, kesan bunyi yang realistik atau watak dan gaya video yang sepadan.

Ia juga boleh menjana trek audio untuk bahan arkib, filem senyap dan imej tradisional lain, meluaskan kemungkinan kreatif.

Gesaan audio: Bayi dinosaur comel berkicau di dalam hutan, diiringi bunyi kulit telur yang pecah. (Bayi dinosaur yang comel berkicauan, suasana hutan, telur pecah)

Gesaan audio: Bunyi kereta terbabas, deruman enjin, diiringi muzik elektronik malaikat. (kereta tergelincir, pendikit enjin kereta, muzik elektronik malaikat)

Gesaan audio: Ketika matahari terbenam, harmonika merdu berbunyi di padang rumput. (harmonika lembut perlahan dimainkan semasa matahari terbenam di padang rumput)

Teknologi V2A mampu menjana trek audio tanpa had untuk sebarang input video. Pengguna boleh memilih untuk menentukan "isyarat positif" untuk membimbing penjanaan bunyi yang diingini, atau "isyarat negatif" untuk mengelakkan bunyi yang tidak diingini.

Fleksibiliti ini memberikan pengguna lebih kawalan ke atas output audio, membolehkan mereka mencuba output audio yang berbeza dengan pantas dan memilih padanan terbaik.

Gesaan audio: Sebuah kapal angkasa sedang meluncur laju di angkasa yang luas, bintang berterbangan di sekelilingnya, terbang dengan kelajuan tinggi, penuh dengan perasaan fiksyen sains. (Sebuah kapal angkasa meluru melalui keluasan angkasa, bintang melepasinya, kelajuan tinggi, Sci-fi)

Gesaan audio: Suasana cello halus (suasana cello halus)

Gesaan audio: Kapal angkasa dalam keluasan Ia bergerak melalui ruang pada kelajuan tinggi, dengan bintang-bintang melintas dengan pantas di sekelilingnya, memberikannya rasa sci-fi. (Sebuah kapal angkasa meluru melalui keluasan angkasa, bintang melepasinya, kelajuan tinggi, Sci-fi)

Prinsip kerja di sebalik

Pasukan penyelidik mencuba kaedah autoregresif dan penyebaran yang paling banyak seni bina AI boleh skala. Kaedah penyebaran memberikan hasil yang paling realistik dan menarik dalam penjanaan audio untuk menyegerakkan maklumat video dan audio.

Sistem V2A mula-mula mengekod input video ke dalam perwakilan termampat, kemudian model resapan memperhalusi audio daripada hingar rawak secara berulang. Proses ini dipandu oleh input visual dan diberi isyarat bahasa semula jadi, menghasilkan audio yang disegerakkan dan realistik yang sejajar dengan isyarat. Akhir sekali, output audio dinyahkodkan ke dalam bentuk gelombang audio dan digabungkan dengan data video.

Untuk menjana audio berkualiti tinggi dan membimbing model menjana bunyi tertentu, pasukan penyelidik menambah lebih banyak maklumat semasa proses latihan, termasuk anotasi jana AI yang memperincikan bunyi dan teks dialog.

Dengan latihan tentang video, audio dan anotasi tambahan, teknologi belajar untuk mengaitkan acara audio tertentu dengan pelbagai adegan visual, sambil membalas maklumat yang diberikan dalam anotasi atau teks.

Google menekankan bahawa teknologi mereka berbeza daripada penyelesaian video-ke-audio sedia ada kerana ia memahami piksel mentah dan menambah pembayang teks adalah pilihan. Di samping itu, sistem ini tidak memerlukan penjajaran manual bunyi dan video yang dijana, sangat memudahkan proses kreatif.

Walau bagaimanapun, teknologi Google tidak sempurna dan mereka masih berusaha keras untuk menyelesaikan beberapa pepijat. Contohnya, kualiti input video secara langsung mempengaruhi kualiti output audio dan artifak atau herotan dalam video boleh menyebabkan kualiti audio menurun.

Pada masa yang sama, mereka juga mengoptimumkan fungsi penyegerakan bibir.

Teknologi V2A cuba menjana pertuturan daripada teks input dan menyegerakkannya dengan pergerakan mulut watak Walau bagaimanapun, jika model video tidak dilaraskan dengan sewajarnya untuk kandungan teks, ia mungkin menyebabkan bentuk mulut dan pertuturan tidak sesuai. penyegerakan. Mereka menambah baik teknologi ini untuk menjadikan penyegerakan bibir lebih semula jadi. . banyak masalah sosial yang disebabkan oleh teknologi pemalsuan mendalam, Google DeepMind penuh dengan keinginan untuk terus hidup dan terus berjanji untuk membangun dan menggunakan teknologi AI secara bertanggungjawab Sebelum dibuka kepada umum, teknologi V2A akan menjalani penilaian dan ujian keselamatan yang ketat.

Selain itu, mereka telah menyepadukan kit alat SynthID ke dalam penyelidikan V2A untuk menambah tera air pada semua kandungan yang dijana AI untuk mengelakkan penyalahgunaan teknologi.

Pautan rujukan:

https://deepmind.google/discover/blog/generating-audio-for-video/

^{GoogleDeepMind/status/1802733643992850760}

Atas ialah kandungan terperinci Membunuh seperti orang gila! Google melancarkan video ke pertuturan, dan kesan bunyi yang realistik menjadikan video AI selamat tinggal kepada senyap!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 for 事件 this https bug

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Kadar ketepatan pengekstrakan jawapan mencapai 96.88%, xFinder menghapuskan mentaliti "menipu" model besarArtikel seterusnya：Kadar ketepatan pengekstrakan jawapan mencapai 96.88%, xFinder menghapuskan mentaliti "menipu" model besar

Artikel berkaitan

Lihat lagi