Rumah >Peranti teknologi >AI >Microsoft mengeluarkan VALL-E, alat penjanaan suara AI yang boleh meniru pertuturan manusia dalam hanya 3 saat audio

Microsoft mengeluarkan VALL-E, alat penjanaan suara AI yang boleh meniru pertuturan manusia dalam hanya 3 saat audio

PHPz
PHPzke hadapan
2023-05-10 09:13:362135semak imbas

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

Menurut berita pada 10 Januari, Microsoft baru-baru ini mengeluarkan alat kecerdasan buatan yang dipanggil VALL-E yang boleh meniru pertuturan manusia dalam hanya 3 saat audio.

Alat ini dilatih pada 60,000 jam data pertuturan bahasa Inggeris dan menggunakan klip pertuturan khusus selama 3 saat untuk menjana kandungan. Tidak seperti kebanyakan alatan AI semasa, VALL-E boleh meniru mood dan nada pembesar suara, walaupun dalam kata-kata pembesar suara itu sendiri tidak pernah bercakap.

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

IT House mengetahui bahawa kertas kerja daripada Universiti Cornell menggunakan VALL-E untuk mensintesis beberapa bunyi Anda boleh mendengarnya di ​​GitHub Audio yang disintesis AI ini ​.

Para penyelidik mendapati bahawa dalam banyak kes, Vall-E mengatasi model teks ke pertuturan semasa. Walau bagaimanapun, kajian itu juga menulis bahawa model AI pada masa ini mempunyai beberapa masalah. Sebagai contoh, sesetengah perkataan dalam gesaan teks mungkin tidak jelas disebut, hilang sepenuhnya atau muncul dua kali dalam output. Selain itu, model pada masa ini mengalami kesukaran meniru suara tertentu, terutamanya yang mempunyai aksen.

Seperti teknologi AI baharu yang lain, VALL-E juga telah menimbulkan kebimbangan dari segi keselamatan dan etika. Microsoft mengeluarkan kenyataan etika tentang penggunaan VALL-E, tetapi tidak jelas tentang penggunaannya pada masa hadapan.

Pada masa ini, Microsoft Vall-E belum lagi menjadi sumber terbuka. Microsoft telah mencipta ​​Vall-E repositori ​​ pada GitHub, tetapi pada masa ini ia hanya mengandungi fail penerangan.

Atas ialah kandungan terperinci Microsoft mengeluarkan VALL-E, alat penjanaan suara AI yang boleh meniru pertuturan manusia dalam hanya 3 saat audio. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam