Rumah >Peranti teknologi >AI >Microsoft mengeluarkan VALL-E, alat penjanaan suara AI yang boleh meniru pertuturan manusia dalam hanya 3 saat audio
Menurut berita pada 10 Januari, Microsoft baru-baru ini mengeluarkan alat kecerdasan buatan yang dipanggil VALL-E yang boleh meniru pertuturan manusia dalam hanya 3 saat audio.
Alat ini dilatih pada 60,000 jam data pertuturan bahasa Inggeris dan menggunakan klip pertuturan khusus selama 3 saat untuk menjana kandungan. Tidak seperti kebanyakan alatan AI semasa, VALL-E boleh meniru mood dan nada pembesar suara, walaupun dalam kata-kata pembesar suara itu sendiri tidak pernah bercakap.
IT House mengetahui bahawa kertas kerja daripada Universiti Cornell menggunakan VALL-E untuk mensintesis beberapa bunyi Anda boleh mendengarnya di GitHub Audio yang disintesis AI ini .
Para penyelidik mendapati bahawa dalam banyak kes, Vall-E mengatasi model teks ke pertuturan semasa. Walau bagaimanapun, kajian itu juga menulis bahawa model AI pada masa ini mempunyai beberapa masalah. Sebagai contoh, sesetengah perkataan dalam gesaan teks mungkin tidak jelas disebut, hilang sepenuhnya atau muncul dua kali dalam output. Selain itu, model pada masa ini mengalami kesukaran meniru suara tertentu, terutamanya yang mempunyai aksen.
Seperti teknologi AI baharu yang lain, VALL-E juga telah menimbulkan kebimbangan dari segi keselamatan dan etika. Microsoft mengeluarkan kenyataan etika tentang penggunaan VALL-E, tetapi tidak jelas tentang penggunaannya pada masa hadapan.
Pada masa ini, Microsoft Vall-E belum lagi menjadi sumber terbuka. Microsoft telah mencipta Vall-E repositori pada GitHub, tetapi pada masa ini ia hanya mengandungi fail penerangan.
Atas ialah kandungan terperinci Microsoft mengeluarkan VALL-E, alat penjanaan suara AI yang boleh meniru pertuturan manusia dalam hanya 3 saat audio. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!