Rumah  >  Artikel  >  Peranti teknologi  >  Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

PHPz
PHPzasal
2024-06-07 17:10:54513semak imbas
Adakah ini rupa masa depan komunikasi antara manusia?

Baru-baru ini, projek teks-ke-ucapan yang dipanggil ChatTTS telah menjadi popular, menarik perhatian hebat daripada semua orang. Dalam masa tiga hari sahaja, ia telah memperoleh 9.2k bintang di GitHub.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Alamat projek: https://github.com/2noise/ChatTTS/tree/main

Penulis sendiri juga berkata pada x bahawa ChatTTS telah menembusi siling sumber terbuka. Walau bagaimanapun, yang kini menjadi sumber terbuka hanyalah model asas, yang belum diselia dan diperhalusi oleh SFT.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Projek ini menukar teks kepada pertuturan Kesannya adalah seperti ini: Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariChatTTS bukan sahaja boleh berbahasa Cina, tetapi juga bahasa Inggeris Ia juga menyokong beberapa kawalan halus, yang membolehkan anda menambah ketawa dan ketawa semasa bercakap jeda, serta zarah modal, sangat boleh dimainkan. Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariIa boleh mengeluarkan semula suara orang yang telah meninggal dunia Jika anda ingin mendengar persidangan pembangunan Steve Jobs sekali lagi, anda boleh melakukannya pada bila-bila masa. Mendengarnya meniru timbre Swift, kedua-dua intonasi dan perubahan dalam nada sangat dekat dengannya, dan hampir tiada rasa AI langsung. Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariAnda juga boleh berbahasa Cina dan Inggeris dengan baik Dengan loghat separuh bahasa Inggeris dan separuh bahasa Cina ini, anda cukup berani untuk memasuki kalangan kebolehan bahasa ChatTTS telah mencapai tahap seterusnya.站 Audio di atas adalah dari stesen B: https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036B1CF2699E4FDBCE3C28 Semasa paparan, kita dapat melihat bahawa Chattts boleh mencapai kelancaran sintesis semula jadi Pertuturan yang sama masa; ia juga boleh meramalkan dan mengawal ciri-ciri prosodik yang halus, termasuk ketawa, jeda dan perkataan yang disisipkan mengatasi kebanyakan model TTS sumber terbuka dari segi prosodi. Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariPada masa ini ChatTTS menyokong bahasa Cina dan Inggeris. Model terbesar telah dilatih menggunakan lebih daripada 100,000 jam data Cina dan Inggeris. Versi sumber terbuka dalam HuggingFace ialah versi yang telah dilatih selama 40,000 jam tetapi belum lagi SFT.

Perlu dinyatakan bahawa audio yang dipaparkan di atas semuanya dihasilkan berdasarkan teknologi sintesis pertuturan dan bertujuan untuk mempamerkan pencapaian teknologi dan tidak bertujuan untuk menyinggung perasaan atau melanggar hak orang lain.
Sejurus projek itu dikeluarkan, netizen dari segenap lapisan masyarakat mencubanya dan mendapati bunyi itu memang sukar untuk dibezakan antara asli dan palsu.

Sesetengah orang menggunakan GPT untuk menjana teks dan membiarkan ChatTTS "membaca"nya. Perbezaan antara nada dan intonasi orang sebenar adalah sangat kecil:

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariHot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari Kesannya sangat bagus

. , secara semulajadi saya ingin mencubanya. Bagaimana untuk menggunakan ChatTTS sebagai pengganti mulut anda. Anda boleh merujuk kepada kaedah berikut untuk beroperasi.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hariAlamat pengalaman dalam talian: https://huggingface.co/spaces/Dzkaka/ChatTTSHot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

ChatTTS terutamanya mempunyai dua fungsi teras, yang pertama ialah teks ke pertuturan, dan yang kedua ialah dialog suara masa nyata dengan model bahasa yang besar. Sebagai tambahan kepada fungsi ini, anda boleh melaraskan timbre pembesar suara yang ditentukan secara digital dalam "Audio Seed", atau membaling dadu untuk menjana satu secara rawak. Walau bagaimanapun, ramai penguji mengatakan bahawa jika parameter yang sama digunakan setiap kali, nada yang dihasilkan tidak semestinya tetap.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

2Noise mengatakan bahawa pada masa ini ia menyokong pengklonan bunyi, tetapi memerlukan jumlah data yang lebih besar.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Selepas memasukkan teks dalam kotak teks, ChatTTS akan menjana rima dan jeda secara automatik untuk anda, dan juga menambah beberapa zarah modal seperti "kemudian". Jika anda menambahkan [ketawa] dan [uv_break] pada teks semasa menaip, anda boleh mengawal ChatTTS secara manual untuk menghasilkan sedikit "ketawa" semasa bercakap. Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Walau bagaimanapun, ChatTTS masih belum dapat mengendalikan teks yang agak panjang Beberapa netizen memintanya untuk mencabar buku audio dan mendapati versi awal tidak boleh menjana audio lebih lama daripada 30 saat dan perlu dibaiki secara manual. Apabila menemui teks yang agak panjang, pembahagian perkataan ChatTTS juga akan menghadapi masalah.

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari

Atas ialah kandungan terperinci Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn