Rumah  >  Artikel  >  Peranti teknologi  >  Kekuatan teknikal Huoshan Voice TTS telah diperakui oleh Pusat Pemeriksaan dan Kuarantin Kebangsaan, dengan skor MOS setinggi 4.64

Kekuatan teknikal Huoshan Voice TTS telah diperakui oleh Pusat Pemeriksaan dan Kuarantin Kebangsaan, dengan skor MOS setinggi 4.64

王林
王林ke hadapan
2023-04-12 10:40:051180semak imbas

Beberapa hari lalu, produk sintesis pertuturan Enjin Gunung Berapi menerima Sijil Pemeriksaan dan Pengujian Dipertingkatkan Sintesis Pertuturan yang dikeluarkan oleh Pusat Pemeriksaan dan Pengujian Kualiti Produk Ucapan dan Pengiktirafan Imej (selepas ini dirujuk sebagai "Pusat Pemeriksaan Kebangsaan AI"). Keperluan asas dan keperluan lanjutan untuk sintesis pertuturan telah mencapai standard tahap tertinggi Pusat Pemeriksaan Kebangsaan AI. Penilaian ini dijalankan daripada dimensi Cina Mandarin, berbilang dialek, berbilang bahasa, bahasa campuran, berbilang timbre dan pemperibadian Pasukan sokongan teknikal produk - Pasukan Suara Gunung Berapi menyediakan perpustakaan bunyi yang kaya, timbrenya MOS Skor tertinggi boleh mencapai 4.64 mata, yang merupakan tahap peneraju industri.

Kekuatan teknikal Huoshan Voice TTS telah diperakui oleh Pusat Pemeriksaan dan Kuarantin Kebangsaan, dengan skor MOS setinggi 4.64

Sebagai yang pertama dan satu-satunya sistem pemeriksaan kualiti produk suara dan imej peringkat kebangsaan dalam bidang kecerdasan buatan dalam saya agensi Pemeriksaan dan ujian negara , Pusat Pemeriksaan Kebangsaan AI telah komited untuk mempromosikan pembangunan sihat industri suara pintar. Mendapatkan pensijilan berwibawa daripada Pusat Pemeriksaan Kebangsaan AI kali ini juga menunjukkan sepenuhnya bahawa keupayaan teknologi sintesis pertuturan Huoshan Voice telah mencapai tahap peneraju industri.

Rasakan kesan sintesis pertuturan gunung berapi: https://www.php . cn/link/8e0ce414531179ae9b7f60e20351ee8b

Pengalaman yang lebih baik: ​> https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73

Sejak sekian lama, Huoshan Voice telah menyasarkan saluran perniagaan utama Bystedance dan industri Volcano Engine ToB dan senario inovatif menyediakan keupayaan teknologi suara AI yang terkemuka dalam industri dan penyelesaian produk suara tindanan penuh yang sangat baik. Pada masa ini, pengecaman pertuturan dan sintesis pertuturan pasukan meliputi pelbagai bahasa dan dialek, meliputi audio dan video, bacaan audio, interaksi suara, permainan, pengiklanan dan senario aplikasi lain, dan menyediakan perkhidmatan untuk Douyin, Jianying, Feishu, Novel Tomato, Pico, dsb. Perniagaan teras menyediakan keupayaan suara terkemuka.

Difahamkan bahawa produk sintesis pertuturan Enjin Volcano yang menyertai pertandingan ini dibangunkan secara bebas oleh pasukan Volcano Voice dan menggunakan teknologi rangkaian neural generatif terkemuka industri . Ia terutamanya terdiri daripada Ia terdiri daripada tiga modul utama: analisis teks hadapan, model akustik dan vocoder Pengenalan khusus adalah seperti berikut:

  • Teks hadapan. analisis: terutamanya bertanggungjawab untuk kebolehfahaman, seperti penyusunan teks (contohnya, Tukar nombor kepada bacaan tahun, bacaan nombor, dll.), penukaran sebutan aksara (seperti tatatanda fonetik Cina, terutamanya untuk menyelesaikan masalah aksara berbilang fonetik), serta pembahagian perkataan dan ramalan irama, dsb. Pada masa ini, pasukan Huoshan Voice bergantung pada model berbilang tugas dan penyusunan rangkaian saraf untuk menyokong 12 bahasa minor arus perdana pada masa yang sama, dengan hasil yang luar biasa.
  • Model akustik: Terutamanya bertanggungjawab untuk pemodelan daripada ciri linguistik kepada ciri akustik. Data menunjukkan bahawa kadar ketepatan bahagian belakang TTS Suara Huoshan boleh mencapai 99.90%. Pada masa yang sama, model ini juga boleh menyokong kawalan halus ke atas pelbagai emosi dan gaya, pemindahan gaya antara timbre yang berbeza, dan mencapai kesan sintesis berbilang bahasa hanya menggunakan data latihan dalam satu bahasa.
  • Modul vokoder: Terutamanya bertanggungjawab untuk memodelkan ciri akustik kepada isyarat audio. Kini pasukan Volcano Voice telah membangunkan sendiri vocoder berdasarkan pemodelan rangkaian neural lawan Ketepatannya boleh mencapai 99.95%. Bergantung pada reka bentuk model ringan dan pengoptimuman kejuruteraan, kadar masa nyata dalam awan boleh mencapai lebih daripada satu seratus kali.
Produk sintesis pertuturan Enjin Gunung Berapi mempunyai bunyi yang nyata dan semula jadi, tafsiran yang jelas dan pelbagai gaya Pada masa yang sama, ia memulihkan irama orang sebenar dengan cara yang halus dan menyedari pelbagai kesan sampingan seperti ketawa Fenomena bahasa membawa pengalaman mendengar yang mengasyikkan. Ini adalah kes bagi teknologi sintesis pertuturan dialog ghaib yang dikeluarkan baru-baru ini oleh

Pasukan Suara Gunung Berapi Berbanding dengan TTS tradisional, ia boleh menghasilkan semula butiran seperti zarah modal, bunyi penyedutan, jeda semasa teragak-agak dan pemanjangan sebutan, dan hanya. memerlukan perpustakaan bunyi konvensional 1/4 data. Selain itu, "teknologi pembiakan bunyi" yang sebelum ini popular di Internet turut dibangunkan oleh pasukan Volcano Voice. Berbeza daripada keperluan ambang tinggi teknologi sintesis pertuturan tradisional untuk data, teknologi pembiakan timbre suara Volcano hanya memerlukan 0.3% daripada volum data kaedah tradisional Orang biasa boleh bekerja dalam persekitaran yang agak tenang . Rakaman dalam persekitaran terbuka selama lebih daripada 2 minit boleh memenuhi piawaian pemodelan ruang timbre dan menjana model AI bagi timbre eksklusif, yang mudah dan cekap.

Pada masa ini, Huoshan Voice akan membawakan keupayaan teknologi pertuturannya yang telah diasah selama bertahun-tahun ke pasaran dan membukanya kepada syarikat luar melalui enjin Volcano Ia telah merangkumi banyak senario aplikasi seperti kereta, kewangan, pembacaan audio, alih suara video, dsb., dan telah membantu Ruhe Banyak syarikat terkemuka dalam industri, seperti Volkswagen, Zhuishu Artifact, telah merealisasikan aplikasi dan pengembangan keupayaan suara AI Pada masa hadapan, Huoshan Voice akan terus meneroka gabungan teknologi canggih dan senario perniagaan yang cekap, dan terus menyuntik tenaga inovatif ke dalam pengalaman pengguna dan pertumbuhan perniagaan, untuk mencapai nilai yang lebih tinggi.

Atas ialah kandungan terperinci Kekuatan teknikal Huoshan Voice TTS telah diperakui oleh Pusat Pemeriksaan dan Kuarantin Kebangsaan, dengan skor MOS setinggi 4.64. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam