Maison  >  Article  >  Périphériques technologiques  >  La force technique de Huoshan Voice TTS a été certifiée par le Centre national d'inspection et de quarantaine, avec un score MOS aussi élevé que 4,64.

La force technique de Huoshan Voice TTS a été certifiée par le Centre national d'inspection et de quarantaine, avec un score MOS aussi élevé que 4,64.

王林
王林avant
2023-04-12 10:40:051231parcourir

Récemment, le produit de synthèse vocale Volcano Engine a obtenu le Certificat d'inspection et de test amélioré de synthèse vocale délivré par le Centre national d'inspection et de test de la qualité des produits de reconnaissance vocale et d'image (ci-après dénommé le « Centre national d'inspection de l'IA »), qui couvre les exigences de base et l'expansion de la synthèse vocale. Les exigences ont atteint le standard de plus haut niveau du Centre national d'inspection de l'IA. Cette évaluation est menée à partir des dimensions du chinois mandarin, des multi-dialectes, des multi-langues, des langues mixtes, des multi-timbraux et de la personnalisation. L'équipe d'assistance technique du produit - l'équipe Volcano Voice fournit une riche bibliothèque sonore. Après évaluation, son timbre. a la note MOS la plus élevée. Il peut atteindre 4,64 points, ce qui est le niveau le plus élevé du secteur.

La force technique de Huoshan Voice TTS a été certifiée par le Centre national d'inspection et de quarantaine, avec un score MOS aussi élevé que 4,64.

En tant que premier système d'inspection de qualité de mon pays dans le domaine de l'intelligence artificielle et seule agence nationale d'inspection et de test de la qualité des produits vocaux et images, le Centre national d'inspection de l'IA s'est engagé à promouvoir la santé de l'industrie de la voix intelligente se développe. L'obtention de la certification faisant autorité du Centre national d'inspection de l'IA démontre cette fois également pleinement que les capacités technologiques de synthèse vocale de Huoshan Voice ont atteint le niveau de pointe de l'industrie.

Ressentez l'effet de la synthèse vocale du volcan : https://www.php.cn/link/8e0ce414531179ae9b7f60e20351ee8b

Plus d'expérience sonore : https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73

Pendant longtemps, Huoshan Voice a fourni des services industriels pour les principaux secteurs d'activité de ByteDance et pour l'industrie et l'innovation de Volcano Engine ToB. scénarios. Capacités de pointe en matière de technologie vocale IA et excellentes solutions de produits vocaux complets. À l'heure actuelle, la reconnaissance vocale et la synthèse vocale de l'équipe couvrent plusieurs langues et dialectes, couvrant l'audio et la vidéo, la lecture audio, l'interaction vocale, les jeux, la publicité et d'autres scénarios d'application, et fournissent des services pour Douyin, Jianying, Feishu, Tomato Novels, Pico, etc. Le cœur de métier fournit des capacités vocales de premier plan.

Il est entendu que le produit de synthèse vocale Volcano Engine

qui a participé à cet examen a été développé indépendamment par l'équipe Volcano Voice et utilise la technologie de réseau neuronal génératif leader de l'industrie Il consiste principalement en une analyse de texte frontale et acoustique. modèle et vocodeur. La composition du module, l'introduction détaillée est la suivante :

    Analyse de texte frontale : principalement responsable de l'intelligibilité, comme la régularisation du texte (comme la conversion des nombres en lecture d'année, la lecture de nombres, etc.), conversion phonétique (telle que la notation phonétique chinoise, notamment pour résoudre le problème des mots polyphonétiques) ainsi que la segmentation des mots et la prédiction de la prosodie, etc.
  • Actuellement, l'équipe Huoshan Voice s'appuie sur des modèles multitâches et la régularisation des réseaux neuronaux pour prendre en charge 12 langues mineures traditionnelles en même temps, avec des résultats remarquables.
  • Modèle acoustique : principalement responsable de la modélisation des caractéristiques linguistiques aux caractéristiques acoustiques. Les données montrent que le taux de précision back-end de Huoshan Voice TTS peut atteindre 99,90 %. Dans le même temps, le modèle peut également prendre en charge un contrôle raffiné de plusieurs émotions et styles, le transfert de styles entre différents timbres et obtenir des effets de synthèse multilingues en utilisant uniquement des données d'entraînement dans une seule langue.
  • Module Vocoder : principalement responsable de la modélisation des caractéristiques acoustiques des signaux audio. Aujourd'hui, l'équipe Huoshan Voice a auto-développé un vocodeur basé sur la modélisation de réseaux neuronaux contradictoires, avec un taux de précision allant jusqu'à 99,95 %. En s'appuyant sur une conception de modèle léger et une optimisation technique, le taux en temps réel dans le cloud peut atteindre plus d'un million. cent fois.
  • Le produit de synthèse vocale Volcano Engine a un son réel et naturel, une interprétation vivante et des styles variés. En même temps, il restaure le rythme de personnes réelles de manière fine et réalise divers phénomènes paralinguistiques tels que. comme le rire, offrant aux gens une expérience d'écoute immersive. C'est le cas de la technologie de synthèse vocale de dialogue surnaturelle récemment publiée par l'équipe Volcano Voice. Par rapport au TTS traditionnel, elle peut parfaitement reproduire des détails tels que les particules modales, les sons d'inhalation, les pauses pendant l'hésitation et la prolongation de la prononciation, et ne nécessite que 1/. bibliothèque sonore conventionnelle. 4 données.
  • De plus, la
« technologie de reproduction sonore » qui était auparavant populaire sur Internet a également été développée par l'équipe Volcano Voice.

Différente des exigences de seuil élevées de la technologie de synthèse vocale traditionnelle pour les données, la technologie de reproduction du timbre vocal Volcano ne nécessite que 0,3 % de la quantité de données des méthodes traditionnelles Les gens ordinaires peuvent enregistrer pendant plus de 2 minutes dans un environnement ouvert relativement calme . Autrement dit, il peut répondre aux normes de modélisation de l'espace de timbre et générer des modèles d'IA de timbre exclusifs, ce qui est pratique et efficace.

Actuellement, Huoshan Voice mettra sur le marché ses capacités technologiques vocales perfectionnées depuis de nombreuses années et les ouvrira aux entreprises externes via le moteur Volcano. Il a couvert de nombreux scénarios d'application tels que l'automobile, la finance, la lecture audio, la vidéo. doublage, etc., et a aidé des entreprises telles que Hezhong Automobile et Book Chasing Artifact. De nombreuses entreprises leaders du secteur ont réalisé l'application et l'expansion des capacités vocales de l'IA À l'avenir, Huoshan Voice continuera à explorer la combinaison efficace de. des technologies et des scénarios commerciaux de pointe, et continuer à injecter une énergie innovante dans l'expérience utilisateur et la croissance de l'entreprise pour obtenir une plus grande valeur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer