Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die technische Stärke von Huoshan Voice TTS wurde vom National Inspection and Quarantine Center mit einem MOS-Wert von bis zu 4,64 zertifiziert

Die technische Stärke von Huoshan Voice TTS wurde vom National Inspection and Quarantine Center mit einem MOS-Wert von bis zu 4,64 zertifiziert

王林
王林nach vorne
2023-04-12 10:40:051232Durchsuche

Kürzlich hat das Sprachsyntheseprodukt Volcano Engine das „Zertifikat für verbesserte Inspektion und Prüfung der Sprachsynthese“ erhalten, das vom National Speech and Image Recognition Product Quality Inspection and Testing Center (im Folgenden als „AI National Inspection Center“ bezeichnet) ausgestellt wurde. die die grundlegenden Anforderungen und die Erweiterung der Sprachsynthese abdeckt. Die Anforderungen haben den höchsten Standard des AI ​​National Inspection Center erreicht. Diese Bewertung wird anhand der Dimensionen Mandarin-Chinesisch, Multi-Dialekte, Multi-Sprachen, Multi-Timbrals und Personalisierung durchgeführt. Das technische Support-Team des Produkts – das Volcano Voice Team – stellt nach der Bewertung eine umfangreiche Klangbibliothek zur Verfügung hat die höchste MOS-Bewertung und kann 4,64 Punkte erreichen, was den Spitzenwert in der Branche darstellt.

Die technische Stärke von Huoshan Voice TTS wurde vom National Inspection and Quarantine Center mit einem MOS-Wert von bis zu 4,64 zertifiziertAls erstes Qualitätskontrollsystem meines Landes im Bereich der künstlichen Intelligenz und die einzige nationale Inspektions- und Prüfstelle für die Qualität von Sprach- und Bildprodukten

hat sich das AI National Inspection Center der Förderung der Gesundheit verschrieben der intelligenten Sprachbranche entwickeln sich weiter. Die Erlangung der maßgeblichen Zertifizierung durch das AI National Inspection Center zeigt auch in vollem Umfang, dass die Fähigkeiten der Sprachsynthesetechnologie von Huoshan Voice das branchenführende Niveau erreicht haben.

Spüren Sie die Wirkung der Vulkan-Sprachsynthese:

https://www.php.cn/link/8e0ce414531179ae9b7f60e20351ee8b Mehr Klangerlebnis:

https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73Huoshan Voice bietet seit langem Branchendienstleistungen für die wichtigsten Geschäftsbereiche von ByteDance sowie die Volcano Engine ToB-Branche und Innovation an Führende KI-Sprachtechnologiefunktionen und hervorragende Full-Stack-Sprachproduktlösungen. Derzeit deckt die Spracherkennung und Sprachsynthese des Teams mehrere Sprachen und Dialekte ab, darunter Audio und Video, Audio-Lesen, Sprachinteraktion, Spiele, Werbung und andere Anwendungsszenarien, und bietet Dienste für Douyin, Jianying, Feishu, Tomato Novels, Pico usw. Das Kerngeschäft bietet führende Sprachfunktionen.

Es wird davon ausgegangen, dass das Sprachsyntheseprodukt Volcano Engine , das an dieser Überprüfung teilgenommen hat, unabhängig vom Volcano Voice-Team entwickelt wurde und die branchenweit führende generative neuronale Netzwerktechnologie verwendet. Es besteht hauptsächlich aus akustischer Front-End-Textanalyse Modell und Vocoder. Die detaillierte Einführung des Moduls lautet wie folgt:

Front-End-Textanalyse: Hauptverantwortlich für die Verständlichkeit, z. B. Textregularisierung (z. B. Konvertieren von Zahlen in Jahreslesung, Zahlenlesung usw.), phonetische Konvertierung (z. B. chinesische phonetische Notation, insbesondere zur Lösung des Polyphonproblems) sowie Wortsegmentierung und Prosodievorhersage usw. Derzeit verlässt sich das Huoshan Voice-Team auf Multitask-Modelle und die Regularisierung neuronaler Netze, um 12 gängige Nebensprachen gleichzeitig zu unterstützen, mit bemerkenswerten Ergebnissen.

  • Akustisches Modell: Hauptverantwortlich für die Modellierung von sprachlichen Merkmalen zu akustischen Merkmalen. Daten zeigen, dass die Back-End-Genauigkeitsrate von Huoshan Voice TTS 99,90 % erreichen kann. Gleichzeitig kann das Modell auch eine verfeinerte Steuerung mehrerer Emotionen und Stile, die Übertragung von Stilen zwischen verschiedenen Klangfarben und die Erzielung mehrsprachiger Syntheseeffekte unterstützen, indem nur Trainingsdaten in einer einzigen Sprache verwendet werden.
  • Vocoder-Modul: Hauptverantwortlich für die Modellierung akustischer Merkmale in Audiosignale. Jetzt hat das Huoshan Voice-Team selbst einen Vocoder entwickelt, der auf der Modellierung kontradiktorischer neuronaler Netzwerke basiert und eine Genauigkeitsrate von bis zu 99,95 % aufweist. Durch leichtes Modelldesign und technische Optimierung kann die Echtzeitrate in der Cloud mehr als a erreichen Hundert Mal.
  • Das Sprachsyntheseprodukt Volcano Engine klingt echt und natürlich, verfügt über lebendige Interpretationen und vielfältige Stile. Gleichzeitig stellt es den Rhythmus realer Menschen auf feinkörnige Weise wieder her und realisiert verschiedene paralinguistische Phänomene wie Lachen , um den Menschen ein immersives Hörerlebnis zu bieten. Dies ist bei der kürzlich vom Volcano Voice Team veröffentlichten Sprachsynthesetechnologie für übernatürliche Dialoge der Fall. Im Vergleich zu herkömmlichem TTS kann sie Details wie Modalpartikel, Inhalationsgeräusche, Pausen während des Zögerns und Ausspracheverlängerungen perfekt reproduzieren und erfordert nur 1/. herkömmliche Soundbibliothek. 4 Daten. Darüber hinaus wurde auch die „Tonwiedergabetechnologie“, die zuvor im Internet beliebt war, vom Volcano Voice-Team entwickelt. Im Gegensatz zu den hohen Schwellenwertanforderungen der herkömmlichen Sprachsynthesetechnologie für Daten erfordert die Volcano-Technologie zur Sprachklangwiedergabe nur 0,3 % der Datenmenge herkömmlicher Methoden.
  • Normale Menschen können in einer relativ ruhigen, offenen Umgebung mehr als 2 Minuten lang aufnehmen Das heißt, es kann die Standards der Klangfarbenraummodellierung erfüllen und exklusive Klangfarben-KI-Modelle generieren, was praktisch und effizient ist.

Derzeit wird Huoshan Voice seine seit vielen Jahren ausgefeilten Sprachtechnologiefunktionen auf den Markt bringen und sie über die Volcano-Engine für externe Unternehmen öffnen. Es deckt viele Anwendungsszenarien wie Automobile, Finanzen, Audio-Lesen und Video ab Synchronisation usw. und hat Hezhong Automobile und Book Chasing Artifact unterstützt. Viele führende Unternehmen der Branche haben die Anwendung und Erweiterung von KI-Sprachfunktionen erkannt. Huoshan Voice wird auch in Zukunft die effiziente Kombination von Spitzentechnologien erforschen Technologie- und Geschäftsszenarien und stecken weiterhin innovative Energie in die Benutzererfahrung und das Geschäftswachstum, um einen größeren Wert zu erzielen.

Das obige ist der detaillierte Inhalt vonDie technische Stärke von Huoshan Voice TTS wurde vom National Inspection and Quarantine Center mit einem MOS-Wert von bis zu 4,64 zertifiziert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen