Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

WBOY
WBOYnach vorne
2023-04-13 11:10:021595Durchsuche

Das Xiaohongshu Multimedia Intelligent Algorithm Team und die Chinese University of Hong Kong haben erstmals gemeinsam das Hochleistungs-Sprachsyntheseschema MSMC-TTS vorgeschlagen, das auf einer mehrstufigen kompakten Sprachdarstellung mit mehreren Codebüchern basiert. Der auf dem vektorquantisierten Variations-Autoencoder (VQ-VAE) basierende Merkmalsanalysator verwendet mehrere Codebücher, um akustische Merkmale stufenweise zu kodieren, um einen Satz latenter Sequenzen mit unterschiedlichen zeitlichen Auflösungen zu bilden. Diese latenten Sequenzen können von einem mehrstufigen Prädiktor aus Text vorhergesagt und von einem neuronalen Vocoder in Zielaudio umgewandelt werden. Im Vergleich zum Mel-Spectrogram-basierten Fastspeech-Basissystem weist diese Lösung erhebliche Verbesserungen in der Klangqualität und Natürlichkeit auf. Diese Arbeit wurde nun in dem Papier „A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS“ zusammengefasst und von der Sprachdomänenkonferenz INTERSPEECH 2022 angenommen.

1. Hintergrundeinführung

Text-to-Speech (TTS) ist eine Technologie, die Text in Sprache umwandelt. Sie wird häufig bei der Videosynchronisierung, der Erstellung von Audio- und Videoinhalten, der intelligenten Mensch-Computer-Interaktion und anderen Produkten eingesetzt. Die Back-End-Akustikmodellierungstechnologie gängiger Sprachsynthesesysteme umfasst normalerweise drei Teile: Merkmalsextraktor, Akustikmodell und Vocoder. TTS führt normalerweise eine akustische Modellierung anhand der Signalverarbeitung durch (z. B. Mel Spectrogram). Aufgrund der Anpassungsfähigkeit des Modells besteht jedoch ein gewisser Unterschied in der Verteilung zwischen den vorhergesagten akustischen Merkmalen und den tatsächlichen Daten macht es für Vocoder, die auf echten Daten trainiert wurden, schwierig, aus vorhergesagten Merkmalen hochwertiges Audio zu generieren.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

TTS-Systemrahmendiagramm


Als Reaktion auf dieses Problem hat die akademische Gemeinschaft komplexere Modellstrukturen und neuartigere generative Algorithmen verwendet, um Vorhersagefehler und Verteilungsunterschiede zu reduzieren. Diese Arbeit verfolgt einen anderen Ansatz und nimmt die kompakte Sprachdarstellung als Ausgangspunkt für die Betrachtung des Problems. Bei der Sprachsynthese kann 1) eine gute Kompaktheit der akustischen Merkmale genauere Modellvorhersageergebnisse und eine robustere Wellenformerzeugung gewährleisten; 2) eine gute Vollständigkeit der akustischen Merkmale kann eine bessere Rekonstruktion von Sprachsignalen gewährleisten. Basierend auf diesen beiden Überlegungen schlägt dieses Papier die Verwendung eines Vektorquantisierungs-Variations-Autoencoders (VQ-VAE) vor, um eine bessere kompakte Darstellung aus den Zieldaten zu gewinnen.

2. Darstellungslernen MSMC VQ-VAE

VQ-VAE enthält Encoder und Decoder. Der Encoder verarbeitet die eingegebene akustische Merkmalssequenz in eine latente Sequenz und quantisiert sie mithilfe des entsprechenden Codebuchs. Der Decoder stellt die quantisierte Sequenz auf die ursprüngliche akustische Merkmalssequenz wieder her. Diese quantisierte Folge weist eine bessere Kompaktheit (weniger Anzahl charakteristischer Parameter) als eine diskretisierte Darstellung auf. Je höher der Quantisierungsgrad, also je kleiner die Codebuchkapazität, desto höher ist die Kompaktheit der Merkmale. Dies führt aber auch zu einer Informationskomprimierung und verschlechtert die Funktionsvollständigkeit. Um eine ausreichende Vollständigkeit zu gewährleisten, werden in der Regel mehr Codewörter verwendet. Mit zunehmender Codebuchkapazität nehmen jedoch die für die Codebuchaktualisierung erforderliche Datenmenge und die Anzahl der Trainingszeiten exponentiell zu, was es für VQ-VAE schwierig macht, die Darstellungsvollständigkeit durch Vergrößerung des Codebuchs effektiv zu verbessern. Um dieses Problem anzugehen, wird in diesem Artikel die Methode der Mehrkopf-Vektorquantisierung (MHVQ) vorgeschlagen.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

VQ-VAE-Modellstrukturdiagramm


MHVQ unterteilt ein einzelnes Codebuch entsprechend der Merkmalsdimensionsrichtung in mehrere Untercodebücher. Während der Quantisierung wird jeder Eingabevektor gleichmäßig in mehrere Untervektoren zerlegt, mit entsprechenden Untercodebüchern quantisiert und schließlich in einen Ausgangsvektor gespleißt. Auf diese Weise können wir die Nutzung des Codebuchs und die Darstellungskapazität effektiver verbessern, ohne die Anzahl der Codebuchparameter zu erhöhen. Um beispielsweise die Komprimierungsrate um den Faktor 1 zu reduzieren, müssen die Codewörter auf das Quadrat der ursprünglichen Codebuchnummer erhöht werden. Nach der Verwendung von MHVQ kann die gleiche Komprimierungsrate erreicht werden, indem das Codebuch einfach in zwei Teile geteilt wird. Daher kann diese Methode die Vollständigkeit quantitativer Darstellungen effektiver regulieren.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

MHVQ-Beispielbild


Außerdem gehen bei der Quantisierung der Sprachsequenz verschiedene Arten von Informationen, die in den Sprachmerkmalen enthalten sind, in unterschiedlichem Maße verloren. Diese Informationen unterscheiden sich in der zeitlichen Granularität, z. B. grobkörniges Timbre, Aussprachestil usw., und feinkörnige Tonhöhe, Aussprachedetails usw. Eine übermäßige Komprimierung von Informationen auf einer beliebigen Zeitskala kann zu einer gewissen Verschlechterung der Sprachqualität führen. Um dieses Problem zu lindern, schlägt diese Arbeit eine Sprachmodellierungsmethode mit mehreren Zeitskalen vor. Wie in der Abbildung gezeigt, wird die akustische Merkmalssequenz durch mehrere Encoder schrittweise auf unterschiedliche Zeitskalen codiert und dann Schicht für Schicht durch den Decoder quantisiert, wodurch mehrere quantisierte Sequenzen mit unterschiedlichen Zeitauflösungen decodiert werden. Die aus dieser Art von Sequenzsatz zusammengesetzte Darstellung ist die in dieser Arbeit vorgeschlagene mehrstufige Multi-Codebuch-Darstellung.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

Beispieldiagramm für mehrstufige Modellierung


3. Akustische Modellierung MSMC-TTS # 🎜🎜#

Angesichts der mehrstufigen Multi-Codebuch-Charakterisierung MSMCR schlägt dieser Artikel das entsprechende TTS-System vor, nämlich das MSMC-TTS-System. Das System besteht aus drei Teilen: Analyse, Synthese und Vorhersage. Beim Systemtraining trainiert das System zunächst das Analysemodul. Das Audio im Trainingssatz wird nach der Signalverarbeitung in akustische Merkmale mit hoher Vollständigkeit (wie die in dieser Arbeit verwendeten Mel-Spektrogramm-Funktionen) umgewandelt. Diese akustischen Merkmale werden verwendet, um den Merkmalsanalysator basierend auf MSMC-VQ-VAE zu trainieren. Am Ende des Trainings werden sie in den entsprechenden MSMCR umgewandelt und anschließend werden das akustische Modell und der neuronale Vocoder trainiert. Während der Dekodierung verwendet das System ein akustisches Modell, um MSMCR aus Text vorherzusagen, und verwendet dann einen neuronalen Vocoder, um das Zielaudio zu erzeugen.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

MSMC-TTS-Systemrahmendiagramm


Diese Arbeit schlägt auch einen mehrstufigen Prädiktor zur Anpassung der MSMCR-Modellierung vor. Dieses Modell ist auf Basis von FastSpeech implementiert, unterscheidet sich jedoch auf der Decoderseite. Das Modell kodiert zunächst den Text und führt ein Upsampling des Textes auf Grundlage der vorhergesagten Dauerinformationen durch. Die Sequenz wird dann auf jede Zeitauflösung heruntergesampelt, die MSMCR entspricht. Diese Sequenzen werden von verschiedenen Decodern Schritt für Schritt von niedriger Auflösung zu hoher Auflösung dekodiert und quantisiert. Gleichzeitig wird die quantisierte Sequenz mit niedriger Auflösung an den Decoder der nächsten Stufe gesendet, um die Vorhersage zu unterstützen. Schließlich wird der vorhergesagte MSMCR in den neuronalen Vocoder eingespeist, um das Zielaudio zu erzeugen.


So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

Mehrstufiges Prädiktorstrukturdiagramm


Beim Training und Ableiten des mehrstufigen Prädiktors wählt diese Arbeit die direkte Vorhersage der Zieldarstellung im kontinuierlichen Raum. Diese Methode kann die Abstandsbeziehung zwischen Vektoren und Codewörtern im linearen kontinuierlichen Raum besser berücksichtigen. Zusätzlich zur MSE-Verlustfunktion, die üblicherweise für die TTS-Modellierung verwendet wird, verwendet das Trainingskriterium auch einen „Triplettverlust“, um den Vorhersagevektor von Nicht-Zielcodewörtern weg und näher an das Zielcodewort zu zwingen. Durch die Kombination der beiden Verlustfunktionsterme kann das Modell das Zielcodewort besser vorhersagen.

4. Experimentelle Ergebnisse

Diese Arbeit wurde am öffentlichen englischen Single-Speaker-Datensatz Nancy (Blizzard Challenge 2011) durchgeführt. Wir haben einen subjektiven Meinungstest (MOS) organisiert, um den MSMC-TTS-Syntheseeffekt zu bewerten. Die experimentellen Ergebnisse zeigen, dass bei einer Originalaufzeichnung von 4,50 Punkten der MSMC-TTS-Score 4,41 Punkte beträgt und das Basissystem Mel-FS (Mel-Spektrogramm-basiertes FastSpeech) 3,62 Punkte beträgt. Wir haben den Vocoder des Basissystems so abgestimmt, dass er zu den Ausgangseigenschaften des Mel-FS passt, und das Ergebnis war 3,69 Punkte. Dieses Vergleichsergebnis beweist die signifikante Verbesserung des TTS-Systems, das durch die in diesem Artikel vorgeschlagene Methode vorgeschlagen wird.

So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

Darüber hinaus haben wir die Auswirkungen der Modellierungskomplexität auf TTS weiter erörtert. Die Anzahl der Modellparameter nimmt exponentiell von M1 auf M3 ab und der Mel-FS-Syntheseeffekt sinkt auf 1,86 Punkte. Im Gegensatz dazu hatte die Reduzierung der Parameteranzahl bei MSMC-TTS keinen signifikanten Einfluss auf die Synthesequalität. Wenn die Parametergröße des akustischen Modells 3,12 MB beträgt, kann der MOS immer noch 4,47 Punkte beibehalten. Dies zeigt nicht nur die geringen Komplexitätsanforderungen der MSMC-TTS-Modellierung auf Basis kompakter Merkmale, sondern zeigt auch das Potenzial dieser Methode für die Anwendung auf leichtgewichtige TTS-Systeme.

So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen


Schließlich führten wir einen MSMC-TTS-Vergleich basierend auf verschiedenen MSMCRs durch, um den Unterschied zwischen ihnen zu untersuchen MHVQ und Der Einfluss der mehrstufigen Modellierung auf TTS. Unter diesen verwendet das V1-System eine einstufige Einzelcodebuchdarstellung, das V2-System eine 4-Kopf-Vektorquantisierung basierend auf V1 und das V3-System eine zweistufige Modellierung basierend auf V2. Erstens weist die vom V1-System verwendete Darstellung das höchste Merkmalskomprimierungsverhältnis auf, weist jedoch die niedrigste Vollständigkeit bei Analyse-Synthese-Experimenten und die schlechteste Synthesequalität bei TTS-Experimenten auf. Nachdem MHVQ die Vollständigkeit verbessert hat, wurde auch der TTS-Effekt des V2-Systems erheblich verbessert. Obwohl die von V3 verwendete mehrstufige Darstellung keine weiteren Verbesserungen in der Vollständigkeit zeigte, zeigte sie auf TTS die besten Ergebnisse, mit deutlichen Verbesserungen sowohl in der rhythmischen Natürlichkeit als auch in der Audioqualität. Dies zeigt weiter, dass mehrstufige Modellierung und mehrskalige Informationsspeicherung bei MSMC-TTS von großer Bedeutung sind.

So bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen

5. Zusammenfassung

Diese Arbeit schlägt ein neues Hochleistungs-TTS (MSMC-TTS) aus der Perspektive des Studiums der kompakten Sprachdarstellung vor. Modellierungsmethode. Das System extrahiert mehrstufige Multi-Codebuch-Darstellungen aus Audio anstelle herkömmlicher akustischer Merkmale. Eingabetext kann von einem mehrstufigen Prädiktor in diese Sprachdarstellung umgewandelt werden, die aus mehreren Sequenzen mit unterschiedlichen zeitlichen Auflösungen besteht, und von einem neuronalen Vocoder in ein Zielsprachsignal umgewandelt werden. Experimentelle Ergebnisse zeigen, dass dieses System im Vergleich zum Mainstream-FastSpeech-System, das auf Mel-Spektrogramm basiert, eine bessere Synthesequalität und geringere Anforderungen an die Modellierungskomplexität aufweist.

6. Informationen zum Autor

Guo Haohan: Praktikant im Multimedia Intelligent Algorithm Team von Xiaohongshu. Er schloss sein Studium an der Northwestern Polytechnical University mit einem Bachelor ab und studierte im ASLP-Labor bei Professor Xie Lei. Derzeit promoviert er im HCCL-Labor der Chinesischen Universität Hongkong bei Professor Meng Meiling. Bisher wurden als Erstautor sechs Artikel auf den internationalen Redekonferenzen ICASSP, INTERSPEECH und SLT veröffentlicht.

Xie Fenglong: Leiter der Sprachtechnologie des Xiaohongshu Multimedia Intelligent Algorithm Team. Er hat mehr als zehn Artikel in Vortragskonferenzen und Fachzeitschriften wie ICASSP, INTERSPEECH und SPEECHCOM veröffentlicht. Er ist seit langem als Gutachter für große Vortragskonferenzen wie ICASSP und INTERSPEECH tätig.

Das obige ist der detaillierte Inhalt vonSo bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen