Heim >Technologie-Peripheriegeräte >KI >Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

WBOYnach vorne: 2023-08-04 09:41:051119Durchsuche

Nachrichten vom 27. Juli: Microsoft hat kürzlich ein Sprachmodell namens NaturalSpeech2 auf den Markt gebracht. Dieses Modell verfügt über ein „Potenzialdiffusions“-Design und liefert hervorragende Ergebnisse auf der Sprachsyntheseebene ohne Stichproben. Microsoft behauptet, dass das Modell „kommerziell“ sei -Grade-Sprach-/Gesangslösung kann Benutzern ein hochwertiges und vielfältiges Sprachsyntheseerlebnis bieten.

Microsoft führte eine Reihe von Demonstrationen durch, die die Fähigkeit von NaturalSpeech2 zeigten, Sprache mit unterschiedlichen Sprecheridentitäten, Prosodie und Stilen (z. B. Gesang) ohne Samples zu erzeugen

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Es wird berichtet dass NaturalSpeech2 von Microsoft im Gegensatz zu herkömmlichen Speech-to-Text-Systemen (TTS) „kontinuierliche Vektoren“ anstelle von „diskreten Markierungen“ verwendet, um Sprache darzustellen, wodurch vollständigere Sprachsegmente generiert werden, ohne einen „Mangel an Emotionen“ hervorzurufen. Das Phänomen „ Stocklesen (Wort für Wort sprechen)“.

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Experimentelle Ergebnisse zeigen, dass die von NaturalSpeech2 unter Null-Stichprobenbedingungen erzeugte Sprache nahezu mit der Prosodie von Sprachaufforderungen und echter Sprache übereinstimmt und auf dem LibriTTS natürlich ist und VCTK-Testsätze Der Grad (gemessen in CMOS) ist nicht von menschlicher Sprache zu unterscheiden .

Das Paper zu diesem Projekt wurde auf GitHub veröffentlicht. Interessierte IT-House-Freunde können hier klicken, um es zu besuchen.

Das obige ist der detaillierte Inhalt vonDas neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Google plant, in Shanghai eine Entwicklerkonferenz abzuhalten, die sich auf die Bereiche maschinelles Lernen und generative KI konzentrieren wirdNächster Artikel：Google plant, in Shanghai eine Entwicklerkonferenz abzuhalten, die sich auf die Bereiche maschinelles Lernen und generative KI konzentrieren wird

In Verbindung stehende Artikel

Mehr sehen