


Wav2vec 2.0 [1], HuBERT [2] und WavLM [3] sowie andere Sprachvortrainingsmodelle wurden durch selbstüberwachtes Lernen an Zehntausenden Stunden unbeschrifteter Sprachdaten (wie Libri-light) erheblich verbessert. Die Leistung von Sprach-Downstream-Aufgaben wie der automatischen Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachkonversation (VC) wurde verbessert. Allerdings gibt es für diese Modelle keine öffentlichen chinesischen Versionen, was ihre Anwendung in chinesischen Sprachforschungsszenarien erschwert.
WenetSpeech [4] ist ein Multi-Domain-Sprachdatensatz von mehr als 10.000 Stunden, der gemeinsam von der Audio, Speech and Language Processing Research Group der NPU (ASLP@NPU), Mobvoi und Hillshell veröffentlicht wurde. Um die Lücke in den chinesischen Sprachvortrainingsmodellen zu schließen, haben wir die chinesischen Versionen von Wav2vec 2.0 und HuBERT-Modellen als Open Source bereitgestellt, die auf 10.000 Stunden WenetSpeech-Datentraining basieren.
Um die Leistung des vorab trainierten Modells zu überprüfen, haben wir es anhand der ASR-Aufgabe überprüft. Experimentelle Ergebnisse zeigen, dass bei der ASR-Aufgabe mit 100 Stunden überwachter Daten die vom Pre-Training-Modell erlernte Sprachdarstellung im Vergleich zu den herkömmlichen akustischen FBank-Funktionen eine deutliche Leistungsverbesserung aufweist. Sie kann sogar mit nur 100 Stunden überwachter Daten erhalten werden und 1000 Stunden Aufsicht.
Modelllink: https://github.com/TencentGameMate/chinese_speech_pretrain
Modelleinführung
Wav2vec 2.0-Modell
Abbildung 1: Wav2ve c 2.0-Modellstruktur (Baevski et al . , 2020)
Wav2vec 2.0 [1] ist ein unbeaufsichtigtes Sprachvortrainingsmodell, das 2020 von Meta veröffentlicht wurde. Seine Kernidee besteht darin, durch Vektorquantisierung (VQ) ein selbst erstelltes überwachtes Trainingsziel zu erstellen, die Eingabe in großen Mengen zu maskieren und dann die kontrastive Lernverlustfunktion für das Training zu verwenden. Die Modellstruktur ist in Abbildung 1 oben dargestellt. Der auf dem Convolutational Neural Network (CNN) basierende Feature-Extraktor codiert das Original-Audio in eine Folge von Frame-Features und wandelt jedes Frame-Feature über das VQ-Modul in ein diskretes Feature Q um als selbstüberwachtes Ziel verwendet. Gleichzeitig wird die Rahmenmerkmalssequenz einer Maskierungsoperation unterzogen und tritt dann in das Transformer-Modell [5] ein, um die Kontextdarstellung C zu erhalten. Schließlich wird der Abstand zwischen der Kontextdarstellung der Maskenposition und dem entsprechenden diskreten Merkmal q durch Vergleich der Lernverlustfunktion, also des positiven Probenpaars, verkürzt. Im Originalpapier verwendet das Wav2vec 2.0 BASE-Modell eine 12-schichtige Transformer-Struktur und wird mit 1.000 Stunden LibriSpeech-Daten trainiert. Das LARGE-Modell verwendet eine 24-schichtige Transformer-Struktur und wird mit 60.000 Stunden Libri-Light-Daten trainiert. In Bezug auf die Trainingszeit verwendet das BASE-Modell 64 V100-Grafikkarten für das Training für 1,6 Tage und das LARGE-Modell verwendet 128 V100-Grafikkarten für das Training für 5 Tage. In der nachgelagerten ASR-Auswertung erreichte das System selbst bei Verwendung von nur 10 Minuten überwachter Daten immer noch ein Word Error Rate (WER)-Ergebnis von 4,8. „HuBERT-Modell“ ähnelt Wav2ve c 2.0, der Unterschied liegt in der Trainingsmethode. Wav2vec 2.0 diskretisiert Sprachmerkmale als selbstüberwachtes Ziel während des Trainings, während HuBERT das Trainingsziel durch Durchführen von K-Means-Clustering für MFCC-Merkmale oder HuBERT-Merkmale erhält. Das HuBERT-Modell verwendet eine iterative Trainingsmethode. Die erste Iteration des BASE-Modells führt ein Clustering für die MFCC-Features durch. Die zweiten Iteration führt ein Clustering für die in der ersten Iteration erhaltenen Features der mittleren Ebene durch Die zweite Iteration des BASE-Modells extrahiert Features für die Clusterbildung. Den experimentellen Ergebnissen des Originalpapiers nach zu urteilen, ist das HuBERT-Modell besser als Wav2vec 2.0, insbesondere wenn die nachgelagerten Aufgaben nur sehr wenige überwachte Trainingsdaten haben, z. B. 1 Stunde oder 10 Minuten.
Chinesisches Vortrainingsmodell
Experimentelle KonfigurationWir verwenden 10.000 Stunden chinesische Daten aus dem WenetSpeech [4] train_l-Set als unbeaufsichtigte Vortrainingsdaten. Die Daten stammen hauptsächlich aus YouTube und Podcasts und umfassen verschiedene Arten von Aufnahmeszenen, Hintergrundgeräuschen, Sprechstilen usw. Zu den Bereichen gehören hauptsächlich Hörbücher, Erzählungen, Dokumentationen, Fernsehserien, Interviews, Nachrichten, Lesungen, Reden, Varietés und andere. usw. 10 Hauptszene. Wir haben Wav2vec 2.0- und HuBERT-Modelle basierend auf dem Fairseq-Toolkit [6] trainiert und dabei der Modellkonfiguration von [1, 2] gefolgt. Jedes vorab trainierte Modellmodell enthält zwei Größen: BASE und LARGE. Für das BASE-Modell verwenden wir 8 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 64 Grafikkarten für das Training. Für das LARGE-Modell verwenden wir 16 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 128 Grafikkarten für das Training.
Überprüfung der Downstream-SpracherkennungsaufgabeUm die Wirkung des vorab trainierten Modells auf die Downstream-ASR-Aufgabe zu überprüfen, folgen wir der experimentellen Konfiguration des Conformer-Modells [10] im ESPnet-Toolkit [7,8,9]. Das heißt, das vorab trainierte Modell wird als verwendet. Der Merkmalsextraktor führt eine gewichtete Summierung der Darstellungen der verborgenen Ebene des eingegebenen Sprachextraktions-Vortrainingsmodells durch, und die resultierende Sprachdarstellung ersetzt die herkömmlichen FBank-Merkmale als Eingabe des Konformes ASR-Modell.
- Aishell-Datensatz
Wir verwendeten den Aishell 178-Stunden-Trainingssatz als überwachte Daten für das Training und verglichen die Wörter mit FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen bzw. HuBERT BASE/LARGE-Modellfunktionen. Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Auswirkung auf den Aishell-Testsatz, wenn wir den WenetSpeech train_l-Satz mit 10.000 Stunden chinesischen Daten für das Training verwendeten. Die Trainingsdaten nutzen variable Geschwindigkeit (0,9-, 1,0-, 1,1-fach) und die SpecAugment-Datenerweiterungstechnologie, die Dekodierungsmethode ist die Strahlsuche und für die Neubewertung wird ein Transformer-basiertes Sprachmodell verwendet.
Tabelle 1: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im Aishell-Testsatz
Wie aus den Ergebnissen in Tabelle 1 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Das trainierte Pre-Training-Modell und die nachgelagerten ASR-Aufgabeneffekte wurden erheblich verbessert. Insbesondere bei Verwendung des HuBERT LARGE-Modells wurde eine relative Verbesserung der CER um etwa 30 % im Testsatz erzielt und damit die besten Ergebnisse in der Branche bei 178 Stunden überwachter Trainingsdaten erzielt.
- WenetSpeech-Datensatz
Wir haben den WenetSpeech train_s-Satz 100 Stunden chinesischer Daten als überwachte Daten für das Training verwendet und die Verwendung von FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen und HuBERT BASE/LARGE verglichen Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Modellergebnisse mit dem WenetSpeech train_m-Set für 1.000 Stunden und dem train_l-Set für 10.000 Stunden chinesischer Daten-FBank-Funktionen. Die Trainingsdaten verwenden keine Datenerweiterungstechnologie mit variabler Geschwindigkeit oder SpecAugment, die Dekodierungsmethode ist die Strahlsuche und es wird keine Neubewertung des Sprachmodells verwendet.
Tabelle 2: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im WenetSpeech-Testsatz
Wie aus den Ergebnissen in Tabelle 2 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Mit dem trainierten vorab trainierten Modell werden die Downstream-ASR-Ergebnisse erheblich verbessert. Insbesondere bei Verwendung von HuBERT LARGE als Sprachdarstellungsextraktor schneidet das mit 100 Stunden überwachten Daten trainierte ASR-Modell besser ab als das mit 1000 Stunden FBank-Funktionen trainierte Modell und kommt sogar dem mit 10.000 Stunden Daten trainierten Modell nahe.
Für weitere experimentelle Ergebnisse zu Voice-Downstream-Aufgaben folgen Sie bitte dem GitHub-Link (https://github.com/TencentGameMate/chinese_speech_pretrain). Jeder ist herzlich willkommen, das von uns bereitgestellte chinesische Sprachvortrainingsmodell für Forschungsarbeiten zu nutzen und die Anwendung des Sprachvortrainingsmodells in chinesischen und verwandten Szenarien zu untersuchen.
Das obige ist der detaillierte Inhalt vonSie können das vorab trainierte Modell für die chinesische Sprache nicht finden? Die chinesische Version Wav2vec 2.0 und HuBERT kommen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Nutzen Sie die Kraft von AI On-Device: Bauen eines persönlichen Chatbot-Cli In der jüngeren Vergangenheit schien das Konzept eines persönlichen KI -Assistenten wie Science -Fiction zu sein. Stellen Sie sich Alex vor, ein Technik -Enthusiast, der von einem klugen, lokalen KI -Begleiter träumt - einer, der nicht angewiesen ist

Ihre Eröffnungseinführung von AI4MH fand am 15. April 2025 statt, und Luminary Dr. Tom Insel, M. D., berühmter Psychiater und Neurowissenschaftler, diente als Kick-off-Sprecher. Dr. Insel ist bekannt für seine herausragende Arbeit in der psychischen Gesundheitsforschung und für Techno

"Wir möchten sicherstellen, dass die WNBA ein Raum bleibt, in dem sich alle, Spieler, Fans und Unternehmenspartner sicher fühlen, geschätzt und gestärkt sind", erklärte Engelbert und befasste sich mit dem, was zu einer der schädlichsten Herausforderungen des Frauensports geworden ist. Die Anno

Einführung Python zeichnet sich als Programmiersprache aus, insbesondere in der Datenwissenschaft und der generativen KI. Eine effiziente Datenmanipulation (Speicherung, Verwaltung und Zugriff) ist bei der Behandlung großer Datensätze von entscheidender Bedeutung. Wir haben zuvor Zahlen und ST abgedeckt

Vor dem Eintauchen ist eine wichtige Einschränkung: KI-Leistung ist nicht deterministisch und sehr nutzungsgewohnt. In einfacherer Weise kann Ihre Kilometerleistung variieren. Nehmen Sie diesen (oder einen anderen) Artikel nicht als endgültiges Wort - testen Sie diese Modelle in Ihrem eigenen Szenario

Erstellen eines herausragenden KI/ML -Portfolios: Ein Leitfaden für Anfänger und Profis Das Erstellen eines überzeugenden Portfolios ist entscheidend für die Sicherung von Rollen in der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML). Dieser Leitfaden bietet Rat zum Erstellen eines Portfolios

Das Ergebnis? Burnout, Ineffizienz und eine Erweiterung zwischen Erkennung und Wirkung. Nichts davon sollte für jeden, der in Cybersicherheit arbeitet, einen Schock erfolgen. Das Versprechen der Agenten -KI hat sich jedoch als potenzieller Wendepunkt herausgestellt. Diese neue Klasse

Sofortige Auswirkungen gegen langfristige Partnerschaft? Vor zwei Wochen hat Openai ein leistungsstarkes kurzfristiges Angebot vorangetrieben und bis Ende Mai 2025 den kostenlosen Zugang zu Chatgpt und Ende Mai 2025 gewährt. Dieses Tool enthält GPT-4O, A A A.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool