Heim >Technologie-Peripheriegeräte >KI >Implementierungspraxis der Spracherkennungstechnologie in Station B

Implementierungspraxis der Spracherkennungstechnologie in Station B

王林
王林nach vorne
2023-04-15 10:40:021698Durchsuche

Automatische Spracherkennungstechnologie (ASR) wurde in großem Umfang in verwandten Geschäftsszenarien von Bilibili implementiert, wie z. B. Sicherheitsüberprüfung von Audio- und Videoinhalten, KI-Untertitel (C-Seite, Must-Cut, S12-Liveübertragung usw.), Videoverständnis (Volltextsuche) )warten.

Darüber hinaus gewann die ASR-Engine von Bilibili auch den ersten Platz in der neuesten umfassenden Bewertung des Industrie-Benchmarks SpeechIO (https://github.com/SpeechColab/Leaderboard​) im November 2022 (https://github. com/ SpeechColab/Leaderboard#5-Ranking), und der Vorteil ist im privaten Testsatz deutlicher.

Rangliste aller Testsätze

Rangliste

Hersteller

Wortfehlerrate

1

B-Station

2,82 %

2

Alibaba Yitu

3,16%

4

Microsoft

3,28 %

5

Tencent

3,85 %

6

iFlytek

4. 05%

7

GESCHWINDIGKEIT

5,19 %

8

Baidu

8,14 %

  • AI-Untertitel (chinesische und englische C-Seite, Must-Cut, S12-Liveübertragung usw.)

Implementierungspraxis der Spracherkennungstechnologie in Station B

Implementierungspraxis der Spracherkennungstechnologie in Station B

  • Volltextsuche

Implementierungspraxis der Spracherkennungstechnologie in Station B

In diesem Artikel wird der Prozess vorgestellt. Wir haben Daten und Algorithmen gesammelt und untersucht. „Hochwertiger ASR-Motor“ 🔜 Die industrielle Bereitstellung zeichnet sich durch geringe Latenz, hohe Geschwindigkeit und Dauer aus weniger Rechenressourcen

Hohe Skalierbarkeit

Kann die Anpassung der Geschäftsiteration effizient unterstützen und die Anforderungen einer schnellen Geschäftsaktualisierung erfüllen

Im Folgenden stellen wir unsere entsprechende Erkundung und Praxis der oben genannten Aspekte basierend auf dem Geschäftsszenario von Station B vor.

Datenkaltstart

Die Aufgabe der Spracherkennung besteht darin, den Textinhalt aus einer Rede vollständig zu identifizieren (Sprache zu Text).

Das ASR-System, das die Anforderungen der modernen industriellen Produktion erfüllt, basiert auf einer großen Menge und vielfältiger Trainingsdaten. Dabei bezieht sich „Vielfalt“ auf inhomogene Daten wie die Umgebung des Sprechers, den Szenenkontext (Feld) und der Akzent des Sprechers.

Für das Geschäftsszenario von Bilibili müssen wir zunächst das Problem des Kaltstarts von Sprachtrainingsdaten lösen. Wir werden auf die folgenden Herausforderungen stoßen:

  • Kaltstart: Es gibt nur eine sehr kleine Menge an Open-Source-Daten Anfangs und die gekauften Daten entsprechen dem Geschäftsszenario. Der Grad ist sehr niedrig.
  • Breites Spektrum an Geschäftsszenarien: Die Audio- und Video-Geschäftsszenarien von Station B decken Dutzende von Bereichen ab, die als allgemeine Bereiche betrachtet werden können und hohe Anforderungen an die „Datenvielfalt“ stellen.
  • Gemischtes Chinesisch und Englisch: Station B hat mehr junge Benutzer und es gibt mehr Videos zum Allgemeinwissen, gemischt auf Chinesisch und Englisch.

Für die oben genannten Probleme haben wir die folgenden Datenlösungen übernommen:

Geschäftsdatenfilterung

B-Site verfügt über eine kleine Anzahl von Untertiteln (CC-Untertitel), die von UP-Eigentümern oder -Benutzern eingereicht wurden, aber vorhanden sind Es gibt auch einige Probleme:

  • Der Start- und Endzeitstempel eines Satzes liegt oft zwischen dem ersten und dem letzten Wort oder nach einigen Wörtern. Es gibt auch keine vollständige Übereinstimmung viele Wörter, zu wenige Wörter, Kommentare oder Übersetzungen, und es gibt Interpretationen entsprechend der Bedeutung
  • Digitale Konvertierung, wie z. B. Untertitel im Jahr 2002, 2002 usw.;
  • Zu diesem Zweck basieren wir auf Open-Source-Daten, gekauften Fertigproduktdaten und einer kleinen Menge annotierter Daten. Trainieren Sie ein Basismodell zum Filtern von Daten und verwenden Sie den übermittelten Untertiteltext, um ein Subsprachenmodell für die Satzzeitausrichtung zu trainieren Untertitelfilterung;

Halbüberwachtes Training

In den letzten Jahren ist die GPU-Rechenleistung aufgrund der Daten erheblich gestiegen. Die Kosten für die Verbesserung und umfangreiche manuelle Annotation von Daten sind zu hoch und ein großes Problem In der Branche sind zahlreiche unbeaufsichtigte (wav2vec, HuBERT, data2vec usw.) [1][2] und halbüberwachte Trainingsmethoden entstanden.

B-Site verfügt über eine große Menge unbeschrifteter Geschäftsdaten. Gleichzeitig haben wir auch eine große Menge unbeschrifteter Videodaten von anderen Websites erhalten. Wir haben eine halbüberwachte Trainingsmethode namens NST (Noisy Student Training) verwendet.

Anfangsphase: Fast 500.000 Manuskripte wurden je nach Feld- und Sendevolumenverteilung überprüft und schließlich etwa 40.000 Stunden automatische Anmerkungsdatenschulung generiert. Die Erkennungsgenauigkeit wurde um verbessert ca. 15 % und die Robustheit des Modells wurde deutlich verbessert.

Abbildung 1

Implementierungspraxis der Spracherkennungstechnologie in Station BMithilfe von Open-Source-Daten, Übermittlungsdaten von Standort B, manuellen Annotationsdaten und automatischen Annotationsdaten haben wir zunächst das Datenkaltstartproblem gelöst. Mit der Iteration des Modells können wir die Daten weiter herausfiltern Domänendaten mit schlechter Erkennung,

Dies bildet einen positiven Kreislauf. Nachdem wir zunächst das Datenproblem gelöst haben, konzentrieren wir uns im Folgenden auf die Optimierung des Modellalgorithmus. Modellalgorithmusoptimierung Von 1993 bis 2009 befand sich die Spracherkennung in der HMM-GMM-Ära, in der sich der Schwerpunkt der Forschung von einem auf Standardvorlagenabgleich basierenden Modell hin zu einem großen Vokabular und nicht isolierten Wörtern verlagerte -spezifische kontinuierliche Spracherkennung Die Entwicklung der Spracherkennung verlief seit den 1990er Jahren relativ langsam und die Fehlerquote bei der Erkennung ist nicht wesentlich gesunken.

Die zweite Phase dauert von 2009 bis etwa 2015. Mit der deutlichen Verbesserung der GPU-Rechenleistung begann Deep Learning im Jahr 2009 in der Spracherkennung zu wachsen. Das Spracherkennungs-Framework begann sich in HMM-DNN umzuwandeln und begann in die DNN-Ära einzutreten . Die Genauigkeit der Spracherkennung wurde erheblich verbessert.

Die dritte Phase ist nach 2015. Aufgrund des Aufstiegs der End-to-End-Technologie fördert die Entwicklung von CV, NLP und anderen KI-Bereichen einander. Die Spracherkennung beginnt, tiefere und komplexere Netzwerke zu nutzen, während End-to-End-Technologien zum Einsatz kommen. Die Leistungsfähigkeit der Spracherkennung wird unter einigen eingeschränkten Bedingungen sogar über das menschliche Niveau hinausgehen.

Abbildung 2

B Battle ASR technische Lösung

Einführung in wichtige Konzepte

Zum besseren Verständnis finden Sie hier eine kurze Einführung in einige wichtige Grundkonzepte

Modellieren Einheit

Implementierungspraxis der Spracherkennungstechnologie in Station B

Hybrid oder E2E

Die zweite Stufe des auf neuronalen Netzwerken basierenden Hybrid-Frameworks HMM-DNN weist im Vergleich zur ersten Stufe des HMM-GMM-Systems eine enorme Verbesserung der Spracherkennungsgenauigkeit auf. Dies wurde auch von allen erkannt.

Allerdings war auch die dritte Phase des End-to-End (E2E)-Systemvergleichs mit der zweiten Phase eine Zeit lang in der Branche umstritten [4]. verwandte Modelle, Die Darstellungsfähigkeit des Modells wird immer stärker

Gleichzeitig können wir mit der deutlichen Verbesserung der GPU-Rechenleistung nach und nach mehr Datentraining hinzufügen. und immer mehr Unternehmen entscheiden sich für einen End-to-End-Endplan.

Hier vergleichen wir diese beiden Lösungen basierend auf dem Geschäftsszenario von Bilibili:

Implementierungspraxis der Spracherkennungstechnologie in Station B

Abbildung 3

Abbildung 2 ist ein typisches DNN-HMM-Framework. Es ist ersichtlich, dass seine Pipeline sehr lang ist und verschiedene Sprachen aufweist ​Erfordern professionelles Aussprachewörterbuch,

Und das End-to-End-System in Abbildung 3 fügt all dies in ein neuronales Netzwerkmodell ein. Die Eingabe des neuronalen Netzwerks ist Audio (oder Funktionen), und die Ausgabe ist das Erkennungsergebnis wir wollen.

Implementierungspraxis der Spracherkennungstechnologie in Station B

Abbildung 4

Mit der Entwicklung der Technologie werden die Vorteile von End-to-End-Systemen in Bezug auf Entwicklungstools, Communities und Leistung immer offensichtlicher:

  • Vergleich repräsentativer Tools und Communities
HTK, Kaldi


Hybrid-Framework (Hybrid)

End-to-End-Framework Open-Source-Tools und Communities

Erweiterbarkeit

TensorFlow /Pytorch

  • Leistungsvergleich

Die folgende Tabelle zeigt das optimale Ergebnis (CER) typischer Datensätze basierend auf repräsentativen Tools:

10.804.72


Hybrid Framework. (hy Braut)

End-to-End Framework (E2E)

steht für Tools

Kaldi

Espnet

steht für Technologie

tdnn+chain+rnnlm-Rescoring G igaspeech

14.84

aishell-1

7.43

WenetSpeech

12.83

8.80

Kurz gesagt: Durch die Wahl eines End-to-End-Systems können wir im Vergleich zum herkömmlichen Hybrid-Framework mit bestimmten Ressourcen schneller und besser ein qualitativ hochwertiges ASR-System entwickeln.

Natürlich können wir basierend auf dem Hybrid-Framework, wenn wir auch gleichermaßen fortschrittliche Modelle und hochoptimierte Decoder verwenden, Ergebnisse nahezu durchgängig erzielen, aber wir müssen möglicherweise ein Vielfaches investieren Manpower und Ressourcen, um dieses System zu entwickeln und zu optimieren.

End-to-End-Lösungsauswahl

Bilibili jeden Tag Es müssen Hunderttausende Stunden Audio transkribiert werden, was einen hohen Durchsatz und eine hohe Geschwindigkeit des ASR-Systems erfordert. Gleichzeitig ist auch die Szenenabdeckung von Station B sehr groß und effizientes ASR-System ist für uns von großer Bedeutung.

Ideales ASR-System

Implementierungspraxis der Spracherkennungstechnologie in Station B

Abbildung 5

Wir hoffen, auf der Grundlage des End- End-Framework Ein effizientes ASR-System löst das Problem im B-Station-Szenario.

End-to-End-Systemvergleich

Implementierungspraxis der Spracherkennungstechnologie in Station B

Abbildung 6

Abbildung 4 ist nun repräsentativ Drei End-to-End-Systeme [5], nämlich E2E-CTC, E2E-RNNT und E2E-AED. Im Folgenden werden die Vor- und Nachteile der einzelnen Systeme unter verschiedenen Aspekten verglichen (je höher die Punktzahl, desto besser)#🎜🎜 #

# 🎜🎜#Systemvergleich
#🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#e2e-aed#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜#E2E-RNNT# 🎜🎜#Optimiert Erkenntnis Accuracy#🎜🎜 ## 🎜🎜 ## 🎜🎜#6#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#5#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 #6#🎜🎜 #Live (Streaming) 3#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#5#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#5#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 🎜🎜 ##🎜🎜 #Kosten&Geschwindigkeit #🎜🎜 #5


4

3

5#🎜🎜 #

schnelle Reparatur

3

#🎜 Schnelle und effiziente Iteration

6

4

  • Nicht-Streaming-Genauigkeitsvergleich (CER)
--7,15.8 #🎜 🎜#

Im Vergleich zu Hybridsystemen sind die Zeitstempel der End-to-End-System-Dekodierungsergebnisse nicht sehr genau. Das CTC-Trainingsmodell ist viel genauer als AED-Zeitstempel, es gibt jedoch auch ein Spitzenproblem. Die Dauer jedes Wortes ist ungenau.

Nach dem End-to-End-Diskriminierungstraining wird die Modellausgabe flacher und die Zeitstempelgrenzen der Dekodierungsergebnisse werden genauer

Bei der Entwicklung der Spracherkennungstechnologie ist der Decoder eine sehr wichtige Komponente, unabhängig davon, ob es sich um die erste Stufe basierend auf GMM-HMM oder die zweite Stufe basierend auf dem DNN-HMM-Hybrid-Framework handelt.

Die Leistung des Decoders bestimmt direkt die Geschwindigkeit und Genauigkeit des endgültigen ASR-Systems. Auch die Geschäftserweiterung und -anpassung basiert größtenteils auf flexiblen und effizienten Decoderlösungen. Herkömmliche Decoder, unabhängig davon, ob es sich um dynamische Decoder oder statische Decoder auf WFST-Basis handelt, sind nicht nur auf viel theoretisches Wissen angewiesen, sondern erfordern auch ein professionelles Software-Engineering-Design In der Anfangsphase ist viel Personalentwicklung erforderlich, und die anschließenden Wartungskosten sind ebenfalls sehr hoch.

Ein typischer herkömmlicher WFST-Decoder muss HMM, Triphone-Kontext, Wörterbuch und Sprachmodell in einem einheitlichen Netzwerk, nämlich HCLG, in einem einheitlichen FST-Netzwerksuchraum kompilieren, was die Geschwindigkeit und Genauigkeit der Decodierung verbessern kann.

Mit der Reife der End-to-End-Systemtechnologie weist die End-to-End-Systemmodellierungseinheit eine größere Granularität auf, z. B. chinesische Wörter oder englische Wortteile, da die traditionelle HMM-Übertragungsstruktur, der Triphonkontext und das Aussprachewörterbuch entfernt werden Dadurch wird der Suchraum für die nachfolgende Dekodierung viel kleiner, daher wählen wir einen einfachen und effizienten dynamischen Dekoder, der auf der Strahlsuche basiert. Die folgende Abbildung zeigt zwei Dekodierungsrahmen im Vergleich zum herkömmlichen WFST-Dekodierer die folgenden Vorteile:

Beansprucht nur wenige Ressourcen, typischerweise 1/5 der WFST-Dekodierungsressourcen

Der geringe Kopplungsgrad erleichtert die Anpassung des Geschäfts und die Integration der Dekodierung in verschiedene Sprachmodelle

Die Dekodierungsgeschwindigkeit ist hoch und verwendet die wortsynchrone Dekodierung [8], die normalerweise fünfmal schneller ist als die WFST-Dekodierungsgeschwindigkeit. Abbildung 8: Modellinferenzbereitstellung. Unter einem angemessenen und effizienten Ende. Im End-ASR-Framework sollte der Teil mit dem größten Rechenaufwand die Inferenz des neuronalen Netzwerkmodells sein, und dieser rechenintensive Teil kann die Rechenleistung der GPU voll ausnutzen. Wir optimieren die Modellinferenzbereitstellung aus der Inferenz Service, Modellstruktur und Modellquantifizierung:
  • Das Modell verwendet F16-Inferenz mit halber Genauigkeit.
  • Das Modell wird in FasterTransformer[9] konvertiert, basierend auf dem hochoptimierten Transformator von NVIDIA.
  • Verwendung von Triton zur automatischen Bereitstellung des Inferenzmodells Gruppierung von Stapeln, wodurch die Effizienz der GPU-Nutzung vollständig verbessert wird.

Implementierungspraxis der Spracherkennungstechnologie in Station BAuf einer einzelnen GPU T4 wird die Download-Geschwindigkeit um 30 % erhöht, der Durchsatz wird um das Zweifache erhöht und 3.000 Stunden langes Audio können in einer Stunde transkribiert werden

Zusammenfassung

Dieser Artikel stellt hauptsächlich die Implementierung der Spracherkennungstechnologie in der Bilibili-Szene vor, wie man das Trainingsdatenproblem von Grund auf löst, die Auswahl der gesamten technischen Lösung sowie deren Einführung und Optimierung Untermodul, einschließlich Modellschulung, Decoderoptimierung und Service-Inferenzbereitstellung usw. In Zukunft werden wir das Benutzererlebnis in relevanten Landing-Szenarien weiter verbessern, z. B. durch den Einsatz von Instant-Hot-Word-Technologie, um die Genauigkeit relevanter Entitätswörter auf Manuskriptebene zu optimieren, kombiniert mit Streaming-ASR-bezogener Technologie, effizienterer, maßgeschneiderter Unterstützung für Real-; Zeitliche Untertiteltranskription von Spielen und Sportveranstaltungen.
  • Referenzen
  • [1] A Baevski, H Zhou, et al. wav2vec 2.0: Ein Rahmen für selbstüberwachtes Lernen von Sprachdarstellungen
  • [2] A Baevski, W Hsu, et al. data2vec: Ein allgemeiner Rahmen für Selbstüberwachtes Lernen in Sprache, Sehen und Sprache
[3] Daniel S, Y Zhang, et al. Verbessertes Training für laute Schüler zur automatischen Spracherkennung

[4] C Lüscher, E Beck, et al LibriSpeech: Hybrid vs. Aufmerksamkeit – ohne Datenerweiterung

[5] R. Prabhavalkar, K. Rao, et al., Ein Vergleich von Sequenz-zu-Sequenz-Modellen für die Spracherkennung

[6] D. Povey, V. Peddinti1, et al, Rein sequenztrainierte neuronale Netze für ASR basierend auf gitterfreiem MMI

[7] H Xiang, Z Ou, CRF-BASIERTE EINSTUFIGE AKUSTISCHE MODELLIERUNG MIT CTC-TOPOLOGIE

[8] Z Chen, W Deng, et Al, Telefonsynchrondecodierung mit CTC -Gitter [9]

https://www.php.cn/link/2ea6241cf767c279cf1e80a790df1885

the Autor dieser Ausgabe: Deng Weii

senior algorithmer

Leiter der Spracherkennungsabteilung bei Bilibili


2000 Stunden

15000 Stunden

Kaldi Chain-Modell+LM

13,7 NT

12.4

E2E-CTC(gierig)

13,1

Optimiertes E2E-CTC+LM

1 0,2

Das Obige sind die Ergebnisse von Lebens- und Essensszenen an Station B, basierend auf 2000 Stunden bzw. 15000 Stunden Videotrainingsdaten. Chain und E2E-CTC verwenden das erweiterte Sprachmodell, das mit demselben Korpus trainiert wurde,

E2E-AED und E2E -RNNT verwendet die Erweiterung nicht. Das Sprachmodell und das End-to-End-System basieren auf dem Conformer-Modell.

Aus der zweiten Tabelle ist ersichtlich, dass die Genauigkeit eines einzelnen E2E-CTC-Systems nicht wesentlich schwächer ist als die anderer End-to-End-Systeme, gleichzeitig bietet das E2E-CTC-System jedoch folgende Vorteile:

  • Da es keine automatische Regression der neuronalen Netzwerkstruktur (AED-Decoder und RNNT-Vorhersage) gibt, bietet das E2E-CTC-System natürliche Vorteile in Bezug auf Streaming, Decodierungsgeschwindigkeit und Bereitstellungskosten.
  • In Bezug auf die Geschäftsanpassung bietet das E2E-CTC-System Vorteile Es ist auch einfacher, verschiedene Sprachmodelle (nnlm und ngram) extern zu verbinden. Dadurch ist die Generalisierungsstabilität deutlich besser als bei anderen End-to-End-Systemen in allgemeinen offenen Bereichen, in denen die Datenabdeckung unzureichend ist. „Hochwertige ASR-Lösung“ Es besteht auch Bedarf an schnellen Aktualisierungen und Anpassungen in verschiedenen Szenarien (z. B. Entitätswörter im Zusammenhang mit Manuskripten, Anpassung beliebter Spiele und Sportveranstaltungen usw.
Hier übernehmen wir im Allgemeinen ein End-to-End-CTC-System und lösen es). Das Problem wird durch Probleme bei der Skalierbarkeitsanpassung verursacht. Im Folgenden liegt der Schwerpunkt auf der Optimierung der Modellgenauigkeit, -geschwindigkeit und -skalierbarkeit.

End-to-End-CTC-Unterscheidungstraining

Unser System verwendet chinesische Schriftzeichen plus englische BPE-Modellierung. Nach dem Multitasking-Training basierend auf AED und CTC behalten wir nur den CTC-Teil bei und führen später ein Unterscheidungstraining durch. Wir übernehmen ein durchgängiges, gitterfreies MMI[6][7]-Diskriminierungstraining:

diskriminatives Trainingskriterium

Implementierungspraxis der Spracherkennungstechnologie in Station B

diskriminatives Kriterium-MMI

und traditionelle Diskriminierung Unterschiede im sexuellen Training
  • 1. Traditioneller Ansatz

a. Generieren Sie zunächst das Ausrichtungs- und Dekodierungsgitter, das dem gesamten Trainingskorpus auf der CPU entspricht; Implementierungspraxis der Spracherkennungstechnologie in Station B

b. Während des Trainings berechnet jeder Minibatch den Zähler bzw. das Gitter aus dem vorab generierten Ausrichtung und Gitter. 2. Unser Ansatz: Während des Trainings berechnet jeder Minibatch den Zähler- und Nennergradienten.
  • Der Unterschied zwischen Kaldi und Kaldi Telefonbasiertes gitterfreies MMI-Diskriminierungstraining

Implementierungspraxis der Spracherkennungstechnologie in Station B

1. Modellieren Sie Zeichen und englisches BPE direkt durchgängig und verzichten Sie auf die Telefon-HMM-Zustandsübertragungsstruktur

2. Die Modellierungsgranularität ist groß, die Trainingseingabe nicht Ungefähr gekürzt, und der Kontext ist der gesamte Satz.

  • Die folgende Tabelle basiert auf 15.000 Stunden an Daten. Nach Abschluss des CTC-Trainings werden 3.000 Stunden für das Unterscheidungstraining ausgewählt Bis auf die Genauigkeit sind die Ergebnisse des gitterfreien MMI-Diskriminierungstrainings besser als beim herkömmlichen DT-Training. Durch die Verbesserung kann der gesamte Trainingsprozess in der Tensorflow/Pytorch-GPU abgeschlossen werden. B-Station-Videotestset

Traditionelles DT

6.63

E2E LFMMI DT

6.13

Das obige ist der detaillierte Inhalt vonImplementierungspraxis der Spracherkennungstechnologie in Station B. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen