B局における音声認識技術の導入実践

B局における音声認識技術の導入実践

関連記事

近年、データと GPU コンピューティング能力の大幅な向上と、トレーニングのコストの高騰により、データの大規模な手動アノテーションにより、多数の教師なし (wav2vec、HuBERT、data2vec など) [1][2] および半教師ありのトレーニング方法が業界で登場しています。

ハイブリッドまたは E2E

エンドツーエンドのソリューションの選択

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラルネットワーク

ハイブリッドまたは E2E

エンドツーエンドのソリューションの選択

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラル ネットワーク

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラルネットワーク

ホームページ >テクノロジー周辺機器 >AI >B局における音声認識技術の導入実践

王林転載: 2023-04-15 10:40:021790ブラウズ

自動音声認識 (ASR) テクノロジーは、オーディオおよびビデオコンテンツのセキュリティレビュー、AI 字幕 (C サイド、マストカット、S12 ライブブロードキャストなど) など、Bilibili の関連ビジネスシナリオに大規模に実装されています。）、動画理解（全文検索）など。

さらに、Bilibili の ASR エンジンは、2022 年 11 月に行われた産業用ベンチマーク SpeechIO (https://github.com/SpeechColab/Leaderboard) の最新の本格的な評価でも 1 位を獲得しました (https: //) github.com/SpeechColab/Leaderboard#5-ranking)、非公開のテストセットでは利点がより明らかです。

##ビリビリ#2 3#3.16%Microsoft#テンセント百度8.14%

全テストセットのランキング

#ランキング

メーカー

ワードエラー率

##2.82%

Alibaba Cloud

2.85%

#Yitu

##4

3.28%

##3.85%

iFlytek

4.05%

思比奇奇数

5.19%

##8

AI 字幕 (中国語と英語の C 面、カット必須、S12 生放送など)

B局における音声認識技術の導入実践

この記事ではここで紹介しますその過程でデータやアルゴリズムを蓄積、検討してきました。

#高品質 ASR エンジン

##高品質 (コスト効率の高い) エンジン工業生産に適した ASR エンジン。次の特性を持つ必要があります:

高精度

##説明

##関連するビジネスシナリオにおける高精度と堅牢性良い

高パフォーマンス

産業用導入では、待ち時間が短く、速度が速く、使用するコンピューティングリソースが少なくなります

高い拡張性

ビジネスの反復的なカスタマイズを効率的にサポートし、迅速なビジネス更新のニーズに対応できます

以下では、ステーション B のビジネスシナリオに基づいて、上記の側面における関連する探査と実践を紹介します。

#データコールドスタート

音声認識タスクは、断片から完全に認識することですof speech テキストの内容 (音声をテキストに変換)。

現代の工業生産の要件を満たす ASR システムは、大量かつ多様なトレーニングデータに依存しています。ここでの「多様性」とは、話者の周囲の環境、シーンのコンテキストなどの不均一なデータを指します。（フィールド）と話者のアクセント。

ステーション B のビジネスシナリオでは、まず音声トレーニングデータのコールドスタートの問題を解決する必要があります。次の課題に直面します。

幅広いビジネスシナリオ: ステーション B のオーディオおよびビデオのビジネスシナリオは数十の分野をカバーしています。これらは一般的な分野と見なすことができ、データの「多様性」に対する高い要件があります。
中国語と英語の混合: ステーション B には若いユーザーが多く、中国語と英語が混合された一般知識ビデオが多くあります。
#上記の問題に対して、次のデータソリューションを採用しました:

ビジネスデータフィルタリング

サイト B には、UP 所有者またはユーザーによって送信された少数の字幕 (cc 字幕) がありますが、いくつかの問題もあります:

#タイムスタンプが不正確で、開始文の終了タイムスタンプは、多くの場合、最初と最後の単語の間、またはいくつかの単語の後にあります。

デジタル変換、たとえば、字幕は 2002 です (実際の発音は 2002、2002 など);
この目的のために、オープンソースデータ、購入した完成品データ、および少量の注釈付きデータに基づくスクリーニングデータ基本モデルは、送信された字幕テキストを使用してサブ言語モデルをトレーニングし、文の時間調整と字幕フィルタリングに使用されます。

# 半教師ありトレーニング

サイト B にはラベルのないビジネスデータが大量にあり、他の Web サイトからラベルのないビデオデータも大量に取得しました。NST (Noisy Student Training) [3] と呼ばれる半教師ありトレーニング手法を使用しました。 ,

最初に、分野と放送量の分布に従って約 500,000 の原稿がスクリーニングされ、最終的に約 40,000 時間の自動注釈データが生成されました。最初の 15,000 時間の注釈データトレーニングの後、認識は精度が約 15% 向上し、モデルの堅牢性が大幅に向上しました。

図 1

B局における音声認識技術の導入実践オープンソースデータ、B ステーション送信データ、手動注釈データ、自動注釈データを通じて、データのコールドスタート問題を最初に解決しました。モデルを使用反復することで、識別が不十分なドメインデータをさらに除外できます。

これは順方向サイクルを形成します。最初にデータの問題を解決した後、以下のモデルアルゴリズムの最適化に焦点を当てます。

#モデルアルゴリズムの最適化

ASR 技術開発の歴史

現代の音声認識の開発プロセスを簡単に振り返ってみましょう。これは大きく 3 つの段階に分けることができます。

第一段階は 1993 年から 2009 年で、音声認識はHMM-GMMの時代になると、これまでの標準的なテンプレートマッチングに基づく統計モデルへの移行が始まり、研究の焦点も小語彙や孤立単語から大語彙や非特定連続音声認識へと移りました。、音声は長い間改善され続けていますが、認識の発達は比較的遅く、認識エラー率は大幅に低下していません。

第 2 段階は 2009 年から 2015 年頃です。GPU の計算能力の大幅な向上に伴い、2009 年から音声認識ではディープラーニングが台頭し始め、音声認識フレームワークは HMM-DNN へと変化し始めました。 DNN 時代に入り、音声認識の精度は大幅に向上しました。

第 3 段階は 2015 年以降です。エンドツーエンド技術の台頭により、CV、NLP、その他の AI 分野の発展が相互に促進し、音声認識はより深く複雑なネットワークを使用し始め、一方、エンドツーエンド技術の採用により、音声認識のパフォーマンスはさらに大幅に向上し、一部の限られた条件下では人間のレベルを超えました。

#図 2

B局における音声認識技術の導入実践

B 戦闘 ASR 技術計画

#重要な概念の紹介

##理解を容易にするために、いくつかの重要な基本概念を簡単に紹介します

##モデリングユニット

ニューラルネットワークに基づく第 2 段階のハイブリッドフレームワーク HMM-DNN は、第 1 段階の HMM-GMM システムの音声認識精度と比較して大幅に向上しています。も全員一致で同意されました。

しかし、エンドツーエンド (E2E) システムの第 3 フェーズは、第 2 フェーズと比較して、一時期業界で物議を醸しました [4]。関連モデルの出現により、モデルの表現能力はますます強化されています。

同時に、GPU の計算能力の大幅な向上により、より多くのデータトレーニングを追加できるようになり、最終的にはエンドツーエンドソリューションの利点が徐々に明らかになり、エンドツーエンドソリューションを選択する企業が増えています。

ここでは、ステーション B のビジネスシナリオに基づいて、これら 2 つのソリューションを比較します。

B局における音声認識技術の導入実践

図 3

図 2 は、典型的な DNN です。 - HMM フレームワークのパイプラインは非常に長く、さまざまな言語には専門的な発音辞書が必要であることがわかります。

そして、図 3 のエンドツーエンドシステムでは、これらすべてがニューラルネットワークモデルに配置されています。ニューラルネットワークの入力はオーディオ (または機能)、出力は必要な認識結果です。

B局における音声認識技術の導入実践

図 4

テクノロジーの発展に伴い、開発ツール、コミュニティ、パフォーマンスにおけるエンドツーエンドシステムの利点はますます大きくなっています。当然のこと:

代表的なツールとコミュニティの比較

##HTK、Kaldiプログラミング言語スケーラビリティ

##ハイブリッドフレームワーク (ハイブリッド)

エンドツーエンドフレームワーク (E2E)

代表的なオープンソースツールとコミュニティ

##Espnet、Wenet、DeepSpeech、K2、 etc.

##C/C、シェル

Python、シェル

ゼロから開発

TensorFlow/Pytorch

パフォーマンスの比較

次の表は、代表的なツールの最適な結果 (単語誤り率 CER) に基づく一般的なデータセットです。

##ハイブリッドフレームワークエンドツーエンドフレームワーク (E2E) ツールを表します KaldiEspnetテクノロジを表しますtdnn チェーン rnnlm スコアリング conformer-las/ctc/rnnt##Librispeech##ギガスピーチ#7.434.72##12.83

3.06

1.90

14.84

10.80

#Aishell-1

WenetSpeech

##8.80

つまり、エンドツーエンドシステムを選択することで、従来のハイブリッドフレームワークと比較して、一定のリソースがあれば、高品質の ASR システムをより速く、より適切に開発できます。

もちろん、ハイブリッドフレームワークに基づいて、同様に高度なモデルと高度に最適化されたデコーダーも使用すれば、エンドツーエンドに近い結果を達成できますが、数倍の人員と投資が必要になる場合があります。開発中のリソースこのシステムを最適化します。

ステーション B には、必要な数十万時間の音声があります。 ASR システムのスループットと速度要件は非常に高く、AI 字幕生成の精度も高いと同時に、ステーション B のシーン範囲も非常に広いです。合理的で効率的な ASR システムを選択します。

理想的な ASR システム

B局における音声認識技術の導入実践

図 5

エンドツーエンドのフレームワークに基づいて効率的な ASR システムを構築したいと考えています。ステーション B のシナリオの問題を解決します。

エンドツーエンドシステムの比較

B局における音声認識技術の導入実践

図 6

図 4 は、3 つの代表的なエンドツーエンドシステムです [ 5 ] をそれぞれ E2E-CTC、E2E-RNNT、E2E-AED として、各システムの長所と短所をさまざまな側面から比較します (スコアが高いほど優れています)

システム比較

## 認識精度ライブ (ストリーミング) ##5##36高速かつ効率的な反復

非ストリーミング精度比較 (単語誤り率 CER)

#15000 時間カルディチェーンモデル LM13.7--E2E-AED11.86.6E2E- RNNT12.4##E2E-CTC(貪欲) 10.2

上記は、それぞれ 2,000 時間と 15,000 時間のビデオトレーニングデータに基づいたステーション B の生活シーンと食事シーンの結果です。Chain と E2E-CTC は、同じコーパスでトレーニングされた拡張言語モデルを使用しています。

E2E-AED および E2E-RNNT は拡張言語モデルを使用せず、エンドツーエンドシステムは Conformer モデルに基づいています。

2 番目の表から、単一の E2E-CTC システムの精度は他のエンドツーエンドシステムに比べて大幅に劣っているわけではありませんが、同時に E2E-CTC システムには次の特徴があることがわかります。利点:

ニューラルネットワークには自己回帰 (AED デコーダーと RNNT 予測) 構造がないため、E2E-CTC システムにはストリーミング、デコード速度、展開コストの点で自然な利点があります。

高品質の ASR ソリューション

高精度でスケーラブルな ASR フレームワーク

B局における音声認識技術の導入実践

図 7

ステーション B の実稼働環境では、速度、精度、リソース消費に対する高い要件があり、また、急速な更新も行われます。さまざまなシナリオとカスタマイズのニーズ (原稿に関連するエンティティの単語、人気のあるゲームやスポーツイベントのカスタマイズなど)、

ここでは、通常、スケーラビリティのカスタマイズを解決するためにエンドツーエンドの CTC システムを使用します。ダイナミックデコーダを通じて問題を解決します。以下では、モデルの精度、速度、スケーラビリティの最適化作業に焦点を当てます。

エンドツーエンドの CTC 識別トレーニング

当社のシステムは漢字と英語の BPE モデリングを使用しており、AED と CTC に基づいたマルチタスクトレーニングの後は、 CTC 部分については、後で識別トレーニングを実行します。エンドツーエンドラティスフリー mmi を使用します[6][7] 識別トレーニング:

B局における音声認識技術の導入実践

# #従来の識別トレーニングとの違い

1. 従来のアプローチ

a. まず、CPU 上のすべてのトレーニングコーパスに対応するアライメントとデコードラティスを生成します;

b .トレーニング中、各ミニバッチは事前に生成されたアライメントと格子を使用して分子と分母の勾配をそれぞれ計算し、モデルを更新します。

2. 私たちのアプローチ

a. トレーニング中、各ミニバッチは直接in GPU で分子と分母の勾配を計算し、モデルを更新します;

とカルディの電話ベースのラティスフリー mmi 識別トレーニングの違い

## 1. 文字と英語 BPE の直接エンドツーエンドモデリング、電話の状態転送構造を放棄;

2. モデリングの粒度が大きく、トレーニング入力はほぼ切り捨てられておらず、コンテキストは文全体です;

次の表は 15,000 時間のデータに基づいています。CTC トレーニングが完了した後、3,000 時間が、デコードの信頼性. エンドツーエンドラティスフリー mmi の識別トレーニング結果は、従来の DT の結果よりも優れていることがわかります。トレーニングでは、精度の向上に加えて、トレーニングプロセス全体を tensorflow/pytorch GPU で完了できます。

	#2000 時間


	##--
#13.1	7.1	##最適化された E2E-CTC LM
##5.8

#CTC ベースライン#6.96伝統的なDT

	B ステーションビデオテストセット

6.63
E2E LFMMI DT	6.13

ハイブリッドシステムと比較すると、エンドツーエンドシステムのデコード結果のタイムスタンプはあまり正確ではありません。AED トレーニングは時間と単調に一致しません。CTC トレーニングされたモデルは AED タイムスタンプよりもはるかに正確ですが、スパイクもあります毎回、単語の長さが不正確になります;

エンドツーエンドの識別トレーニングの後、モデルの出力はより平坦になり、デコード結果のタイムスタンプ境界はより正確になります;

エンドツーエンドのエンド CTC デコーダ

音声認識技術の開発プロセスにおいて、GMM-HMM に基づく第 1 段階であっても、DNN に基づく第 2 段階であっても-HMM ハイブリッドフレームワークでは、デコーダが非常に重要です。

デコーダのパフォーマンスは、最終的な ASR システムの速度と精度を直接決定します。ビジネスの拡張とカスタマイズも、主に柔軟で効率的なデコーダソリューションに依存します。従来のデコーダは、動的デコーダであっても、WFST に基づく静的デコーダであっても、非常に複雑です。多くの理論的知識に依存するだけでなく、専門的なソフトウェアエンジニアリング設計も必要です。優れたパフォーマンスを持つ従来のデコードエンジンを開発するには、初期段階では多くの人材育成が必要であり、その後の維持コストも非常に高くなります。

典型的な従来の WFST デコーダは、hmm、トライフォンコンテキスト、辞書、および言語モデルを統合ネットワーク (つまり、統合 FST ネットワーク検索スペース内の HCLG) にコンパイルする必要があり、これによりデコード速度が向上します。正確さ。

エンドツーエンドシステムテクノロジの成熟に伴い、エンドツーエンドシステムモデリングユニットは、中国語の単語や英語の単語片など、より大きな粒度を持ちます。これは、従来の HMM 転送構造、トライフォンコンテキスト、およびこれにより、その後のデコード検索スペースが大幅に小さくなります。そのため、ビーム検索に基づいたシンプルで効率的な動的デコーダを選択します。次の図は、2 つのデコードフレームワークを示しています。従来の WFST デコーダと比較して、エンドツーエンド動的デコードデコーダには次の利点があります:

必要なリソースが少なく、通常は WFST デコードリソースの 1/5 です;
低結合なのでビジネスに便利ですカスタマイズとさまざまな言語モデルとの簡単な統合デコード、変更ごとにデコードリソースを再コンパイルする必要はありません;
デコード速度は高速で、ワード同期デコード [8] を使用しており、通常は WFST デコードより 5 倍高速です

B局における音声認識技術の導入実践

図 8

モデル推論のデプロイメント

合理的かつ効率的な最終目的では、 to-end ASR フレームワークの中で、最も計算量の多い部分はニューラルネットワークモデルの推論に関して、この計算集約的な部分は GPU の計算能力を最大限に活用することができ、推論からモデル推論展開を最適化しますサービス、モデル構造、モデルの定量化:

F16 半精度推論を使用したモデル;
モデルは、nvidia の高度に最適化されたトランスフォーマーに基づいて、FasterTransformer[9] に変換されます。
triton を使用して推論モデルをデプロイし、バッチを自動的に編成し、GPU の使用効率を完全に向上させます。

シングル GPU T4 では、速度が 30% 向上し、スループットが向上します。 2 倍になり、3000 時間の音声を 1 時間で書き起こすことができます。

#この記事では主に、B ステーションシナリオでの音声認識技術の実装、トレーニングデータの問題をゼロから解決する方法、全体的な技術ソリューションの選択、モデルを含むサブモジュールのさまざまな導入と最適化について紹介します。トレーニング、デコーダの最適化、サービス推論の展開。将来的には、インスタントホットワードテクノロジーを使用して関連するエンティティワードの精度を原稿レベルで最適化するなど、関連するランディングシナリオでのユーザーエクスペリエンスをさらに向上させます。ストリーミング ASR 関連テクノロジーと組み合わせて、より効率的なカスタマイズをリアルタイムでサポートします。ゲームやスポーツイベントの字幕転写。

参考文献

[1] A Baevski、H Zhou、他 wav2vec 2.0: 音声表現の自己教師あり学習のためのフレームワーク

[2] A Baevski 、 W Hsu ら、data2vec: 音声、視覚、言語における自己教師あり学習のための一般的なフレームワーク

[3] Daniel S、Y Zhang ら、自動音声認識のためのノイズの多い学生トレーニングの改善

[4] C Lüscher、E Beck、他 LibriSpeech 用 RWTH ASR システム: ハイブリッド vs アテンション -- データ拡張なし

[5] R Prabhavalkar、K Rao、他音声認識のためのシーケンス間モデルの比較

# [7] H Xiang、Z Ou、CTC トポロジーを使用した CRF ベースのシングルステージ音響モデリング

[8] Z Chen、W Deng、他、CTC Lattice を使用した電話同期デコーディング

[9]

https://www.php.cn/link/2ea6241cf767c279cf1e80a790df1885

この問題の著者: Deng Wei

シニアアルゴリズムエンジニア

Bilibili 音声認識ディレクション部門責任者

以上がB局における音声認識技術の導入実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Yann LeCun: 社会規範に関係なく、ChatGPT は現実の人間とはかけ離れています次の記事：Yann LeCun: 社会規範に関係なく、ChatGPT は現実の人間とはかけ離れています

続きを見る

最適化された E2E-CTC