ホームページ  >  記事  >  テクノロジー周辺機器  >  B局における音声認識技術の導入実践

B局における音声認識技術の導入実践

王林
王林転載
2023-04-15 10:40:021659ブラウズ

自動音声認識 (ASR) テクノロジーは、オーディオおよびビデオ コンテンツのセキュリティ レビュー、AI 字幕 (C サイド、マストカット、S12 ライブ ブロードキャストなど) など、Bilibili の関連ビジネス シナリオに大規模に実装されています。 )、動画理解(全文検索)など。

さらに、Bilibili の ASR エンジンは、2022 年 11 月に行われた産業用ベンチマーク SpeechIO (https://github.com/SpeechColab/Leaderboard) の最新の本格的な評価でも 1 位を獲得しました (https: //) github.com/SpeechColab/Leaderboard#5-ranking)、非公開のテスト セットでは利点がより明らかです。

##ビリビリ#2 3#3.16%Microsoft#テンセント百度8.14%
全テスト セットのランキング

#ランキング

メーカー

ワードエラー率

1

##2.82%

Alibaba Cloud

2.85%

#Yitu

##4

3.28%
5

##3.85%

6
iFlytek

4.05%

7
思比奇奇数

5.19%

##8

  • AI 字幕 (中国語と英語の C 面、カット必須、S12 生放送など)

B局における音声認識技術の導入実践

B局における音声認識技術の導入実践

    ##全文検索

B局における音声認識技術の導入実践

この記事ではここで紹介します その過程でデータやアルゴリズムを蓄積、検討してきました。

#高品質 ASR エンジン

##高品質 (コスト効率の高い) エンジン工業生産に適した ASR エンジン。次の特性を持つ必要があります:

高精度


##説明

##関連するビジネス シナリオにおける高精度と堅牢性 良い

高パフォーマンス
産業用導入では、待ち時間が短く、速度が速く、使用するコンピューティング リソースが少なくなります

高い拡張性
ビジネスの反復的なカスタマイズを効率的にサポートし、迅速なビジネス更新のニーズに対応できます

#

以下では、ステーション B のビジネス シナリオに基づいて、上記の側面における関連する探査と実践を紹介します。

#データ コールド スタート

音声認識タスクは、断片から完全に認識することですof speech テキストの内容 (音声をテキストに変換)。

現代の工業生産の要件を満たす ASR システムは、大量かつ多様なトレーニング データに依存しています。ここでの「多様性」とは、話者の周囲の環境、シーンのコンテキストなどの不均一なデータを指します。 (フィールド)と話者のアクセント。

ステーション B のビジネス シナリオでは、まず音声トレーニング データのコールド スタートの問題を解決する必要があります。次の課題に直面します。

    コールド スタート: があります。最初は非常に少量のデータしかなく、オープンソース データ、購入したデータ、およびビジネス シナリオがあまり一致していません。
  • 幅広いビジネス シナリオ: ステーション B のオーディオおよびビデオのビジネス シナリオは数十の分野をカバーしています。これらは一般的な分野と見なすことができ、データの「多様性」に対する高い要件があります。
  • 中国語と英語の混合: ステーション B には若いユーザーが多く、中国語と英語が混合された一般知識ビデオが多くあります。
  • #上記の問題に対して、次のデータ ソリューションを採用しました:

ビジネス データ フィルタリング

サイト B には、UP 所有者またはユーザーによって送信された少数の字幕 (cc 字幕) がありますが、いくつかの問題もあります:

#タイムスタンプが不正確で、開始文の終了タイムスタンプは、多くの場合、最初と最後の単語の間、またはいくつかの単語の後にあります。

    音声とテキストの間には完全な対応関係はなく、単語の増加、単語の減少、コメントや翻訳、および字幕が異なる場合があります。意味に基づいて生成;
  • デジタル変換、たとえば、字幕は 2002 です (実際の発音は 2002、2002 など);
  • この目的のために、オープンソース データ、購入した完成品データ、および少量の注釈付きデータに基づくスクリーニング データ 基本モデルは、送信された字幕テキストを使用してサブ言語モデルをトレーニングし、文の時間調整と字幕フィルタリングに使用されます。

# 半教師ありトレーニング

近年、データと GPU コンピューティング能力の大幅な向上と、トレーニングのコストの高騰により、データの大規模な手動アノテーションにより、多数の教師なし (wav2vec、HuBERT、data2vec など) [1][2] および半教師ありのトレーニング方法が業界で登場しています。

サイト B にはラベルのないビジネス データが大量にあり、他の Web サイトからラベルのないビデオ データも大量に取得しました。NST (Noisy Student Training) [3] と呼ばれる半教師ありトレーニング手法を使用しました。 ,

最初に、分野と放送量の分布に従って約 500,000 の原稿がスクリーニングされ、最終的に約 40,000 時間の自動注釈データが生成されました。最初の 15,000 時間の注釈データ トレーニングの後、認識は精度が約 15% 向上し、モデルの堅牢性が大幅に向上しました。

図 1

B局における音声認識技術の導入実践 オープンソース データ、B ステーション送信データ、手動注釈データ、自動注釈データを通じて、データのコールド スタート問題を最初に解決しました。モデルを使用 反復することで、識別が不十分なドメイン データをさらに除外できます。

これは順方向サイクルを形成します。最初にデータの問題を解決した後、以下のモデル アルゴリズムの最適化に焦点を当てます。

#モデル アルゴリズムの最適化

ASR 技術開発の歴史

現代の音声認識の開発プロセスを簡単に振り返ってみましょう。これは大きく 3 つの段階に分けることができます。

第一段階は 1993 年から 2009 年で、音声認識はHMM-GMMの時代になると、これまでの標準的なテンプレートマッチングに基づく統計モデルへの移行が始まり、研究の焦点も小語彙や孤立単語から大語彙や非特定連続音声認識へと移りました。 、音声は長い間改善され続けていますが、認識の発達は比較的遅く、認識エラー率は大幅に低下していません。

第 2 段階は 2009 年から 2015 年頃です。GPU の計算能力の大幅な向上に伴い、2009 年から音声認識ではディープラーニングが台頭し始め、音声認識フレームワークは HMM-DNN へと変化し始めました。 DNN 時代に入り、音声認識の精度は大幅に向上しました。

第 3 段階は 2015 年以降です。エンドツーエンド技術の台頭により、CV、NLP、その他の AI 分野の発展が相互に促進し、音声認識はより深く複雑なネットワークを使用し始め、一方、エンドツーエンド技術の採用により、音声認識のパフォーマンスはさらに大幅に向上し、一部の限られた条件下では人間のレベルを超えました。

#図 2

B局における音声認識技術の導入実践

B 戦闘 ASR 技術計画

#重要な概念の紹介

##理解を容易にするために、いくつかの重要な基本概念を簡単に紹介します

##モデリング ユニット

ハイブリッドまたは E2E

ニューラル ネットワークに基づく第 2 段階のハイブリッド フレームワーク HMM-DNN は、第 1 段階の HMM-GMM システムの音声認識精度と比較して大幅に向上しています。も全員一致で同意されました。

しかし、エンドツーエンド (E2E) システムの第 3 フェーズは、第 2 フェーズと比較して、一時期業界で物議を醸しました [4]。関連モデルの出現により、モデルの表現能力はますます強化されています。

同時に、GPU の計算能力の大幅な向上により、より多くのデータ トレーニングを追加できるようになり、最終的にはエンドツーエンド ソリューションの利点が徐々に明らかになり、エンドツーエンド ソリューションを選択する企業が増えています。

ここでは、ステーション B のビジネス シナリオに基づいて、これら 2 つのソリューションを比較します。

B局における音声認識技術の導入実践

図 3

図 2 は、典型的な DNN です。 - HMM フレームワークのパイプラインは非常に長く、さまざまな言語には専門的な発音辞書が必要であることがわかります。

そして、図 3 のエンドツーエンド システムでは、これらすべてがニューラル ネットワーク モデルに配置されています。ニューラル ネットワークの入力はオーディオ (または機能)、出力は必要な認識結果です。

B局における音声認識技術の導入実践

図 4

テクノロジーの発展に伴い、開発ツール、コミュニティ、パフォーマンスにおけるエンドツーエンド システムの利点はますます大きくなっています。当然のこと:

  • 代表的なツールとコミュニティの比較
##HTK、Kaldiプログラミング言語スケーラビリティ


##ハイブリッド フレームワーク (ハイブリッド)

エンドツーエンド フレームワーク (E2E)

代表的なオープンソース ツールとコミュニティ

##Espnet、Wenet、DeepSpeech、K2、 etc.

##C/C、シェル

Python、シェル

ゼロから開発

TensorFlow/Pytorch

  • パフォーマンスの比較

次の表は、代表的なツールの最適な結果 (単語誤り率 CER) に基づく一般的なデータ セットです。

##ハイブリッド フレームワークエンドツーエンド フレームワーク (E2E) ツールを表します KaldiEspnetテクノロジを表しますtdnn チェーン rnnlm スコアリング conformer-las/ctc/rnnt##Librispeech##ギガスピーチ#7.434.72##12.83


3.06

1.90

14.84

10.80

#Aishell-1

WenetSpeech

##8.80

#

つまり、エンドツーエンド システムを選択することで、従来のハイブリッド フレームワークと比較して、一定のリソースがあれば、高品質の ASR システムをより速く、より適切に開発できます。

もちろん、ハイブリッド フレームワークに基づいて、同様に高度なモデルと高度に最適化されたデコーダーも使用すれば、エンドツーエンドに近い結果を達成できますが、数倍の人員と投資が必要になる場合があります。開発中のリソース このシステムを最適化します。

エンドツーエンドのソリューションの選択

ステーション B には、必要な数十万時間の音声があります。 ASR システムのスループットと速度要件は非常に高く、AI 字幕生成の精度も高いと同時に、ステーション B のシーン範囲も非常に広いです。合理的で効率的な ASR システムを選択します。

理想的な ASR システム

B局における音声認識技術の導入実践

図 5

エンドツーエンドのフレームワークに基づいて効率的な ASR システムを構築したいと考えています。ステーション B のシナリオの問題を解決します。

エンドツーエンド システムの比較

B局における音声認識技術の導入実践

図 6

図 4 は、3 つの代表的なエンドツーエンド システムです [ 5 ] をそれぞれ E2E-CTC、E2E-RNNT、E2E-AED として、各システムの長所と短所をさまざまな側面から比較します (スコアが高いほど優れています)

  • システム比較
## 認識精度 ライブ (ストリーミング) ##5##36高速かつ効率的な反復
  • 非ストリーミング精度比較 (単語誤り率 CER)


#E2E-AED

E2E-RNNT

最適化された E2E-CTC

#6

5

6

#3

##5

コストとスピード

#4

3

5

クイック修理

3

6

4

5

#15000 時間 カルディチェーンモデル LM13.7--E2E-AED11.86.6E2E- RNNT12.4##E2E-CTC(貪欲) 10.2

上記は、それぞれ 2,000 時間と 15,000 時間のビデオ トレーニング データに基づいたステーション B の生活シーンと食事シーンの結果です。Chain と E2E-CTC は、同じコーパスでトレーニングされた拡張言語モデルを使用しています。

E2E-AED および E2E-RNNT は拡張言語モデルを使用せず、エンドツーエンド システムは Conformer モデルに基づいています。

2 番目の表から、単一の E2E-CTC システムの精度は他のエンドツーエンド システムに比べて大幅に劣っているわけではありませんが、同時に E2E-CTC システムには次の特徴があることがわかります。利点:

  • ニューラル ネットワークには自己回帰 (AED デコーダーと RNNT 予測) 構造がないため、E2E-CTC システムにはストリーミング、デコード速度、展開コストの点で自然な利点があります。
  • ビジネスのカスタマイズの観点から、E2E-CTC システムは、さまざまな言語モデル (nnlm および ngram) を外部接続することも容易であり、汎用化の安定性が一般的なオープン フィールドの他のエンドツーエンド システムよりも大幅に優れています。完全にカバーするのに十分なデータがありません。

高品質の ASR ソリューション

高精度でスケーラブルな ASR フレームワーク

B局における音声認識技術の導入実践

図 7

ステーション B の実稼働環境では、速度、精度、リソース消費に対する高い要件があり、また、急速な更新も行われます。さまざまなシナリオとカスタマイズのニーズ (原稿に関連するエンティティの単語、人気のあるゲームやスポーツ イベントのカスタマイズなど)、

ここでは、通常、スケーラビリティのカスタマイズを解決するためにエンドツーエンドの CTC システムを使用します。ダイナミック デコーダを通じて問題を解決します。以下では、モデルの精度、速度、スケーラビリティの最適化作業に焦点を当てます。

エンドツーエンドの CTC 識別トレーニング

当社のシステムは漢字と英語の BPE モデリングを使用しており、AED と CTC に基づいたマルチタスク トレーニングの後は、 CTC 部分については、後で識別トレーニングを実行します。エンドツーエンド ラティス フリー mmi を使用します[6][7] 識別トレーニング:

    識別トレーニング基準

B局における音声認識技術の導入実践

    識別基準 - MMI

B局における音声認識技術の導入実践

# #従来の識別トレーニングとの違い
  • 1. 従来のアプローチ

a. まず、CPU 上のすべてのトレーニング コーパスに対応するアライメントとデコード ラティスを生成します;

b .トレーニング中、各ミニバッチは事前に生成されたアライメントと格子を使用して分子と分母の勾配をそれぞれ計算し、モデルを更新します。

2. 私たちのアプローチ

a. トレーニング中、各ミニバッチは直接in GPU で分子と分母の勾配を計算し、モデルを更新します;

  • とカルディの電話ベースのラティスフリー mmi 識別トレーニングの違い

## 1. 文字と英語 BPE の直接エンドツーエンド モデリング、電話の状態転送構造を放棄;

2. モデリングの粒度が大きく、トレーニング入力はほぼ切り捨てられておらず、コンテキストは文全体です;

次の表は 15,000 時間のデータに基づいています。CTC トレーニングが完了した後、3,000 時間が、デコードの信頼性. エンドツーエンド ラティス フリー mmi の識別トレーニング結果は、従来の DT の結果よりも優れていることがわかります。トレーニングでは、精度の向上に加えて、トレーニング プロセス全体を tensorflow/pytorch GPU で完了できます。


#2000 時間

##--

#13.1

7.1

##最適化された E2E-CTC LM

##5.8

#CTC ベースライン#6.96伝統的なDT


B ステーション ビデオ テスト セット

6.63

E2E LFMMI DT

6.13

ハイブリッド システムと比較すると、エンドツーエンド システムのデコード結果のタイムスタンプはあまり正確ではありません。AED トレーニングは時間と単調に一致しません。CTC トレーニングされたモデルは AED タイムスタンプよりもはるかに正確ですが、スパイクもあります毎回、単語の長さが不正確になります;

エンドツーエンドの識別トレーニングの後、モデルの出力はより平坦になり、デコード結果のタイムスタンプ境界はより正確になります;

エンドツーエンドのエンド CTC デコーダ

音声認識技術の開発プロセスにおいて、GMM-HMM に基づく第 1 段階であっても、DNN に基づく第 2 段階であっても-HMM ハイブリッド フレームワークでは、デコーダが非常に重要です。

デコーダのパフォーマンスは、最終的な ASR システムの速度と精度を直接決定します。ビジネスの拡張とカスタマイズも、主に柔軟で効率的なデコーダ ソリューションに依存します。従来のデコーダは、動的デコーダであっても、WFST に基づく静的デコーダであっても、非常に複雑です。多くの理論的知識に依存するだけでなく、専門的なソフトウェア エンジニアリング設計も必要です。優れたパフォーマンスを持つ従来のデコード エンジンを開発するには、初期段階では多くの人材育成が必要であり、その後の維持コストも非常に高くなります。

典型的な従来の WFST デコーダは、hmm、トライフォン コンテキスト、辞書、および言語モデルを統合ネットワーク (つまり、統合 FST ネットワーク検索スペース内の HCLG) にコンパイルする必要があり、これによりデコード速度が向上します。正確さ。

エンドツーエンド システム テクノロジの成熟に伴い、エンドツーエンド システム モデリング ユニットは、中国語の単語や英語の単語片など、より大きな粒度を持ちます。これは、従来の HMM 転送構造、トライフォン コンテキスト、およびこれにより、その後のデコード検索スペースが大幅に小さくなります。そのため、ビーム検索に基づいたシンプルで効率的な動的デコーダを選択します。次の図は、2 つのデコード フレームワークを示しています。従来の WFST デコーダと比較して、エンドツーエンド動的デコード デコーダには次の利点があります:

  • 必要なリソースが少なく、通常は WFST デコード リソースの 1/5 です;
  • 低結合なのでビジネスに便利ですカスタマイズとさまざまな言語モデルとの簡単な統合 デコード、変更ごとにデコード リソースを再コンパイルする必要はありません;
  • デコード速度は高速で、ワード同期デコード [8] を使用しており、通常は WFST デコードより 5 倍高速です

B局における音声認識技術の導入実践

図 8

モデル推論のデプロイメント

合理的かつ効率的な最終目的では、 to-end ASR フレームワークの中で、最も計算量の多い部分はニューラル ネットワーク モデルの推論に関して、この計算集約的な部分は GPU の計算能力を最大限に活用することができ、推論からモデル推論展開を最適化しますサービス、モデル構造、モデルの定量化:

  • F16 半精度推論を使用したモデル;
  • モデルは、nvidia の高度に最適化されたトランスフォーマーに基づいて、FasterTransformer[9] に変換されます。
  • triton を使用して推論モデルをデプロイし、バッチを自動的に編成し、GPU の使用効率を完全に向上させます。

シングル GPU T4 では、速度が 30% 向上し、スループットが向上します。 2 倍になり、3000 時間の音声を 1 時間で書き起こすことができます。

#この記事では主に、B ステーション シナリオでの音声認識技術の実装、トレーニング データの問題をゼロから解決する方法、全体的な技術ソリューションの選択、モデルを含むサブモジュールのさまざまな導入と最適化について紹介します。トレーニング、デコーダの最適化、サービス推論の展開。将来的には、インスタント ホットワード テクノロジーを使用して関連するエンティティ ワードの精度を原稿レベルで最適化するなど、関連するランディング シナリオでのユーザー エクスペリエンスをさらに向上させます。ストリーミング ASR 関連テクノロジーと組み合わせて、より効率的なカスタマイズをリアルタイムでサポートします。ゲームやスポーツイベントの字幕転写。

参考文献

[1] A Baevski、H Zhou、他 wav2vec 2.0: 音声表現の自己教師あり学習のためのフレームワーク

[2] A Baevski 、 W Hsu ら、data2vec: 音声、視覚、言語における自己教師あり学習のための一般的なフレームワーク

[3] Daniel S、Y Zhang ら、自動音声認識のためのノイズの多い学生トレーニングの改善

[4] C Lüscher、E Beck、他 LibriSpeech 用 RWTH ASR システム: ハイブリッド vs アテンション -- データ拡張なし

[5] R Prabhavalkar、K Rao、他音声認識のためのシーケンス間モデルの比較

##[6] D Povey、V Peddinti1、他、格子フリー MMI に基づく ASR 用の純粋にシーケンストレーニングされたニューラル ネットワーク

# [7] H Xiang、Z Ou、CTC トポロジーを使用した CRF ベースのシングルステージ音響モデリング

[8] Z Chen、W Deng、他、CTC Lattice を使用した電話同期デコーディング

[9]

https://www.php.cn/link/2ea6241cf767c279cf1e80a790df1885

この問題の著者: Deng Wei

シニア アルゴリズム エンジニア

Bilibili 音声認識ディレクション部門責任者

以上がB局における音声認識技術の導入実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。