ホームページ > 記事 > テクノロジー周辺機器 > リアルタイム通信におけるAIノイズリダクション技術について話しましょう
##リアルタイム オーディオとビデオ通信のシナリオでは、マイクがユーザーの音声を収集するときに、大量の環境ノイズも収集します。従来のノイズ低減アルゴリズムは、定常ノイズ (ファンの音、ホワイト ノイズ、回路ノイズ フロアなど) に対してのみ一定の効果しかありません。 )、非定常的な過渡騒音(騒がしいレストランなど)には一定の効果があります(騒音、地下鉄の環境騒音、家庭のキッチンの騒音など)騒音低減効果は低く、ユーザーの通話体験に深刻な影響を与えます。家庭やオフィスなどの複雑なシナリオにおける何百もの非定常ノイズ問題に対応するため、統合通信システム部門のエコロジカル・エンパワーメント・チームは、GRU モデルに基づいた AI オーディオ・ノイズ低減テクノロジーを独自に開発し、アルゴリズムとエンジニアリングの最適化を通じて、ノイズ低減モデルのサイズが縮小され、2.4MB から 82KB に圧縮され、実行メモリが約 65% 削減され、計算量が約 186Mflops から 42Mflops に最適化され、実行効率が 77% 向上しました。テストデータセット(実験環境)では、人の声と騒音を効果的に分離でき、通話音声品質のMosスコア(平均評価値)が4.25に向上しました。
#この記事では、私たちのチームがディープラーニングに基づいてリアルタイムのノイズ抑制をどのように行い、それをモバイル端末と Jiaqin APP に実装するかを紹介します。全文は以下のように構成され、ノイズの分類とノイズ問題を解決するためのアルゴリズムの選択方法、アルゴリズムの設計方法と深層学習による AI モデルのトレーニング方法、最後に現在の AI の効果と主な用途について紹介します。ノイズリダクション、シーン。
# #リアルタイム オーディオおよびビデオ アプリケーションのシナリオでは、デバイスは複雑な音響環境にあります。マイクが音声信号を収集する際、大量のノイズも収集するため、リアルタイム オーディオの品質にとって非常に大きな課題となります。そしてビデオ。ノイズにはさまざまな種類があります。ノイズの数学的統計特性に従って、ノイズは次の 2 つのカテゴリに分類できます。
定常ノイズ: 騒音の統計 ホワイトノイズ、扇風機、エアコン、車内騒音など、比較的長期間にわたって特性が変化しないもの;
非定常騒音: 騒音の統計的特性は時間の経過とともに変化します(騒がしいレストランなど)。 、地下鉄の駅、オフィス、家庭のキッチンなど。
#リアルタイム オーディオおよびビデオ アプリケーションでは、通話はさまざまな影響を受けやすくなります。ノイズ干渉の種類 これはエクスペリエンスに影響を与えるため、リアルタイム オーディオおよびビデオでは、リアルタイム オーディオ ノイズ リダクションが重要な機能になっています。エアコンのヒューヒュー音や録音機器のノイズフロアなどの定常的なノイズの場合、時間の経過とともに大きく変化することはなく、単純な減算によって推定および予測して除去することができます。共通するスペクトル減算、ウィナー フィルタリング、ウェーブレットなどがあります変身。道路を車がビュンビュン走る音、レストランで皿がぶつかる音、家庭のキッチンで鍋やフライパンがぶつかる音などの非定常騒音はすべてランダムかつ予期せず発生するため、推定したり予測したりすることは不可能です。 。 修理済み。従来のアルゴリズムでは、非定常ノイズを推定して除去することが困難であるため、深層学習アルゴリズムを使用します。 さまざまなノイズシーンに対するオーディオ SDK のノイズリダクション機能を改善し、従来のノイズリダクションアルゴリズムの欠点を補うために、RNN に基づいた AI ノイズリダクションモジュールを開発しました。 、従来のノイズリダクション技術とディープラーニング技術を組み合わせました。家庭やオフィスでの使用シナリオの騒音低減処理に焦点を当て、オフィスでのキーボードのタイピング音、机や事務用品の引きずり音、椅子の引きずり音、キッチンの摩擦音など、多数の屋内騒音タイプが騒音データセットに追加されています。自宅での騒音、床のバタンと落ちる音など。 #同時に、モバイル端末上でリアルタイムの音声処理を実装するために、AI オーディオノイズ低減アルゴリズムが計算オーバーヘッドを制御しますライブラリのサイズは非常に小さいレベルです。計算オーバーヘッドに関しては、48KHz を例にとると、音声の各フレームの RNN ネットワーク処理には約 17.5Mflops のみが必要で、FFT と IFFT には音声の各フレームの約 7.5Mflops が必要で、特徴抽出には約 12Mflops が必要で、合計で約 42Mflops になります。計算量は約 48KHz Opus コーデックと同等であり、あるブランドのミッドレンジ携帯電話モデルでは、統計によると、RNN ノイズ リダクション モジュールの CPU 使用率は約 4% です。オーディオ ライブラリのサイズに関しては、RNN ノイズ リダクション コンパイルをオンにした後、オーディオ エンジン ライブラリのサイズは約 108kB 増加するだけです。 RNN は他の学習モデル (CNN など) と比較して時間情報を伝達し、オーディオ入力フレームと出力フレームを分離するだけでなく、タイミング信号をモデル化できるため、モジュールは RNN モデルを使用します。同時に、モデルはゲート型リカレント ユニット (GRU、図 1 に示すように) を使用します。実験によると、GRU は音声ノイズ低減タスクにおいて LSTM よりわずかに優れたパフォーマンスを示し、GRU は重みパラメータが少ないため、コンピューティング リソースを節約できます。 。単純なループ ユニットと比較して、GRU には 2 つの追加のゲートがあります。リセット ゲート制御状態は新しい状態を計算するために使用され、更新ゲート制御状態は新しい入力に基づいてどの程度変化するかを示します。この更新ゲートにより、GRU はタイミング情報を長期間記憶できるため、GRU のパフォーマンスが単純な再帰ユニットよりも優れています。
図 1 左側は単純な循環ユニットです。右側 GRU モデルの構造を図 2 に示します。トレーニングされたモデルはオーディオおよびビデオ通信 SDK に埋め込まれます。ハードウェア デバイスのオーディオ ストリームを読み取ることで、オーディオ ストリームはフレーム化され、AI ノイズ リダクション前処理モジュールに送信されます。前処理モジュールは対応する機能を追加します。 ( 特徴) が計算され、トレーニングされたモデルに出力されます。対応するゲイン (ゲイン) 値がモデルを通じて計算され、そのゲイン値を使用して信号が調整され、最終的にノイズ低減の目的が達成されます (図 3 を参照)。 。
図 2. GRU ベースの RNN ネットワーク モデル 図 3. 上はモデルのトレーニング プロセス、下はモデルのトレーニング プロセスです。リアルタイムノイズ低減プロセス
図4にキーストロークの比較を示します。ノイズ低減前後の音声スペクトログラム 上部はノイズ低減前のノイズを含む音声信号、赤い長方形のボックスはキーボードの打音ノイズです。下段はノイズリダクション後の音声信号ですが、観察の結果、キーボードの打鍵音はほとんど抑制されており、音声のダメージも低く抑えられていることが分かります。
図 4. ノイズの多い音声 (キーボードのタップ音を伴う)ノイズリダクションの前後 現在の AI ノイズリダクションモデルは、携帯電話と Jiaqin APP を改善するために携帯電話と Jiaqin で起動されました 通話ノイズリダクションこのエフェクトは、音声の歪みを維持しながら、家庭やオフィスなどの 100 以上の騒音シナリオで優れた抑制機能を備えています。次の段階では、AI ノイズ低減モデルの計算複雑性の最適化を継続し、IoT 低電力デバイスで推進および使用できるようにします。
パート 03 ディープラーニング ノイズ低減アルゴリズムの設計
パート 04 ネットワーク モデルと処理プロセス
パート05 AIノイズリダクション処理の効果と実装
以上がリアルタイム通信におけるAIノイズリダクション技術について話しましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。