ホームページ > 記事 > テクノロジー周辺機器 > Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張
2019 年、Google は、Pixel 携帯電話向けに Android システムで録音ソフトウェア Recorder をリリースしました。これは、iOS でのボイスメモに相当し、オーディオ ファイルの録音、管理、編集をサポートします。それ以来、Google は音声認識、オーディオ イベント検出、タイトルの自動生成、スマート ブラウジングなど、多数の機械学習ベースの機能を Recorder に次々と追加してきました。
ただし、録音ファイルが長く、複数の話者が含まれている場合、Recorder ユーザーの中には使用中に不便を感じる人もいます。音声認識によって取得されたテキストだけでは、各文を誰が言ったかを判断できないためです。今年の Made By Google カンファレンスで、Google はレコーダー アプリの自動スピーカー アノテーション機能を発表しました。この機能は、音声認識されたテキストに匿名の話者タグ (「話者 1」や「話者 2」など) をリアルタイムで追加します。この機能により、記録されたテキストの読みやすさと実用性が大幅に向上します。この機能の背後にあるテクノロジーは、スピーカー ダイアライゼーションと呼ばれます。 Google は、2022 年の ICASSP カンファレンスで、Turn-to-Diarize と呼ばれる声紋セグメンテーションおよびクラスタリング システムを初めて発表しました。
#左の図: 話者の注釈がオフになっている録音テキスト。右: 話者の注釈がオンになっている録音テキスト。
システム アーキテクチャGoogle の Turn-to-Diarize システムには、モバイル デバイスを実装するための高度に最適化された複数のモデルとアルゴリズムが含まれています。数時間にわたる音声の声紋セグメンテーションとクラスタリング処理は、非常に少ないコンピューティング リソースで完了します。このシステムは主に、話者識別の切り替えを検出する話者切り替え検出モデル、各話者の音声特徴を抽出する声紋エンコーダ モデル、話者アノテーションを効率的に完了できる多段階システムの 3 つのコンポーネントで構成されます。すべてのコンポーネントは完全にユーザーのデバイス上で実行され、サーバー接続には依存しません。
Turn-to-Diarize システムのアーキテクチャ図。
スピーカー スイッチ検出システムの最初のコンポーネントは、トランス トランスデューサー (T-T) に基づくスピーカー スイッチ検出モデルです。このモデルは、音響特徴シーケンスを特殊文字 を含むテキスト シーケンスに変換できます。特殊文字 は、スピーカー切り替えイベントを示します。 Google が公開した以前の論文では、特定の講演者の身元を表すために や などの特殊文字が使用されていました。最新のシステムでは、 文字は特定の ID に限定されないため、その適用範囲もさらに広がります。
ほとんどのアプリケーションでは、声紋セグメンテーションおよびクラスタリング システムの出力は通常、ユーザーに直接表示されず、音声認識モデルの出力と結合されます。音声認識モデルはトレーニング プロセス中に単語の誤り率に合わせて最適化されているため、話者切り替え検出モデルは単語の誤り率に対する耐性が高くなりますが、特殊文字 の精度により注意を払います。これに基づいて、Google は新しい文字ベースの損失関数を提案しました。これにより、より小さなモデルだけで話者切り替えイベント を正確に検出できるようになります。
声紋特徴の抽出音声信号が話者変換イベントに従ってセグメント化された後、システムは声紋エンコーダ モデルを通じて各話者セグメントの特徴を抽出します。声紋情報のコード、つまり d ベクトル。 Google が公開した以前の論文では、声紋埋め込みコードは一般的に固定長の音声から抽出されていました。対照的に、この新しいシステムには多くの改善点があります。まず、新しいシステムでは、複数の話者情報を含むセグメントから声紋埋め込みを抽出することが回避されるため、埋め込みの全体的な品質が向上します。第二に、各声紋埋め込みコードに対応する音声断片は比較的長いため、話者に対応するより多くの声紋情報が含まれます。最後に、この方法で得られる最終的な声紋埋め込みコード シーケンスの長さは短くなり、後続のクラスタリング アルゴリズムの計算コストが低くなります。
声紋セグメンテーションとクラスタリングの最後のステップは、前のステップで取得した声紋埋め込みコード シーケンスをクラスタリングすることです。ユーザーが Recorder アプリを使用して生成する録音は、わずか数秒から 18 時間にも及ぶ場合があるため、クラスタリング アルゴリズムの主な課題は、さまざまな長さの声紋埋め込みシーケンスを処理できるようにすることです。
この目的を達成するために、Google の多段階クラスタリング戦略は、いくつかの異なるクラスタリング アルゴリズムの利点を巧みに組み合わせています。短いシーケンスの場合、この戦略では集約階層クラスタリング (AHC) が使用されます。中程度の長さのシーケンスの場合、この方法ではスペクトル クラスタリングを使用し、固有値の最大マージン法を利用して話者の数を正確に推定します。長いシーケンスの場合、この方法ではまず集約階層クラスタリングを使用してシーケンスを前処理し、次にスペクトル クラスタリングを呼び出します。これにより、クラスタリング ステップの計算コストが削減されます。ストリーミング処理プロセス全体で、以前のクラスタリング結果を動的にキャッシュして再利用することで、各クラスタリング アルゴリズム呼び出しの時間計算量と空間計算量の上限を定数に設定できます。
多段階クラスタリング戦略は、デバイス側アプリケーションの重要な最適化です。デバイス側では、CPU、メモリ、バッテリーなどのリソースが通常不足しているためです。この戦略は、音声を数時間処理した後でも低電力状態で動作できます。この戦略の一定の複雑さの上限は通常、特定のデバイス モデルに応じて調整して、精度とパフォーマンスのバランスを実現できます。
# 多段階クラスタリング戦略の概略図。
リアルタイム修正とユーザー注釈Turn-to-Diarize はリアルタイム ストリーミング処理システムであるため、モデルが音声が増えると、予測された話者ラベルがより正確になります。この目的を達成するために、Recorder アプリケーションは、ユーザーの録音プロセス中に以前に予測された話者ラベルを継続的に修正し、ユーザーが現在の画面に表示する話者ラベルが常により正確なラベルであることを保証します。
同時に、レコーダー アプリケーションのユーザー インターフェイスでは、ユーザーが各録音のスピーカー タグの名前を変更することもできます。たとえば、「スピーカー 2」の名前を「自動車ディーラー」に変更します。 Business」というように、ユーザーが読みやすく、覚えやすくなっています。
Recorder を使用すると、読みやすくするためにスピーカー タグの名前を変更できます。
今後の取り組みGoogle は、自社開発チップ Google Tensor を最新の Pixel スマートフォンに搭載しました。現在の声紋セグメンテーションおよびクラスタリング システムは、主に Google Tensor の CPU モジュール上で動作します。将来的に、Google はエネルギー消費をさらに削減するために、Google Tensor の TPU モジュール上で声紋セグメンテーションおよびクラスタリング システムを実行する予定です。さらに、Google は、多言語の声紋エンコーダと音声認識モデルの助けを借りて、この機能を英語に加えて他の言語にも拡張したいと考えています。
以上がGoogle Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。