ホームページ >テクノロジー周辺機器 >AI >Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張

Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-10 19:31:021246ブラウズ

2019 年、Google は、Pixel 携帯電話向けに Android システムで録音ソフトウェア Recorder をリリースしました。これは、iOS でのボイスメモに相当し、オーディオファイルの録音、管理、編集をサポートします。それ以来、Google は音声認識、オーディオイベント検出、タイトルの自動生成、スマートブラウジングなど、多数の機械学習ベースの機能を Recorder に次々と追加してきました。

ただし、録音ファイルが長く、複数の話者が含まれている場合、Recorder ユーザーの中には使用中に不便を感じる人もいます。音声認識によって取得されたテキストだけでは、各文を誰が言ったかを判断できないためです。今年の Made By Google カンファレンスで、Google はレコーダーアプリの自動スピーカーアノテーション機能を発表しました。この機能は、音声認識されたテキストに匿名の話者タグ (「話者 1」や「話者 2」など) をリアルタイムで追加します。この機能により、記録されたテキストの読みやすさと実用性が大幅に向上します。この機能の背後にあるテクノロジーは、スピーカーダイアライゼーションと呼ばれます。 Google は、2022 年の ICASSP カンファレンスで、Turn-to-Diarize と呼ばれる声紋セグメンテーションおよびクラスタリングシステムを初めて発表しました。

#左の図: 話者の注釈がオフになっている録音テキスト。右: 話者の注釈がオンになっている録音テキスト。

システムアーキテクチャ

Google の Turn-to-Diarize システムには、モバイルデバイスを実装するための高度に最適化された複数のモデルとアルゴリズムが含まれています。数時間にわたる音声の声紋セグメンテーションとクラスタリング処理は、非常に少ないコンピューティングリソースで完了します。このシステムは主に、話者識別の切り替えを検出する話者切り替え検出モデル、各話者の音声特徴を抽出する声紋エンコーダモデル、話者アノテーションを効率的に完了できる多段階システムの 3 つのコンポーネントで構成されます。すべてのコンポーネントは完全にユーザーのデバイス上で実行され、サーバー接続には依存しません。

Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張

Turn-to-Diarize システムのアーキテクチャ図。

スピーカースイッチ検出

システムの最初のコンポーネントは、トランストランスデューサー (T-T) に基づくスピーカースイッチ検出モデルです。このモデルは、音響特徴シーケンスを特殊文字を含むテキストシーケンスに変換できます。特殊文字は、スピーカー切り替えイベントを示します。 Google が公開した以前の論文では、特定の講演者の身元を表すためにやなどの特殊文字が使用されていました。最新のシステムでは、文字は特定の ID に限定されないため、その適用範囲もさらに広がります。

ほとんどのアプリケーションでは、声紋セグメンテーションおよびクラスタリングシステムの出力は通常、ユーザーに直接表示されず、音声認識モデルの出力と結合されます。音声認識モデルはトレーニングプロセス中に単語の誤り率に合わせて最適化されているため、話者切り替え検出モデルは単語の誤り率に対する耐性が高くなりますが、特殊文字の精度により注意を払います。これに基づいて、Google は新しい文字ベースの損失関数を提案しました。これにより、より小さなモデルだけで話者切り替えイベントを正確に検出できるようになります。

声紋特徴の抽出

音声信号が話者変換イベントに従ってセグメント化された後、システムは声紋エンコーダモデルを通じて各話者セグメントの特徴を抽出します。声紋情報のコード、つまり d ベクトル。 Google が公開した以前の論文では、声紋埋め込みコードは一般的に固定長の音声から抽出されていました。対照的に、この新しいシステムには多くの改善点があります。まず、新しいシステムでは、複数の話者情報を含むセグメントから声紋埋め込みを抽出することが回避されるため、埋め込みの全体的な品質が向上します。第二に、各声紋埋め込みコードに対応する音声断片は比較的長いため、話者に対応するより多くの声紋情報が含まれます。最後に、この方法で得られる最終的な声紋埋め込みコードシーケンスの長さは短くなり、後続のクラスタリングアルゴリズムの計算コストが低くなります。

多段階クラスタリング

声紋セグメンテーションとクラスタリングの最後のステップは、前のステップで取得した声紋埋め込みコードシーケンスをクラスタリングすることです。ユーザーが Recorder アプリを使用して生成する録音は、わずか数秒から 18 時間にも及ぶ場合があるため、クラスタリングアルゴリズムの主な課題は、さまざまな長さの声紋埋め込みシーケンスを処理できるようにすることです。

この目的を達成するために、Google の多段階クラスタリング戦略は、いくつかの異なるクラスタリングアルゴリズムの利点を巧みに組み合わせています。短いシーケンスの場合、この戦略では集約階層クラスタリング (AHC) が使用されます。中程度の長さのシーケンスの場合、この方法ではスペクトルクラスタリングを使用し、固有値の最大マージン法を利用して話者の数を正確に推定します。長いシーケンスの場合、この方法ではまず集約階層クラスタリングを使用してシーケンスを前処理し、次にスペクトルクラスタリングを呼び出します。これにより、クラスタリングステップの計算コストが削減されます。ストリーミング処理プロセス全体で、以前のクラスタリング結果を動的にキャッシュして再利用することで、各クラスタリングアルゴリズム呼び出しの時間計算量と空間計算量の上限を定数に設定できます。

多段階クラスタリング戦略は、デバイス側アプリケーションの重要な最適化です。デバイス側では、CPU、メモリ、バッテリーなどのリソースが通常不足しているためです。この戦略は、音声を数時間処理した後でも低電力状態で動作できます。この戦略の一定の複雑さの上限は通常、特定のデバイスモデルに応じて調整して、精度とパフォーマンスのバランスを実現できます。

Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張

# 多段階クラスタリング戦略の概略図。

リアルタイム修正とユーザー注釈

Turn-to-Diarize はリアルタイムストリーミング処理システムであるため、モデルが音声が増えると、予測された話者ラベルがより正確になります。この目的を達成するために、Recorder アプリケーションは、ユーザーの録音プロセス中に以前に予測された話者ラベルを継続的に修正し、ユーザーが現在の画面に表示する話者ラベルが常により正確なラベルであることを保証します。

同時に、レコーダーアプリケーションのユーザーインターフェイスでは、ユーザーが各録音のスピーカータグの名前を変更することもできます。たとえば、「スピーカー 2」の名前を「自動車ディーラー」に変更します。 Business」というように、ユーザーが読みやすく、覚えやすくなっています。

Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張

Recorder を使用すると、読みやすくするためにスピーカータグの名前を変更できます。

今後の取り組み

Google は、自社開発チップ Google Tensor を最新の Pixel スマートフォンに搭載しました。現在の声紋セグメンテーションおよびクラスタリングシステムは、主に Google Tensor の CPU モジュール上で動作します。将来的に、Google はエネルギー消費をさらに削減するために、Google Tensor の TPU モジュール上で声紋セグメンテーションおよびクラスタリングシステムを実行する予定です。さらに、Google は、多言語の声紋エンコーダと音声認識モデルの助けを借りて、この機能を英語に加えて他の言語にも拡張したいと考えています。

以上がGoogle Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构事件算法 ios transformer 系统架构

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：NetEase Cloud Music アルゴリズムプラットフォームの研究開発専門家 Huang Bin 氏: NetEase Cloud Music オンライン予測システムの実践と考察次の記事：NetEase Cloud Music アルゴリズムプラットフォームの研究開発専門家 Huang Bin 氏: NetEase Cloud Music オンライン予測システムの実践と考察

続きを見る