Interspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しました-AI-php.cn

ホームページ

テクノロジー周辺機器

Interspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しました

王林

Sep 18, 2023 am 11:09 AM

理論

最近、Volcano Voice チームからのいくつかの論文が Interspeech 2023 に選ばれ、短いビデオの音声認識、言語を超えた音色とスタイル、口頭流暢さの評価が取り上げられました。、など。アプリケーションの方向における革新的なブレークスルー。 Interspeech は、国際音声通信協会 ISCA が主催する音声研究分野のトップカンファレンスの 1 つであり、世界最大の総合的な音声信号処理イベントとしても知られ、世界の言語分野の人々から広く注目されています。。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Interspeech2023イベントサイト

ランダムな文の連結に基づくデータ拡張による短いビデオの改善音声認識 (ランダム発話連結ベースのデータ拡張によるショートビデオ音声認識の改善)

一般的に言えば、エンドツーエンドの自動音声認識 ( ASR) フレームワークの制限の 1 つは、トレーニングステートメントとテストステートメントの長さが一致しない場合にパフォーマンスが低下する可能性があることです。この論文では、Huoshan Speech チームは、短いビデオ ASR タスクにおけるトレーニングとテスト文の長さの不一致の問題を軽減するフロントエンドデータ拡張として、インスタントランダムセンテンス連結 (RUC) に基づくデータ拡張方法を提案しています。

具体的には、チームは、次の観察が革新的な実践において大きな役割を果たしたことを発見しました: 通常、短いビデオの自発的な発話のトレーニング文は、人間が書き起こした文よりもはるかに短いです (平均約3 秒）、音声アクティビティ検出フロントエンドから生成されたテストセンテンスははるかに長かった（平均約 10 秒）。したがって、この不一致によりパフォーマンスの低下が生じる可能性があります。

Volcano Speech チームは、実証作業の目的で 15 の言語のマルチクラス ASR モデルを使用したと述べました。これらの言語のデータセットは 1,000 ～ 30,000 時間の範囲にあります。モデルの微調整フェーズでは、複数のデータからサンプリングして結合したデータもリアルタイムで追加しました。強化されていないデータと比較して、この方法では、すべての言語で平均相対単語誤り率 5.72% の減少が達成されます。テストセットに合格した長文の WER は、RUC が大幅に低下しました。トレーニング後 (青と赤)

実験的観察によると、RUC メソッドは長文の認識能力を大幅に向上させましたが、短文のパフォーマンスは低下しませんでした。さらなる分析により、提案されたデータ拡張手法により、長さの正規化の変更に対する ASR モデルの感度が低下することがわかりました。これは、ASR モデルが多様な環境においてより堅牢であることを意味する可能性があります。要約すると、RUC データ強化方法は操作が簡単ですが、効果は顕著です。多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

音声と韻律を意識した自己監視方法に基づく流暢性スコアリング

(音声と韻律を意識した自己監視方法に基づく流暢性スコアリング)非母国語の流暢性スコアリングのための韻律を意識した自己教師あり学習アプローチ)

第二言語学習者の言語能力を評価するための重要な要素の 1 つは口頭流暢さです。流暢な発音の主な特徴は、話すときに一時停止、ためらい、または自己修正などの多くの異常現象を起こすことなく、簡単かつ正常に音声を発する能力によって特徴付けられます。ほとんどの第二言語学習者は通常、ネイティブスピーカーよりもゆっくり話し、頻繁に休憩します。話し言葉の流暢さを評価するために、Volcano Speech チームは、音声と韻律の相関に基づく自己教師ありモデリング手法を提案しました。具体的には、事前トレーニング段階で、モデルの入力シーケンスの特徴 (音響特徴、音響特徴) 、音素 ID、音素継続時間) がマスクされ、マスクされた特徴がモデルに送信されます。コンテキスト関連エンコーダーを使用して、タイミング情報に基づいてマスクされた部分の音素 ID と音素継続時間情報を復元します。より強力な音声と韻律表現能力を備えています。このソリューションは、シーケンスモデリングフレームワークで元の継続時間、音素、音響情報の 3 つの特徴をマスクして再構築し、機械がコンテキストの音声と継続時間表現を自動的に学習できるようにし、流暢さのスコアリングに適しています。

#音声と韻律に基づくこの自己教師あり学習方法は、この分野の他の方法よりも優れており、機械の結果と社内の人間の専門家を予測します。テストセットスコア間の相関は

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题 0.833

に達し、これは専門家と専門家の間の相関と同じ 0.831 です。オープンソースデータセットでは、機械の予測結果と人間の専門家のスコア間の相関関係は 0.835 に達し、そのパフォーマンスはこのタスクに関して過去に提案された一部の自己教師あり手法を上回りました。アプリケーションシナリオに関しては、この方法は、口頭試験やさまざまなオンライン口頭演習など、自動流暢性評価が必要なシナリオに適用できます。自動発音評価における非ネイティブ音声の寄与を解きほぐす

非母語話者の発音評価の基本的な考え方は、学習者の発音と母語話者の発音の間の偏差を定量化することです。したがって、発音評価に使用される初期の音響モデルは、通常、トレーニングにターゲット言語データのみを使用しますが、最近の研究では、非母語の発音データをトレーニングに使用し始めており、母語の音声データがモデルのトレーニングに組み込まれています。非ネイティブ音声を L2 ASR に組み込む目的と、非ネイティブ評価または発音エラー検出の間には根本的な違いがあります。前者の目的は、最適な ASR を達成するためにモデルを可能な限り非ネイティブデータに適応させることです。非母語音声のより高い認識精度と非母語発音の発音レベルの客観的な評価という、一見相反する要件が求められます。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Volcano Speech チームは、発音評価における非母語音声の寄与を、アライメント精度と評価パフォーマンスという 2 つの異なる観点から研究することを目的としています。この目的を達成するために、音響モデルをトレーニングする際に、上の図に示すように、さまざまなデータの組み合わせとテキスト転写フォームを設計しました。上の 2 つの表はそれぞれ、アライメント精度と評価における音響モデルのさまざまな組み合わせのパフォーマンスを示しています。実験結果は、音響モデルのトレーニング中に手動で注釈が付けられた音素シーケンスを持つ非母国語データのみを使用すると、非母語音声の位置合わせが可能になり、発音評価で最高の精度が得られることを示しています。具体的には、トレーニングでネイティブ言語データと非ネイティブデータ (人間が注釈を付けた音素シーケンス) を半分ずつ混合すると、若干悪くなる可能性がありますが、人間が注釈を付けた音素シーケンスを持つ非ネイティブデータのみを使用する場合と同等です。

さらに、母国語データの発音を評価する場合、上記の混合ケースのパフォーマンスが向上します。リソースが限られている中で、10 時間の非母語データを追加すると、使用するテキスト転写タイプに関係なく、母語データのみを使用した音響モデルのトレーニングと比較して、位置合わせの精度と評価パフォーマンスが大幅に向上しました。この研究は、音声評価の分野におけるデータアプリケーションにとって重要な指針となる重要な意味を持ちます。多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

ノンスパイクによるフレーム分類の最適化多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

CTC

プロセッサーがタイムスタンプの問題を解決します。 (

エンドツーエンドの自動音声認識におけるピーキーでない CTC による単語タイミングのフレームレベル分類器の改善)

自動音声認識 (ASR) エンドツーエンドこのドメイン内のシステムは、ハイブリッドシステムに匹敵するパフォーマンスを実証しました。 ASR の副産物として、タイムスタンプは多くのアプリケーション、特に字幕生成や計算支援による発音トレーニングなどのシナリオで重要です。このペーパーでは、タイムスタンプを取得するためにエンドツーエンドシステムのフレームレベル分類器を最適化することを目的としています。。この点で、チームは、フレームレベルの分類器をトレーニングするために CTC (コネクショニスト時間分類) 損失の使用を導入し、CTC のスパイク現象を緩和するためにラベル事前情報を導入し、メルフィルターの出力と ASR を組み合わせました。エンコーダーを入力機能として使用します。中国語社内の実験では、この方法は単語タイムスタンプ 200ms で 95.68%/94.18% の精度を達成しましたが、従来のハイブリッドシステムは 93.0%/90.22% にすぎませんでした。さらに、以前のエンドツーエンドのアプローチと比較して、チームは 7 つの内部言語で 4.80%/8.02% の絶対的なパフォーマンス向上を達成しました。この実験は LibriSpeech に対してのみ行われましたが、単語のタイミングの精度もフレームごとの知識蒸留アプローチによってさらに向上しました。この研究の結果は、ラベル事前分布を導入し、さまざまなレベルの特徴を融合することによって、エンドツーエンドの音声認識システムにおけるタイムスタンプのパフォーマンスを効果的に最適化できることを示しています。社内の中国語実験では、この方法はハイブリッドシステムや以前のエンドツーエンド方法と比較して大幅な改善を達成しました。さらに、この方法は複数の言語に対して明らかな利点も示しています。知識蒸留方法の適用により、単語の精度がさらに向上しました。タイミングの正確さ。これらの結果は、字幕生成や発音トレーニングなどのアプリケーションにとって非常に重要なだけでなく、自動音声認識技術の開発に有用な探索の方向性を提供します。

北京語と英語のコードスイッチング音声認識のための言語固有の音響境界学習

書き直された内容: 誰もが知っているように、主な目標はコードスイッチング (CS) の目的は、異なる言語または技術分野間の効果的なコミュニケーションを促進することです。 CS では、文内で 2 つ以上の言語を交互に使用する必要がありますが、複数の言語の単語やフレーズを結合すると、音声認識でエラーや混乱が生じる可能性があり、コード交換音声認識 (CSSR) がより困難になります。ミッション＃＃＃

通常のエンドツーエンド ASR モデルは、エンコーダー、デコーダー、およびアライメントメカニズムで構成されます。既存のエンドツーエンド CSASR モデルのほとんどは、エンコーダーとデコーダーの構造の最適化のみに焦点を当てており、言語関連のアライメントメカニズムの設計が必要かどうかについてはほとんど議論されていません。既存の研究のほとんどは、中国語と英語が混在するシナリオのモデリング単位として、北京語の文字と英語のサブワードを組み合わせて使用しています。通常、中国語の文字は中国語の単一音節を表し、明確な音響境界を持っていますが、英語のサブワードは音響知識をまったく参照せずに取得されるため、音響境界があいまいになる場合があります。 CSASR システムで中国語と英語の間の良好な音響境界 (整合) を取得するには、言語関連の音響境界学習が非常に必要です。そこで、我々は CIF モデルを改良し、CSASR タスク用の言語区別音響境界学習法を提案しました。モデルアーキテクチャの詳細については、以下の図を参照してください。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

モデルは 6 つのコンポーネント、つまりエンコーダー、言語区別重み推定器 (LSWE)、 CIF モジュール、自動回帰 (AR) デコーダ、非自己回帰 (NAR) デコーダ、および言語変更検出 (LCD) モジュール。エンコーダ、自己回帰デコーダ、および CIF の計算プロセスは、元の CIF ベースの ASR メソッドと同じです。言語固有の重み推定器は、言語に依存しない音響境界のモデリングを完了する役割を果たします。非自己回帰 (NAR) デコーダ言語変更検出 (LCD) モジュールはモデルのトレーニングを支援するように設計されており、デコード段階では保持されません。

実験結果は、この方法がオープンソース中国語の 2 つのテストセットで有効であることを示しています。英国混合データセット SEAME 多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题とで新しい SOTA 効果が得られ、MER はそれぞれ 16.29% と 22.81% でした。より大きなデータ量に対するこの方法の効果をさらに検証するために、チームは 9,000 時間の内部データセットで実験を実施し、最終的に 7.9% の相対的な MER 向上を達成しました。この論文は、CSASR タスクにおける言語区別のための音響境界学習に関する最初の研究でもあることが理解されています。

USTR: 統一表現とプレーンテキストに基づく ASR ドメインアダプテーション (テキスト専用ドメイン)トランスデューサでの統一音声テキスト表現を使用した適応）

ご存知のとおり、ASR ではドメイン移行は常に非常に重要なタスクでしたが、ターゲットでペアの音声データを取得することは重要でした。ドメインは非常に時間とコストがかかるため、認識効果を高めるために対象ドメインに関連するテキストデータを使用することが多くあります。従来の手法のうち、TTS はトレーニングサイクルと関連データのストレージコストを増加させますが、ILME や Shallow fusion などの手法は推論の複雑さを増加させます。

このタスクに基づいて、チームはエンコーダを RNN-T に基づくオーディオエンコーダと共有エンコーダに分割し、音声信号に類似した表現を学習するためにテキストエンコーダを導入しました。音声とテキストの表現は共有エンコーダ、RNN を介して行われます。 -T loss は、USTR (Unified Speech-Text Representation) と呼ばれるトレーニングに使用されます。「テキストエンコーダ部分については、文字シーケンス、電話シーケンス、サブワードシーケンスなど、さまざまなタイプの表現を検討しました。最終結果では、電話シーケンスが最も効果的であることがわかりました。トレーニング方法については、この記事でその方法を検討します。」指定された RNN に基づいています。T モデルのマルチステップトレーニングメソッドと、完全にランダムな初期化によるシングルステップトレーニングメソッドです。」

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

# 具体的には、チームは LibriSpeech データセットを使用しました。 SPGISpeech の注釈付きテキストは、ドメイン移行実験のプレーンテキストとして使用されます。実験の結果、対象フィールドにおけるこの方法の効果は基本的にTTSと同じであることが示され、シングルステップトレーニングの効果がより高く、効果は基本的にマルチステップと同じであることがわかりました。 USTR メソッドは、LM が同じテキストトレーニングコーパスを使用する場合でも、ILME などのプラグイン言語モデルのパフォーマンスをさらに向上させることができます。最後に、ターゲットドメインテストセットでは、外部言語モデルを組み合わせずに、この方法はベースライン WER の 23.55% -> 13.25% と比較して 43.7% の相対的な減少を達成しました。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

#知識蒸留に基づく効率的な内部言語モデル推定手法 (効率的な内部言語モデル推定のための知識蒸留アプローチ)

Internal Language Model Estimation (ILME) は、エンドツーエンドの ASR 言語モデル融合においてその有効性が証明されていますが、従来の Shallow fusion と比較して、ILME では内部言語モデルの計算が追加で導入されるため、推論のコストが増加します。内部言語モデルを推定するには、ASR デコーダーに基づいて追加の前方計算が必要になるか、内部言語として密度比法に基づく ASR トレーニングセットテキストを使用して独立言語モデル (DR-LM) がトレーニングされます。モデルの近似値。 ASR デコーダに基づく ILME 法は、ASR パラメータを直接推定に使用するため、通常、密度比法よりも優れた性能を達成できますが、その計算量は ASR デコーダのパラメータ量に依存し、密度比法の利点は次のとおりです。 DR-LM のサイズにより、効率的な内部言語モデルの推定が可能になります。

このため、Volcano Voice チームは、密度比法のフレームワークの下で、ASR デコーダに基づく ILME 法を教師として使用し、DR-LM を抽出して学習することを提案しました。これにより、DR-LM の計算を大幅に削減できます。 ILMEのパフォーマンスを維持しながらILMEのコストを削減します。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

実験結果は、この方法が内部言語モデルのパラメータの 95% を削減でき、ASR ベースの方法とパフォーマンスが同等であることを示しています。デコーダ ILME メソッドも非常に似ています。より優れたパフォーマンスの ILME メソッドを教師として使用すると、対応する生徒モデルもより良い結果を達成できます。同等の計算量を伴う従来の密度比手法と比較して、この手法は高リソースシナリオでのパフォーマンスがわずかに優れています。低リソースのクロスドメイン移行シナリオでは、CER ゲインが 8% に達する可能性があり、より堅牢です。融合重み

GenerTTS:クロス言語音声合成における音色とスタイルの一般化のための発音のもつれの解消 (GenerTTS: クロス言語での音色とスタイルの一般化のための発音のもつれの解消) - 言語テキスト読み上げ）

言語の音色やスタイルにまたがる汎用音声合成 (TTS) は、音声を合成することを目的としています。ターゲット言語で訓練されていない特定の参照音色またはスタイルを使用します。特定話者の多言語音声データの取得が困難なことが多いため、音色と発音の分離が困難であること、話法には言語に依存しない部分と言語に依存する部分が混在しているため、文体と発音が混在することなどの課題に直面している。

これらの課題に対処するために、Volcano Voice チームは GenerTTS を提案しました。彼らは、音色と発音/スタイルの関係を解きほぐすために、HuBERT ベースの情報ボトルネックを慎重に設計しました。同時に、スタイルと言語の間の相互情報を最小限に抑えることで、スタイル内の言語固有の情報も排除します。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

実験的証明, GenerTTS は、文体の類似性と発音の正確さの点でベースラインシステムを上回っており、言語の音色やスタイル全体での汎用性を実現しています。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Huoshan Voice チームは常に、高品質の音声 AI テクノロジー機能とフルスタックの音声製品ソリューションを ByteDance の社内ビジネスラインに提供し、これらを外部の世界に輸出してきました。 Volcano エンジンのサービスを提供します。 2017 年の設立以来、チームは業界をリードする AI インテリジェント音声テクノロジーの研究開発に注力し、より大きなユーザー価値を達成するために AI とビジネスシナリオの効率的な組み合わせを常に模索してきました。

以上がInterspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。