Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]、およびその他の音声事前トレーニング モデル。数万時間のラベルなし音声データ (Libri-light など) に対する自己教師あり学習による) により、自動音声認識 (ASR)、テキスト読み上げ (TTS)、音声変換 (VC) などの下流の音声タスクのパフォーマンスが大幅に向上します。ただし、これらのモデルには公開中国語バージョンがないため、中国語音声研究シナリオに適用するには不便です。
WenetSpeech [4] は、NPU、Mobvoi、およびヒルシェル データ セット。 中国語音声事前トレーニング モデルのギャップを埋めるために、WenetSpeech からの 10,000 時間のデータ トレーニングに基づいた中国語バージョンの Wav2vec 2.0 および HuBERT モデルをオープンソース化しました。
事前トレーニング済みモデルのパフォーマンスを検証するために、ASR タスクの検証を実行しました。実験結果は、100 時間の教師付きデータを含む ASR タスクにおいて、事前トレーニング モデルによって学習された音声表現は、従来の音響 FBank 機能と比較して大幅なパフォーマンスの向上を示していることを示しています。 1000 時間の監視とデータの比較可能な結果。
#モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain
モデルの紹介Wav2vec 2.0モデル図 1: Wav2vec 2.0 モデル構造 (Baevski et al., 2020)
Wav2vec 2.0 [1] は、2020 年に Meta によって公開された教師なし音声事前トレーニング モデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築された教師ありトレーニング ターゲットを構築し、入力を大量にマスクしてから、トレーニングに対照的な学習損失関数を使用することです。モデル構造は上の図 1 に示されており、畳み込みニューラル ネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴のシーケンスにエンコードし、VQ モジュールを通じて各フレーム特徴を離散特徴 Q に変換します。自己監視対象として使用されます。同時に、フレーム特徴シーケンスはマスキング操作を受けて、Transformer [5] モデルに入力され、コンテキスト表現 C が取得されます。最後に、マスク位置のコンテキスト表現と対応する離散特徴 q の間の距離は、学習損失関数、つまり正のサンプルのペアを比較することによって短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィックス カードを使用して 1.6 日間トレーニングし、LARGE モデルは 128 枚の V100 グラフィックス カードを使用して 5 日間トレーニングします。ダウンストリームの ASR 評価では、10 分間の教師ありデータのみを使用した場合でも、システムはワード誤り率 (WER) の結果 4.8 を達成しました。HuBERT モデル
##図 2: HuBERT モデルの構造 (Hsu et al., 2021)HuBERT [2] は、2021 年に Meta によって公開されたモデルです。モデル構造は Wav2vec 2.0 に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 はトレーニング中に音声特徴を自己教師ありターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行することによってトレーニング ターゲットを取得します。 HuBERT モデルは反復トレーニング手法を採用しています。BASE モデルの最初の反復では、MFCC 特徴に対してクラスタリングを実行します。2 回目の反復では、最初の反復で得られた HuBERT モデルの中間層の特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、 BASE モデルの 2 番目の反復では、クラスタリング用の特徴が抽出されます。元の論文の実験結果から判断すると、特にダウンストリーム タスクの教師ありトレーニング データが 1 時間 10 分など非常に少ない場合、HuBERT モデルは Wav2vec 2.0 よりも優れています。
中国語の事前トレーニング モデル
実験構成WenetSpeech [4] train_l セットからの 10,000 時間の中国語データを教師なし事前トレーニング データとして使用します。データは主に YouTube と Podcast から取得され、さまざまな種類の録音シーン、背景雑音、話し方などをカバーしています。その分野には主にオーディオブック、ナレーション、ドキュメンタリー、テレビ シリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組などが含まれます。など10大シーン。 [1、2] のモデル構成に従い、Fairseq ツールキット [6] に基づいて Wav2vec 2.0 モデルと HuBERT モデルをそれぞれトレーニングしました。事前トレーニングされた各モデルには、BASE と LARGE の 2 つのサイズが含まれています。 BASE モデルの場合、8 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 64 枚のグラフィックス カードをシミュレートします。 LARGE モデルの場合、16 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 128 枚のグラフィックス カードをシミュレートします。
下流の音声認識タスクの検証下流の ASR タスクに対する事前トレーニング済みモデルの効果を検証するために、ESPnet の Conformer に従います [7] ,8,9] ツールキット [10] モデル実験構成、つまり、事前トレーニング済みモデルが特徴抽出器として使用され、入力音声抽出事前トレーニング済みモデルの隠れ層表現が重み付けされて合計されます。この表現は、Conformer ASR モデルの入力として従来の FBank 機能を置き換えます。
- Aishell データセット
Aishell 178 時間トレーニング セットをトレーニング用の教師ありデータとして使用し、比較しましたFBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、および HuBERT BASE/LARGE モデル機能を使用した文字誤り率 (CER) の結果。同時に、トレーニングに 10,000 時間の中国語データの WenetSpeech train_l セットを使用した場合の Aishell テスト セットに対する効果をさらに比較しました。トレーニングデータには可変速度(0.9、1.0、1.1倍)とSpecAugmentデータ拡張技術が使用され、デコード方法はビームサーチで、再スコアリングにはTransformerベースの言語モデルが使用されます。
#表 1: Aishell テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果
表 1 の結果によると、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR タスクのパフォーマンスが向上することがわかります。大幅に改善されました。特に、HuBERT LARGE モデルを使用した場合、テスト セットで CER が相対的に約 30% 向上し、178 時間の教師付きトレーニング データの下で業界最高の結果が得られました。
- WenetSpeech データ セット
WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師ありデータとして使用します。 FBank の機能、Wav2vec 2.0 BASE/LARGE モデルの機能、および HuBERT BASE/LARGE モデルの機能を使用した文字誤り率 (CER) の結果が比較されました。同時に、WenetSpeech train_m セット (1,000 時間) と train_l セット (10,000 時間) の中国データ FBank 機能を使用してモデルの結果をさらに比較しました。トレーニング データは可変速度または SpecAugment データ拡張テクノロジを使用せず、デコード方法はビーム サーチであり、言語モデルの再スコアリングは使用されません。
#表 2: WenetSpeech テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果
表 2 の結果からわかるように、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR の結果は大幅に向上しました。改善されました。特に音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師付きデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりも優れたパフォーマンスを示し、10,000 時間のデータでトレーニングされたモデルにさえ近くなります。音声ダウンストリーム タスクに関するさらなる実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。私たちが提供する中国語音声事前トレーニング モデルを誰でも使用して、研究作業を実行し、中国語および関連シナリオでの音声事前トレーニング モデルの応用を検討することを歓迎します。
以上が中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 中国語版
中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
