中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します-AI-php.cn

ホームページ

テクノロジー周辺機器

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

PHPz

Apr 08, 2023 pm 06:21 PM

aiデータモデル

Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]、およびその他の音声事前トレーニングモデル。数万時間のラベルなし音声データ (Libri-light など) に対する自己教師あり学習による) により、自動音声認識 (ASR)、テキスト読み上げ (TTS)、音声変換 (VC) などの下流の音声タスクのパフォーマンスが大幅に向上します。ただし、これらのモデルには公開中国語バージョンがないため、中国語音声研究シナリオに適用するには不便です。

WenetSpeech [4] は、NPU、Mobvoi、およびヒルシェルデータセット。中国語音声事前トレーニングモデルのギャップを埋めるために、WenetSpeech からの 10,000 時間のデータトレーニングに基づいた中国語バージョンの Wav2vec 2.0 および HuBERT モデルをオープンソース化しました。

事前トレーニング済みモデルのパフォーマンスを検証するために、ASR タスクの検証を実行しました。実験結果は、100 時間の教師付きデータを含む ASR タスクにおいて、事前トレーニングモデルによって学習された音声表現は、従来の音響 FBank 機能と比較して大幅なパフォーマンスの向上を示していることを示しています。 1000 時間の監視とデータの比較可能な結果。

#モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain

モデルの紹介

Wav2vec 2.0モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

図 1: Wav2vec 2.0 モデル構造 (Baevski et al., 2020)

Wav2vec 2.0 [1] は、2020 年に Meta によって公開された教師なし音声事前トレーニングモデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築された教師ありトレーニングターゲットを構築し、入力を大量にマスクしてから、トレーニングに対照的な学習損失関数を使用することです。モデル構造は上の図 1 に示されており、畳み込みニューラルネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴のシーケンスにエンコードし、VQ モジュールを通じて各フレーム特徴を離散特徴 Q に変換します。自己監視対象として使用されます。同時に、フレーム特徴シーケンスはマスキング操作を受けて、Transformer [5] モデルに入力され、コンテキスト表現 C が取得されます。最後に、マスク位置のコンテキスト表現と対応する離散特徴 q の間の距離は、学習損失関数、つまり正のサンプルのペアを比較することによって短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィックスカードを使用して 1.6 日間トレーニングし、LARGE モデルは 128 枚の V100 グラフィックスカードを使用して 5 日間トレーニングします。ダウンストリームの ASR 評価では、10 分間の教師ありデータのみを使用した場合でも、システムはワード誤り率 (WER) の結果 4.8 を達成しました。

HuBERT モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

##図 2: HuBERT モデルの構造 (Hsu et al., 2021)HuBERT [2] は、2021 年に Meta によって公開されたモデルです。モデル構造は Wav2vec 2.0 に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 はトレーニング中に音声特徴を自己教師ありターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行することによってトレーニングターゲットを取得します。 HuBERT モデルは反復トレーニング手法を採用しています。BASE モデルの最初の反復では、MFCC 特徴に対してクラスタリングを実行します。2 回目の反復では、最初の反復で得られた HuBERT モデルの中間層の特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、 BASE モデルの 2 番目の反復では、クラスタリング用の特徴が抽出されます。元の論文の実験結果から判断すると、特にダウンストリームタスクの教師ありトレーニングデータが 1 時間 10 分など非常に少ない場合、HuBERT モデルは Wav2vec 2.0 よりも優れています。

中国語の事前トレーニングモデル

実験構成WenetSpeech [4] train_l セットからの 10,000 時間の中国語データを教師なし事前トレーニングデータとして使用します。データは主に YouTube と Podcast から取得され、さまざまな種類の録音シーン、背景雑音、話し方などをカバーしています。その分野には主にオーディオブック、ナレーション、ドキュメンタリー、テレビシリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組などが含まれます。など10大シーン。 [1、2] のモデル構成に従い、Fairseq ツールキット [6] に基づいて Wav2vec 2.0 モデルと HuBERT モデルをそれぞれトレーニングしました。事前トレーニングされた各モデルには、BASE と LARGE の 2 つのサイズが含まれています。 BASE モデルの場合、8 枚の A100 グラフィックスカードを使用し、勾配累積は 8 で、トレーニング用に 64 枚のグラフィックスカードをシミュレートします。 LARGE モデルの場合、16 枚の A100 グラフィックスカードを使用し、勾配累積は 8 で、トレーニング用に 128 枚のグラフィックスカードをシミュレートします。

下流の音声認識タスクの検証下流の ASR タスクに対する事前トレーニング済みモデルの効果を検証するために、ESPnet の Conformer に従います [7] ,8,9] ツールキット [10] モデル実験構成、つまり、事前トレーニング済みモデルが特徴抽出器として使用され、入力音声抽出事前トレーニング済みモデルの隠れ層表現が重み付けされて合計されます。この表現は、Conformer ASR モデルの入力として従来の FBank 機能を置き換えます。

Aishell データセット

Aishell 178 時間トレーニングセットをトレーニング用の教師ありデータとして使用し、比較しましたFBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、および HuBERT BASE/LARGE モデル機能を使用した文字誤り率 (CER) の結果。同時に、トレーニングに 10,000 時間の中国語データの WenetSpeech train_l セットを使用した場合の Aishell テストセットに対する効果をさらに比較しました。トレーニングデータには可変速度（0.9、1.0、1.1倍）とSpecAugmentデータ拡張技術が使用され、デコード方法はビームサーチで、再スコアリングにはTransformerベースの言語モデルが使用されます。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 1: Aishell テストセットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 1 の結果によると、事前トレーニングされたモデルと数万時間の教師なしデータトレーニングを組み合わせることで、ダウンストリーム ASR タスクのパフォーマンスが向上することがわかります。大幅に改善されました。特に、HuBERT LARGE モデルを使用した場合、テストセットで CER が相対的に約 30% 向上し、178 時間の教師付きトレーニングデータの下で業界最高の結果が得られました。

WenetSpeech データセット

WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師ありデータとして使用します。 FBank の機能、Wav2vec 2.0 BASE/LARGE モデルの機能、および HuBERT BASE/LARGE モデルの機能を使用した文字誤り率 (CER) の結果が比較されました。同時に、WenetSpeech train_m セット (1,000 時間) と train_l セット (10,000 時間) の中国データ FBank 機能を使用してモデルの結果をさらに比較しました。トレーニングデータは可変速度または SpecAugment データ拡張テクノロジを使用せず、デコード方法はビームサーチであり、言語モデルの再スコアリングは使用されません。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 2: WenetSpeech テストセットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 2 の結果からわかるように、事前トレーニングされたモデルと数万時間の教師なしデータトレーニングを組み合わせることで、ダウンストリーム ASR の結果は大幅に向上しました。改善されました。特に音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師付きデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりも優れたパフォーマンスを示し、10,000 時間のデータでトレーニングされたモデルにさえ近くなります。

音声ダウンストリームタスクに関するさらなる実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。私たちが提供する中国語音声事前トレーニングモデルを誰でも使用して、研究作業を実行し、中国語および関連シナリオでの音声事前トレーニングモデルの応用を検討することを歓迎します。

以上が中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。