AIが参加する音声の世界は本当に魔法のようで、人の声を別の人の声に変えるだけでなく、動物と声を交換することもできます。
音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しますが、その代償として複雑さが大幅に増加します。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。
問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの問題を調査しました。
- 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf # #GitHub アドレス: https://bshall.github.io/knn-vc/
- 研究のハイライトは次のとおりです:
。明示的な変換モデルをトレーニングする代わりに、K 最近傍回帰が単純に使用されます。 具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを 1 つのフレームに置き換えました。参照では、最近傍を使用してターゲット話者に変換し、最後にニューラル ボコーダーを使用して変換された特徴を合成し、変換された音声を取得します。
結果から、そのシンプルさにも関わらず、KNN-VC は、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、話者との類似性において同等またはさらに向上した明瞭度を達成します。
KNN-VC 音声変換の効果を評価してみましょう。まず人間の音声変換について見てみると、KNN-VC は LibriSpeech データセットには表示されないソース話者とターゲット話者に適用されます。
#ソース音声
00:11##合成音声 100:11
合成音声 200:11
KNN-VC は、スペイン語からドイツ語、ドイツ語など、言語間の音声変換もサポートしています。日本語から中国語、スペイン語まで。
ソース中国語00:08
宛先スペイン語00:05
合成音声 300:08
さらに驚くべきことは、KNN-VC は人間の声と犬の吠え声を組み合わせることができることです。 。
ソース犬の吠え声00:09
ソース人間の声00:05
#合成音声 400:08
##合成音声 500:05
次に、KNN-VC がどのように実行されるかを見て、他の jixian メソッドと比較します。 方法の概要と実験結果
kNN-VC のアーキテクチャ図は、エンコーダー、コンバーター、ボコーダーの構造に従って以下に示されています。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にコンバータが各ソースフレームをリファレンス内の最も近い隣接フレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。
エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。
WavLM エンコーダーの場合、研究者は事前トレーニングされた WavLM-Large モデルのみを使用し、記事内ではトレーニングを行いませんでした。 kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、オリジナルの HiFiGAN 作者のリポジトリが WavLM 機能のボコード化に使用され、トレーニングが必要な唯一の部分となりました。
写真
実験では、研究者らはまず、利用可能な最大のターゲット データを使用して、KNN-VC を他のベースライン手法と比較しました。 (スピーカーごとに約 8 分の音声) 音声変換システムをテストします。
KNN-VC の場合、研究者はすべてのターゲット データをマッチング セットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。
以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性に関する結果を示しています。ご覧のとおり、kNN-VC は最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に向上しています。これは、この記事の主張を裏付けるものでもあります。高品質の音声変換には複雑さを増す必要はありません。
さらに、研究者らは、事前に照合されたデータでトレーニングされた HiFi-GAN による改善がどの程度あるのかを理解したいと考えていました。ターゲット話者データ サイズが明瞭度と話者の類似性にどの程度影響するか。
以下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど優れている) と EER (高いほど優れている) の関係を示しています。
写真
ネチズンのコメント
これについては、「最近傍のみを使用する」 」の新しい音声変換手法 kNN-VC について、記事内で事前学習済みの音声モデルが使用されていると考える人もいますので、「のみ」を使用するのは正確ではありません。しかし、kNN-VC が他のモデルに比べて依然として単純であることは否定できません。
この結果は、kNN-VC が、非常に複雑な Any-to-Any 音声変換方法と比較して、最高ではないにしても同等に効果的であることも示しています。
写真
人間の声と犬の鳴き声のやりとりの例がとても興味深いという意見もありました。 ###############写真######
以上が異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。
