AIが参加する音声の世界は本当に魔法のようで、人の声を別の人の声に変えるだけでなく、動物と声を交換することもできます。
音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しますが、その代償として複雑さが大幅に増加します。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。
問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの問題を調査しました。
- 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf # #GitHub アドレス: https://bshall.github.io/knn-vc/
- 研究のハイライトは次のとおりです:
。明示的な変換モデルをトレーニングする代わりに、K 最近傍回帰が単純に使用されます。 具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを 1 つのフレームに置き換えました。参照では、最近傍を使用してターゲット話者に変換し、最後にニューラル ボコーダーを使用して変換された特徴を合成し、変換された音声を取得します。
結果から、そのシンプルさにも関わらず、KNN-VC は、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、話者との類似性において同等またはさらに向上した明瞭度を達成します。
KNN-VC 音声変換の効果を評価してみましょう。まず人間の音声変換について見てみると、KNN-VC は LibriSpeech データセットには表示されないソース話者とターゲット話者に適用されます。
#ソース音声
00:11##合成音声 100:11
合成音声 200:11
KNN-VC は、スペイン語からドイツ語、ドイツ語など、言語間の音声変換もサポートしています。日本語から中国語、スペイン語まで。
ソース中国語00:08
宛先スペイン語00:05
合成音声 300:08
さらに驚くべきことは、KNN-VC は人間の声と犬の吠え声を組み合わせることができることです。 。
ソース犬の吠え声00:09
ソース人間の声00:05
#合成音声 400:08
##合成音声 500:05
次に、KNN-VC がどのように実行されるかを見て、他の jixian メソッドと比較します。 方法の概要と実験結果
kNN-VC のアーキテクチャ図は、エンコーダー、コンバーター、ボコーダーの構造に従って以下に示されています。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にコンバータが各ソースフレームをリファレンス内の最も近い隣接フレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。
エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。
WavLM エンコーダーの場合、研究者は事前トレーニングされた WavLM-Large モデルのみを使用し、記事内ではトレーニングを行いませんでした。 kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、オリジナルの HiFiGAN 作者のリポジトリが WavLM 機能のボコード化に使用され、トレーニングが必要な唯一の部分となりました。
写真
実験では、研究者らはまず、利用可能な最大のターゲット データを使用して、KNN-VC を他のベースライン手法と比較しました。 (スピーカーごとに約 8 分の音声) 音声変換システムをテストします。
KNN-VC の場合、研究者はすべてのターゲット データをマッチング セットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。
以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性に関する結果を示しています。ご覧のとおり、kNN-VC は最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に向上しています。これは、この記事の主張を裏付けるものでもあります。高品質の音声変換には複雑さを増す必要はありません。
さらに、研究者らは、事前に照合されたデータでトレーニングされた HiFi-GAN による改善がどの程度あるのかを理解したいと考えていました。ターゲット話者データ サイズが明瞭度と話者の類似性にどの程度影響するか。
以下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど優れている) と EER (高いほど優れている) の関係を示しています。
写真
ネチズンのコメント
これについては、「最近傍のみを使用する」 」の新しい音声変換手法 kNN-VC について、記事内で事前学習済みの音声モデルが使用されていると考える人もいますので、「のみ」を使用するのは正確ではありません。しかし、kNN-VC が他のモデルに比べて依然として単純であることは否定できません。
この結果は、kNN-VC が、非常に複雑な Any-to-Any 音声変換方法と比較して、最高ではないにしても同等に効果的であることも示しています。
写真
人間の声と犬の鳴き声のやりとりの例がとても興味深いという意見もありました。 ###############写真######
以上が異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

Dreamweaver Mac版
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
