ホームページ  >  記事  >  テクノロジー周辺機器  >  異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

王林
王林転載
2023-07-04 17:57:091027ブラウズ

AIが参加する音声の世界は本当に魔法のようで、人の声を別の人の声に変えるだけでなく、動物と声を交換することもできます。

音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しますが、その代償として複雑さが大幅に増加します。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。

問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの問題を調査しました。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf # #GitHub アドレス: https://bshall.github.io/knn-vc/
  • 研究のハイライトは次のとおりです:
K 最近傍音声変換 ( kNN -VC)、シンプルで強力な任意の音声変換メソッド

。明示的な変換モデルをトレーニングする代わりに、K 最近傍回帰が単純に使用されます。 具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを 1 つのフレームに置き換えました。参照では、最近傍を使用してターゲット話者に変換し、最後にニューラル ボコーダーを使用して変換された特徴を合成し、変換された音声を取得します。

結果から、そのシンプルさにも関わらず、KNN-VC は、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、話者との類似性において同等またはさらに向上した明瞭度を達成します。

KNN-VC 音声変換の効果を評価してみましょう。まず人間の音声変換について見てみると、KNN-VC は LibriSpeech データセットには表示されないソース話者とターゲット話者に適用されます。

#ソース音声

00:11

##合成音声 100:11

合成音声 200:11

KNN-VC は、スペイン語からドイツ語、ドイツ語など、言語間の音声変換もサポートしています。日本語から中国語、スペイン語まで。

ソース中国語00:08

宛先スペイン語00:05

合成音声 300:08

さらに驚くべきことは、KNN-VC は人間の声と犬の吠え声を組み合わせることができることです。 。

ソース犬の吠え声00:09

ソース人間の声00:05

#合成音声 400:08

##合成音声 500:05

次に、KNN-VC がどのように実行されるかを見て、他の jixian メソッドと比較します。 方法の概要と実験結果

kNN-VC のアーキテクチャ図は、エンコーダー、コンバーター、ボコーダーの構造に従って以下に示されています。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にコンバータが各ソースフレームをリファレンス内の最も近い隣接フレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーの場合、研究者は事前トレーニングされた WavLM-Large モデルのみを使用し、記事内ではトレーニングを行いませんでした。 kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、オリジナルの HiFiGAN 作者のリポジトリが WavLM 機能のボコード化に使用され、トレーニングが必要な唯一の部分となりました。

写真

実験では、研究者らはまず、利用可能な最大のターゲット データを使用して、KNN-VC を他のベースライン手法と比較しました。 (スピーカーごとに約 8 分の音声) 音声変換システムをテストします。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

KNN-VC の場合、研究者はすべてのターゲット データをマッチング セットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。

以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性に関する結果を示しています。ご覧のとおり、kNN-VC は最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に向上しています。これは、この記事の主張を裏付けるものでもあります。高品質の音声変換には複雑さを増す必要はありません。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

さらに、研究者らは、事前に照合されたデータでトレーニングされた HiFi-GAN による改善がどの程度あるのかを理解したいと考えていました。ターゲット話者データ サイズが明瞭度と話者の類似性にどの程度影響するか。

以下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど優れている) と EER (高いほど優れている) の関係を示しています。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?写真

ネチズンのコメント

これについては、「最近傍のみを使用する」 」の新しい音声変換手法 kNN-VC について、記事内で事前学習済みの音声モデルが使用されていると考える人もいますので、「のみ」を使用するのは正確ではありません。しかし、kNN-VC が他のモデルに比べて依然として単純であることは否定できません。

この結果は、kNN-VC が、非常に複雑な Any-to-Any 音声変換方法と比較して、最高ではないにしても同等に効果的であることも示しています。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?写真

人間の声と犬の鳴き声のやりとりの例がとても興味深いという意見もありました。 ###############写真######

以上が異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。