AI 參與的語音世界真神奇,既可以將一個人的語音換成任何其他人的語音,也可以與動物之間的語音互換。
我們知道,語音轉換的目標是將來源語音轉換為目標語音,並保持內容不變。最近的任意到任意(any-to-any)語音轉換方法提高了自然度和說話者相似度,但複雜性卻大大增加了。這意味著訓練和推理的成本變得更高,使得改進效果難以評估和建立。
問題來了,高品質的語音轉換需要複雜性嗎?在近日南非斯坦陵布什大學的一篇論文中,幾位研究者探討了這個問題。
#研究亮點在於:他們引入了K 最近鄰語音轉換( kNN-VC),一種簡單而強大的任意到任意語音轉換方法。在過程中不訓練顯式轉換模型,而是簡單地使用了 K 最近鄰迴歸。
具體而言,研究者首先使用自監督語音表示模型來提取源話語和參照話語的特徵序列,然後透過將源表示的每個影格替換為參照中的最近鄰來轉換成目標說話者,最後使用神經聲碼器對轉換後的特徵進行合成以獲得轉換後的語音。
從結果來看,儘管KNN-VC 很簡單,但與幾個基線語音轉換系統相比,它在主觀和客觀評估中都能媲美甚至提高了清晰度和說話者相似度。
我們來欣賞 KNN-VC 語音轉換的效果。先來看人聲轉換,將 KNN-VC 應用於 LibriSpeech 資料集中未見過的來源說話者和目標說話者。
來源語音00:11
#合成語音100:11
合成語音200:11
#KNN-VC 也支援了跨語言語音轉換,例如西班牙語到德語、德語到日語、漢語到西班牙語。
來源漢語00:08
#目標西班牙文00:05
合成語音300:08
#更令人稱奇的是,KNN-VC 還能將人聲與狗吠聲互換。
來源狗吠00:09
#來源人聲00:05
合成語音400:08
合成語音500:05
我們接下來看KNN-VC 如何運作以及與其他jixian 方法的比較結果。
kNN-VC 的架構圖如下所示,遵循了編碼器- 轉換器- 聲碼器結構。首先編碼器提取來源語音和參照語音的自監督表示,然後轉換器將每個來源幀映射到參考中它們的最近鄰,最後聲碼器根據轉換後的特徵產生音訊波形。
其中編碼器採用 WavLM,轉換器採用 K 近期鄰回歸、聲碼器採用 HiFiGAN。唯一需要訓練的組件是聲碼器。
對於 WavLM 編碼器,研究者只使用預先訓練的 WavLM-Large 模型,並在文中不對它做任何訓練。對於 kNN 轉換模型,kNN 是非參數,不需要任何訓練。對於 HiFiGAN 聲碼器,採用原始 HiFiGAN 作者的 repo 對 WavLM 特徵進行聲碼處理,成為唯一需要訓練的部分。
圖片
在實驗中,研究者首先將KNN-VC 與其他基準方法進行比較,使用了最大可用目標數據(每個說話者大約8 分鐘的音訊)來測試語音轉換系統。
对于 KNN-VC,研究者使用所有目标数据作为匹配集。对于基线方法,他们对每个目标话语的说话者嵌入求平均。
下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。可以看到,kNN-VC 实现了与最佳基线 FreeVC 相似的自然度和清晰度,但说话者相似度却显著提高了。这也印证了本文的论断:高质量的语音转换不需要增加复杂性。
此外,研究者想要了解有多少改进得益于在预匹配数据上训练的 HiFi-GAN,以及目标说话者数据大小对清晰度和说话者相似度的影响有多大。
下图 2 展示了两种 HiFi-GAN 变体在不同目标说话者大小时的 WER(越小越好)和 EER(越高越好)关系图。
图片
对于这个「仅利用最近邻」的语音转换新方法 kNN-VC,有人认为,文中使用了预训练语音模型,因此用「仅」不太准确。但不可否认,kNN-VC 仍然要比其他模型简单。
结果也证明了,与非常复杂的任意到任意语音转换方法相比,kNN-VC 即便不是最好,也同样有效。
图片
还有人表示,人声与狗吠互换的例子非常有趣。
图片
以上是支援跨語言、人聲狗吠互換,僅利用最近鄰的簡單語音轉換模型有多神奇的詳細內容。更多資訊請關注PHP中文網其他相關文章!