AI 參與的語音世界真神奇,既可以將一個人的語音換成任何其他人的語音,也可以與動物之間的語音互換。
我們知道,語音轉換的目標是將來源語音轉換為目標語音,並保持內容不變。最近的任意到任意(any-to-any)語音轉換方法提高了自然度和說話者相似度,但複雜性卻大大增加了。這意味著訓練和推理的成本變得更高,使得改進效果難以評估和建立。
問題來了,高品質的語音轉換需要複雜性嗎?在近日南非斯坦陵布什大學的一篇論文中,幾位研究者探討了這個問題。
- #論文網址:https://arxiv.org/pdf/2305.18975.pdf
- GitHub 地址:https://bshall.github.io/knn-vc/
#研究亮點在於:他們引入了K 最近鄰語音轉換( kNN-VC),一種簡單而強大的任意到任意語音轉換方法。在過程中不訓練顯式轉換模型,而是簡單地使用了 K 最近鄰迴歸。
具體而言,研究者首先使用自監督語音表示模型來提取源話語和參照話語的特徵序列,然後透過將源表示的每個影格替換為參照中的最近鄰來轉換成目標說話者,最後使用神經聲碼器對轉換後的特徵進行合成以獲得轉換後的語音。
從結果來看,儘管KNN-VC 很簡單,但與幾個基線語音轉換系統相比,它在主觀和客觀評估中都能媲美甚至提高了清晰度和說話者相似度。
我們來欣賞 KNN-VC 語音轉換的效果。先來看人聲轉換,將 KNN-VC 應用於 LibriSpeech 資料集中未見過的來源說話者和目標說話者。
來源語音00:11
#合成語音100:11
合成語音200:11
#KNN-VC 也支援了跨語言語音轉換,例如西班牙語到德語、德語到日語、漢語到西班牙語。
來源漢語00:08
#目標西班牙文00:05
合成語音300:08
#更令人稱奇的是,KNN-VC 還能將人聲與狗吠聲互換。
來源狗吠00:09
#來源人聲00:05
合成語音400:08
合成語音500:05
我們接下來看KNN-VC 如何運作以及與其他jixian 方法的比較結果。
方法概覽及實驗結果
kNN-VC 的架構圖如下所示,遵循了編碼器- 轉換器- 聲碼器結構。首先編碼器提取來源語音和參照語音的自監督表示,然後轉換器將每個來源幀映射到參考中它們的最近鄰,最後聲碼器根據轉換後的特徵產生音訊波形。
其中編碼器採用 WavLM,轉換器採用 K 近期鄰回歸、聲碼器採用 HiFiGAN。唯一需要訓練的組件是聲碼器。
對於 WavLM 編碼器,研究者只使用預先訓練的 WavLM-Large 模型,並在文中不對它做任何訓練。對於 kNN 轉換模型,kNN 是非參數,不需要任何訓練。對於 HiFiGAN 聲碼器,採用原始 HiFiGAN 作者的 repo 對 WavLM 特徵進行聲碼處理,成為唯一需要訓練的部分。
圖片
在實驗中,研究者首先將KNN-VC 與其他基準方法進行比較,使用了最大可用目標數據(每個說話者大約8 分鐘的音訊)來測試語音轉換系統。
对于 KNN-VC,研究者使用所有目标数据作为匹配集。对于基线方法,他们对每个目标话语的说话者嵌入求平均。
下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。可以看到,kNN-VC 实现了与最佳基线 FreeVC 相似的自然度和清晰度,但说话者相似度却显著提高了。这也印证了本文的论断:高质量的语音转换不需要增加复杂性。
此外,研究者想要了解有多少改进得益于在预匹配数据上训练的 HiFi-GAN,以及目标说话者数据大小对清晰度和说话者相似度的影响有多大。
下图 2 展示了两种 HiFi-GAN 变体在不同目标说话者大小时的 WER(越小越好)和 EER(越高越好)关系图。
图片
网友热评
对于这个「仅利用最近邻」的语音转换新方法 kNN-VC,有人认为,文中使用了预训练语音模型,因此用「仅」不太准确。但不可否认,kNN-VC 仍然要比其他模型简单。
结果也证明了,与非常复杂的任意到任意语音转换方法相比,kNN-VC 即便不是最好,也同样有效。
图片
还有人表示,人声与狗吠互换的例子非常有趣。
图片
以上是支援跨語言、人聲狗吠互換,僅利用最近鄰的簡單語音轉換模型有多神奇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版
中文版,非常好用

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境