首頁  >  文章  >  科技週邊  >  智慧語音合成的核心原理

智慧語音合成的核心原理

王林
王林轉載
2024-01-23 09:54:14529瀏覽

統計參數語音合成方法因其靈活性而在語音合成領域引起廣泛關注。近年來,深度神經網路模型在機器學習研究領域的應用取得顯著優勢,與傳統方法相比。基於神經網路的建模方法在統計參數語音合成中的應用逐漸深入,已成為語音合成的主流方法之一。

統計參數語音合成的後端聲學建模是本文的主題。

智慧語音合成的核心原理

參數化語音合成的後端框架

如圖,描述了統計參數語音合成的後端框架,主要包括訓練和合成兩個階段。

在訓練階段,使用聲音庫中的語音波形和對應的文字特徵作為輸入。透過聲碼器提取語音波形,並結合文字特徵進行聲學建模。

在合成階段,根據已訓練好的聲學模型,輸入待合成的文字特徵,預測對應的聲學特徵。然後,利用聲碼器將預測所得的聲學特徵轉換為語音波形。聲碼器和聲學模型是統計參數語音合成系統中的關鍵組成部分。

語音產生的源濾波器模型在語音波形參數化過程中被用來將語音的短時頻譜分離為基頻和頻譜包絡。通常,我們透過分析時域波形或頻域諧波來獲得語音的激勵特性,然後從語音波形的短時傅立葉變換得到的振幅頻譜中去除時間和頻率的周期性,從而得到語音的頻譜包絡。這種方法可以幫助我們更好地理解和處理語音訊號。

由於頻譜包絡的維度較高,建模變得困難,因此通常需要降低頻譜包絡的維度。重建語音波形是從語音聲學參數恢復原始語音的相反過程。透過給定語音的基頻、譜包絡和激勵特性,結合適當的相位約束,可以重構STFT幅度譜。

時長建模是統計參數語音合成中的另一個模組。時間長度建模不需要聲碼器。其基本框架類似於聲學建模。統計模型用於在給定文字特徵的條件下,對相應時間長度的機率分佈進行建模。

經過20多年的發展,基於HMM的統計參數語音合成方法已成為一種成熟的語音合成方法。

本節將介紹隱馬可夫模型及其理論基礎。結合一定的相位約束,重構 STFT 幅度頻譜。時長建模是統計參數語音合成中的另一個模組。時間長度建模不需要聲碼器。其基本框架類似於聲學建模。統計模型用於在給定文字特徵的條件下,對相應時間長度的機率分佈進行建模。經過20多年的發展,基於HMM的統計參數語音合成方法已成為成熟的語音合成方法。

隱馬可夫模型是一種對序列建模的機率模型,它由一組隱含的狀態變數組成和一組觀察變數。 HMM 模型有兩個假設。

狀態變數服從一階馬可夫鏈;即目前狀態只與前一次的狀態有關,如公式(1)所示。

智慧語音合成的核心原理

觀察變數在某一時刻的機率分佈只與當下時刻的狀態有關,與其他時刻的狀態或觀察變數無關,如式(2)所示。

智慧語音合成的核心原理

通常,在HMM模型中

智慧語音合成的核心原理

巧妙形成HMM的狀態轉移矩陣A,觀察變數的機率密度為:

智慧語音合成的核心原理

值得注意的是,HMM 的輸出機率:

智慧語音合成的核心原理

基於HMM的統計參數語音合成方法中聲學建模的核心原理是利用HMM模型對給定情況下語音的聲學特徵序列進行機率建模。

整個系統的配置包括語音聲學特徵的選擇、建模單元的選擇以及HMM模型的配置。語音合成系統中的聲學特徵包括激勵特徵和頻譜特徵。

在譜特徵的選擇上,為了降低HMM建模的難度,一般採用去除維度間相關性的低維譜表示,如梅爾倒譜和線譜對特徵。考慮到語音訊號的短時平穩特性和HM的建模能力,語音合成系統中的HMM通常會對音素等級的單元進行建模,例如中文中的元音單元。由於語音的時序特性,音訊建模中HMM的拓樸結構往往是從左到右的單向遍歷狀態。

#智慧語音合成的核心原理

基於HMM的統計參數語音合成系統框架

如圖描述了基於HMM的統計參數語音合成系統的框架。分為訓練階段和綜合階段。訓練階段包括語音聲學特徵提取和HMM模型訓練。由於HMM模型使用音素作為建​​模單元,因此通常對三個上下文相關的音素進行建模以提高建模精度。

在第一個系統訓練過程中,估HMM模型的方差下限,然後訓練單音HMM模型作為模型初始化參數,然後訓練上下文相關的三音素HMM模型,最後進行Mn壓力聚類基於決策樹進行。

在合成階段,首先對文本進行分析,結合預測的時間長度,根據決策樹確定上下文相關的HMM模型序列,然後透過最大似然參數生成演算法得到連續的聲學特徵序列,語音波形由合成器合成。基於HMM的統計參數語音合成系統過於流暢;一個原因是HMM的建模能力有限。

最近幾年,作為機器學習的一個分支,深度學習發展迅速。深度學習是指使用由多個非線性變換和多個處理層組成的網路模型,即神經網路。由於DNN和inch的出色建模能力n , 將基於DNN和RNN的聲學建模方法應用於統計參數語音合成,其效果優於基於HMM的聲學建模方法。

目前已成為統計參數語音合成聲學建模的主流方法。基於DNN和RNN的語音合成系統在系統框架上類似。

智慧語音合成的核心原理

基於神經網路的語音合成方法框架圖

如圖,圖中的輸入特徵是從文字中提取的特徵;即以離散或連續的數值特徵來描述文字。

基於DNN和RNN的統計參數語音合成系統的訓練通常採用訓練準則,利用BP演算法和SGD演算法更新模型參數,使預測的聲學參數盡可能接近自然聲學參數。在合成階段,從合成文字中擷取文字特徵,然後透過DNN或RNN預測對應的聲學參數,最後透過聲碼器合成語音波形。

目前,基於DNN和RNN的建模方法主要應用於語音聲學參數,包括基頻和頻譜參數。時長資訊仍需透過其他系統取得。此外,DNN和RNN模型的輸入輸出特徵需要及時對齊。

以上是智慧語音合成的核心原理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:163.com。如有侵權,請聯絡admin@php.cn刪除