智慧語音合成的核心原理-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

智慧語音合成的核心原理

王林

Jan 23, 2024 am 09:54 AM

機器學習

統計參數語音合成方法因其靈活性而在語音合成領域引起廣泛關注。近年來，深度神經網路模型在機器學習研究領域的應用取得顯著優勢，與傳統方法相比。基於神經網路的建模方法在統計參數語音合成中的應用逐漸深入，已成為語音合成的主流方法之一。

統計參數語音合成的後端聲學建模是本文的主題。

參數化語音合成的後端框架

如圖，描述了統計參數語音合成的後端框架，主要包括訓練和合成兩個階段。

在訓練階段，使用聲音庫中的語音波形和對應的文字特徵作為輸入。透過聲碼器提取語音波形，並結合文字特徵進行聲學建模。

在合成階段，根據已訓練好的聲學模型，輸入待合成的文字特徵，預測對應的聲學特徵。然後，利用聲碼器將預測所得的聲學特徵轉換為語音波形。聲碼器和聲學模型是統計參數語音合成系統中的關鍵組成部分。

語音產生的源濾波器模型在語音波形參數化過程中被用來將語音的短時頻譜分離為基頻和頻譜包絡。通常，我們透過分析時域波形或頻域諧波來獲得語音的激勵特性，然後從語音波形的短時傅立葉變換得到的振幅頻譜中去除時間和頻率的周期性，從而得到語音的頻譜包絡。這種方法可以幫助我們更好地理解和處理語音訊號。

由於頻譜包絡的維度較高，建模變得困難，因此通常需要降低頻譜包絡的維度。重建語音波形是從語音聲學參數恢復原始語音的相反過程。透過給定語音的基頻、譜包絡和激勵特性，結合適當的相位約束，可以重構STFT幅度譜。

時長建模是統計參數語音合成中的另一個模組。時間長度建模不需要聲碼器。其基本框架類似於聲學建模。統計模型用於在給定文字特徵的條件下，對相應時間長度的機率分佈進行建模。

經過20多年的發展，基於HMM的統計參數語音合成方法已成為一種成熟的語音合成方法。

本節將介紹隱馬可夫模型及其理論基礎。結合一定的相位約束，重構 STFT 幅度頻譜。時長建模是統計參數語音合成中的另一個模組。時間長度建模不需要聲碼器。其基本框架類似於聲學建模。統計模型用於在給定文字特徵的條件下，對相應時間長度的機率分佈進行建模。經過20多年的發展，基於HMM的統計參數語音合成方法已成為成熟的語音合成方法。

隱馬可夫模型是一種對序列建模的機率模型，它由一組隱含的狀態變數組成和一組觀察變數。 HMM 模型有兩個假設。

狀態變數服從一階馬可夫鏈；即目前狀態只與前一次的狀態有關，如公式（1）所示。

觀察變數在某一時刻的機率分佈只與當下時刻的狀態有關，與其他時刻的狀態或觀察變數無關，如式（2）所示。

通常，在HMM模型中

巧妙形成HMM的狀態轉移矩陣A，觀察變數的機率密度為：

值得注意的是，HMM 的輸出機率：

基於HMM的統計參數語音合成方法中聲學建模的核心原理是利用HMM模型對給定情況下語音的聲學特徵序列進行機率建模。

整個系統的配置包括語音聲學特徵的選擇、建模單元的選擇以及HMM模型的配置。語音合成系統中的聲學特徵包括激勵特徵和頻譜特徵。

在譜特徵的選擇上，為了降低HMM建模的難度，一般採用去除維度間相關性的低維譜表示，如梅爾倒譜和線譜對特徵。考慮到語音訊號的短時平穩特性和HM的建模能力，語音合成系統中的HMM通常會對音素等級的單元進行建模，例如中文中的元音單元。由於語音的時序特性，音訊建模中HMM的拓樸結構往往是從左到右的單向遍歷狀態。

基於HMM的統計參數語音合成系統框架

如圖描述了基於HMM的統計參數語音合成系統的框架。分為訓練階段和綜合階段。訓練階段包括語音聲學特徵提取和HMM模型訓練。由於HMM模型使用音素作為建模單元，因此通常對三個上下文相關的音素進行建模以提高建模精度。

在第一個系統訓練過程中，估HMM模型的方差下限，然後訓練單音HMM模型作為模型初始化參數，然後訓練上下文相關的三音素HMM模型，最後進行Mn壓力聚類基於決策樹進行。

在合成階段，首先對文本進行分析，結合預測的時間長度，根據決策樹確定上下文相關的HMM模型序列，然後透過最大似然參數生成演算法得到連續的聲學特徵序列，語音波形由合成器合成。基於HMM的統計參數語音合成系統過於流暢；一個原因是HMM的建模能力有限。

最近幾年，作為機器學習的一個分支，深度學習發展迅速。深度學習是指使用由多個非線性變換和多個處理層組成的網路模型，即神經網路。由於DNN和inch的出色建模能力n , 將基於DNN和RNN的聲學建模方法應用於統計參數語音合成，其效果優於基於HMM的聲學建模方法。

目前已成為統計參數語音合成聲學建模的主流方法。基於DNN和RNN的語音合成系統在系統框架上類似。

基於神經網路的語音合成方法框架圖

如圖，圖中的輸入特徵是從文字中提取的特徵；即以離散或連續的數值特徵來描述文字。

基於DNN和RNN的統計參數語音合成系統的訓練通常採用訓練準則，利用BP演算法和SGD演算法更新模型參數，使預測的聲學參數盡可能接近自然聲學參數。在合成階段，從合成文字中擷取文字特徵，然後透過DNN或RNN預測對應的聲學參數，最後透過聲碼器合成語音波形。

目前，基於DNN和RNN的建模方法主要應用於語音聲學參數，包括基頻和頻譜參數。時長資訊仍需透過其他系統取得。此外，DNN和RNN模型的輸入輸出特徵需要及時對齊。

以上是智慧語音合成的核心原理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：网易伏羲。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35