僅以1/4資料量還原真人語音100%細節，火山語音上新超自然對話語音合成技術！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

僅以1/4資料量還原真人語音100%細節，火山語音上新超自然對話語音合成技術！

PHPz

Apr 08, 2023 pm 03:21 PM

火山語音語音建模

數星星盼月亮，萬千傑迷苦等6年，不久之前終於等到週董發新專輯啦！一經上線引爆全網討論。

正當大家沉浸在對那時青蔥歲月的美好追憶時，發布爆火音頻的小夥伴表示：這段對話居然是語音合成的！

提到“語音合成”，你腦海中可能會出現這樣的種種：

• #導航中種類豐富但語氣機械的「前方路口左轉」

• 接電話時，對面笨拙無感情的「你好，這裡是xx信用卡中心」

• 影片網站上，十個解說視訊九個聲音相同，看到就想趕快劃走的「注意看，這個男人叫小帥」…...

而如今直接顛覆了許多人的刻板印象，語音合成技術已經能做到像上面那段音訊一樣完美自然的效果了。這段音訊的發布者－火山語音，位元組跳動# AI Lab Speech & Audio 智慧語音與音訊團隊，又透過兩段音訊更好地向大眾解密裡面的技術亮點。

這幾句輸入的文字完全相同，即「南方菜系偏愛蘸料，例如我第一次去上海才知道燒烤裡的蔬菜也需要配蘸料」，但合成的音訊效果卻有明顯差異，即第二段音訊源自於火山語音團隊本次上新的超自然對話語音合成技術。

回想人在日常表達時的狀態，大腦處理訊息是需要思考時間的。體現到語言上，人就會不由自主的出現一些猶豫、拖音、倒裝，甚至是說了一半改口、結巴重複的情況，也會刻意加重讀音強調想表達的重點訊息。這就帶來了大量難以觀測的細微表達。這些現像在傳統的TTS中難以被捕捉還原。而這些細微之處的完美復現正是讓聲音真假難辨的奧妙之源，也是上述音頻的奧秘所在。

具體來說，火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然，即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現，而且只需常規音庫1/4數據，就可完美還原真人說話細微的韻律特點、發音口癖，讓合成效果更加真實。 有專業評測結果顯示，火山語音的這項新技術與真人錄音對比基本沒有差距，難以被評測者分辨出來。 此外這項技術目前已在視訊配音、電話客服等多個場景投入應用，近日即將上線火山引擎語音技術官網對外露出。

這麼厲害的技術，究竟是怎麼辦到的？

據介紹，上述這些在實際交流中經常出現的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現被稱為副語言現象（paralanguage），儘管這是人腦思考、表達過程中最真實的表現，但由於傳統的語音合成技術框架無法對分佈稀疏的副語言現象進行有效建模，所以在說話時的韻律還原度表現有限、過於「正確」。

基於上述困難，火山語音超自然語音合成技術分別從文字和語音建模兩個層面進行突破，具體來說：

• 在文本層面，火山語音採用了生成式的風格遷移模型，模仿真人說話的方式對文本進行可控的口語化轉寫，讓文字更好地擁抱口語化，避免最終效果太過書面。

• #在語音層面，團隊則是透過文字分析模式的突破，在TTS的輸入側額外增加了副語言預測# ，模仿真人的發音特徵來實現自然自發的語音效果。

值得一提的是，團隊透過使用無監督特徵的TTS建模方案，有效提升了模型的穩定性與表現力，僅使用常規音庫1/4的資料規模，就可以實現十分自然多變的韻律效果，很讚吧？

僅以1/4資料量還原真人語音100%細節，火山語音上新超自然對話語音合成技術！

致力文本口語化讓「擬真人表達」躍然紙上

文字作為語音合成技術的輸入，其風格是否貼近真人的表達方式，是合成效果提升的第一步；但受限於根深蒂固的書寫用語習慣，大多數合成前的文本並不夠自然，或需要投入大量精力不斷調整，費時費力。 為了解決這類問題，火山語音團隊採用了兩階段方案並取得了不錯的效果：

• #階段一：採用自監督方法，使用偽資料對口語化模型進行預先訓練，降低了資料量的需求；同時在模型中引入了指標網路結構，增強了文字可控性。

• #階段二：利用少量優質的人工標註數據，對預訓練好的口語化模型進行微調，最終實現可控的、自然的口語化文字效果。

原文

#自動化預測後的文字

#南方菜系偏好蘸料，例如我第一次去上海才知道燒烤裡的蔬菜也需要配沾醬

嗯，南方菜系的話，超級偏好用沾醬啊什麼的，就比如說我第一次

呃，第一次

去上海的時候，才知道這個燒烤裡的蔬菜也得配著蘸料

#像我們上街去買白菜，南方人說我要半顆白菜，北方人說我來半車白菜

嗯這跟我們上街買高麗菜差不多吧，南方人說我要半棵白菜，

然後那個

北方人說我來半車

##########

其實南方菜系更偏重吃調味料的味道，即廚師用調味料去發揮他的功力

對，其實南方菜系更偏重的是吃它這個調味料的味道，也就是說，廚師這個，用調味料去發揮他的功力

副語言建模韻律多樣性可圈可點語音真實感全面升級

為了更好地還原真人，區別於傳統的語音合成技術，火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面，團隊推出的合成技術實現了聲學模型對自然表達中出現的吸氣、笑聲、猶豫、修正等多種副語言現象建模，並且結合文本的語意訊息自動插入副語言現象。在插入過程中同時考慮合理性與隨機性，表現更自然真實。

「音訊

文字

#超自然

#我覺得這樣#吸氣

其實對身體特別好。

##C.wav你看像我們現在這個工作，早上

基本上就不太吃早餐了。

「音訊 ##D.wav

###############像我們早上基本上########################就是豆漿油條包子。 ################

已音訊E.wav

#他肯定是口誤修正>，很想吃肉。

#ParalangTest_is_000008_npy_01_new2#的副本.wav

「在韻律多樣化的探究中，我們結合無監督表徵學習技術，自主研發了高表現力的聲學模型框架，透過發音、韻律、音色解耦等方式，不但降低了資料量的需求，實現對出現頻率極低發音現象的高效建模；同時使用無監督表徵特徵並結合音素級別的基頻、能量資訊等，實現了韻律的自然多變，促成高品質對話語音生成。」火山語音團隊總結。

僅以1/4資料量還原真人語音100%細節，火山語音上新超自然對話語音合成技術！