搜尋
首頁科技週邊人工智慧僅以1/4資料量還原真人語音100%細節,火山語音上新超自然對話語音合成技術!

數星星盼月亮,萬千傑迷苦等6年,不久之前終於等到週董發新專輯啦!一經上線引爆全網討論。

正當大家沉浸在對那時青蔥歲月的美好追憶時,發布爆火音頻的小夥伴表示:這段對話居然是語音合成的!

提到“語音合成”,你腦海中可能會出現這樣的種種:

•         #導航中種類豐富但語氣機械的「前方路口左轉」

•       接電話時,對面笨拙無感情的「你好,這裡是xx信用卡中心」

•       影片網站上,十個解說視訊九個聲音相同,看到就想趕快劃走的「注意看,這個男人叫小帥」…...

而如今直接顛覆了許多人的刻板印象,語音合成技術已經能做到像上面那段音訊一樣完美自然的效果了。這段音訊的發布者-火山語音,位元組跳動# AI Lab Speech & Audio 智慧語音與音訊團隊,又透過兩段音訊更好地向大眾解密裡面的技術亮點。

這幾句輸入的文字完全相同,即「南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤裡的蔬菜也需要配蘸料」 ,但合成的音訊效果卻有明顯差異,即第二段音訊源自於火山語音團隊本次上新的超自然對話語音合成技術。

回想人在日常表達時的狀態,大腦處理訊息是需要思考時間的。體現到語言上,人就會不由自主的出現一些猶豫、拖音、倒裝,甚至是說了一半改口、結巴重複的情況,也會刻意加重讀音強調想表達的重點訊息。這就帶來了大量難以觀測的細微表達。這些現像在傳統的TTS中難以被捕捉還原。而這些細微之處的完美復現正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來說,火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現,而且只需常規音庫1/4數據,就可完美還原真人說話細微的韻律特點、發音口癖,讓合成效果更加真實。 有專業評測結果顯示,火山語音的這項新技術與真人錄音對比基本沒有差距,難以被評測者分辨出來。 此外這項技術目前已在視訊配音、電話客服等多個場景投入應用,近日即將上線火山引擎語音技術官網對外露出。

這麼厲害的技術,究竟是怎麼辦到的?

據介紹,上述這些在實際交流中經常出現的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現被稱為副語言現象(paralanguage),儘管這是人腦思考、表達過程中最真實的表現,但由於傳統的語音合成技術框架無法對分佈稀疏的副語言現象進行有效建模,所以在說話時的韻律還原度表現有限、過於「正確」。

基於上述困難,火山語音超自然語音合成技術分別從文字語音建模兩個層面進行突破,具體來說:

•       在文本層面,火山語音採用了生成式的風格遷移模型,模仿真人說話的方式對文本進行可控的口語化轉寫,讓文字更好地擁抱口語化,避免最終效果太過書面。

•       #在語音層面,團隊則是透過文字分析模式的突破,在TTS的輸入側額外增加了副語言預測# ,模仿真人的發音特徵來實現自然自發的語音效果。

值得一提的是,團隊透過使用無監督特徵的TTS建模方案,有效提升了模型的穩定性與表現力,僅使用常規音庫1/4的資料規模,就可以實現十分自然多變的韻律效果,很讚吧?

僅以1/4資料量還原真人語音100%細節,火山語音上新超自然對話語音合成技術!

致力文本口語化 讓「擬真人表達」躍然紙上

文字作為語音合成技術的輸入,其風格是否貼近真人的表達方式,是合成效果提升的第一步;但受限於根深蒂固的書寫用語習慣,大多數合成前的文本並不夠自然,或需要投入大量精力不斷調整,費時費力。 為了解決這類問題,火山語音團隊採用了兩階段方案並取得了不錯的效果:

•       #階段一:採用自監督方法,使用偽資料對口語化模型進行預先訓練,降低了資料量的需求;同時在模型中引入了指標網路結構,增強了文字可控性。

•       #階段二:利用少量優質的人工標註數據,對預訓練好的口語化模型進行微調,最終實現可控的、自然的口語化文字效果。


原文



#自動化預測後的文字



#南方菜系偏好蘸料,例如我第一次去上海才知道燒烤裡的蔬菜也需要配沾醬




嗯, 南方菜系的話,超級偏好用沾醬啊什麼的就比如說我第一次

呃,第一次

去上海的時候,才知道這個燒烤裡的蔬菜也得配著蘸料


#像我們上街去買白菜,南方人說我要半顆白菜,北方人說我來半車白菜


嗯這跟我們上街買高麗菜差不多吧,南方人說我要半棵白菜,

然後那個

北方人說我來半車


##########

其實南方菜系更偏重吃調味料的味道,即廚師用調味料去發揮他的功力



對,其實南方菜系更偏重的是吃它這個調味料的味道,也就是說,廚師這個,用調味料去發揮他的功力


#

副語言建模韻律多樣性可圈可點   語音真實感全面升級

為了更好地還原真人,區別於傳統的語音合成技術,火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面,團隊推出的合成技術實現了聲學模型對自然表達中出現的吸氣、笑聲、猶豫、修正等多種副語言現象建模,並且結合文本的語意訊息自動插入副語言現象。在插入過程中同時考慮合理性與隨機性,表現更自然真實。

「音訊


文字



#超自然



#我覺得這樣#吸氣


>


其實對身體特別好。



##C.wav你看像我們現在這個工作,早上


#>


基本上就不太吃早餐了。


「音訊 ##D.wav


###############像我們早上基本上########################就是豆漿油條包子。 ################


已音訊E.wav



#他肯定是 口誤修正>,很想吃肉。



#ParalangTest_is_000008_npy_01_new2#的副本.wav


在韻律多樣化的探究中,我們結合無監督表徵學習技術,自主研發了高表現力的聲學模型框架,透過發音、韻律、音色解耦等方式,不但降低了資料量的需求,實現對出現頻率極低發音現象的高效建模;同時使用無監督表徵特徵並結合音素級別的基頻、能量資訊等,實現了韻律的自然多變,促成高品質對話語音生成。」火山語音團隊總結。

僅以1/4資料量還原真人語音100%細節,火山語音上新超自然對話語音合成技術!

火山語音,位元組跳動AI Lab Speech&Audio智慧語音與音訊團隊,長期以來面向抖音、剪映、番茄小說、飛書等業務提供領先的AI語音技術能力及全端語音產品解決方案,並透過火山引擎向外部企業開放技術服務。


#

以上是僅以1/4資料量還原真人語音100%細節,火山語音上新超自然對話語音合成技術!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)