首頁  >  文章  >  科技週邊  >  火山語音TTS技術實力獲國檢中心認證 MOS評分高達4.64

火山語音TTS技術實力獲國檢中心認證 MOS評分高達4.64

王林
王林轉載
2023-04-12 10:40:051250瀏覽

日前,火山引擎語音合成產品獲得國家語音及影像辨識產品品質檢驗偵測中心(以下簡稱「AI國檢中心」)頒發的語音合成增強檢驗偵測證書,在語音合成的基本要求以及擴展要求上已達AI國檢中心的最高等級標準。本評測從中文普通話、多方言、多語種、混合語種、多音色、個性化等維度進行評測,產品的技術支援團隊-火山語音團隊提供了豐富的音庫,經評測其音色MOS評分最高可達4.64分,處業界領先水準。

火山語音TTS技術實力獲國檢中心認證 MOS評分高達4.64

作為我國質檢系統在人工智慧領域的首家、也是唯一的國家級語音及影像產品質量檢驗檢測機構,AI 國檢中心一直致力於推動智慧語音產業的健康發展。本次獲得AI國檢中心的權威認證,也充分證明了火山語音的語音合成技術能力已達到業界領先水準。

感受火山語音合成的效果:#https://www.php. cn/link/8e0ce414531179ae9b7f60e20351ee8b

##更多音色體驗:#更多音色體驗:

#更多音色體驗:

  • #更多音色體驗:
  • #https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73
  • #長期以來,火山語音面向位元組跳動各大業務線以及跳動各大業務線以及跳動火山引擎ToB產業與創新場景,提供業界領先的AI語音技術能力以及卓越的全端語音產品解決方案。目前團隊的語音辨識和語音合成涵蓋了多種語言和方言,涵蓋影音、有聲閱讀、語音互動、遊戲、廣告等多種應用場景,為抖音、剪映、飛書、番茄小說、Pico等核心業務提供了領先的語音能力。
據了解,本次參評的火山引擎語音合成產品

為火山語音團隊自主研發,使用了業界領先的生成式神經網路技術,主要由前端文本分析、聲學模型、聲碼器三大模組構成,具體介紹如下:前端文本分析:主要負責可懂度,例如文本正則化(例如將數字轉成年份讀、號碼讀等)、字音轉換(例如中文註音,尤其是解決多音字問題)以及分詞和韻律預測等。 目前火山語音團隊依托多任務模型及神經網路正規化,可做到同時支援12種主流小語種,效果顯著。

###聲學模型:主要負責語言學特徵到聲學特徵的建模。數據顯示,火山語音TTS的###後端準確率可達99.90%。同時,模型也能支援多情感多風格的精細化控制、不同音色之間的風格互相遷移、以及僅用單一語種的訓練資料實現多語種合成效果。 ###############聲碼器模組:主要負責聲學特徵到音訊訊號的建模。現今火山語音團隊自研了基於對抗神經網路建模的聲碼器,其###準確率可達99.95%,依託於輕量化的模型設計及工程優化,雲端即時率可達百倍以上。 ##################火山引擎語音合成產品聽感真實自然、演繹生動、風格多樣,同時細粒度還原了真人韻律,實現了笑聲等多種副語言現象,帶給人沉浸式的聽感體驗。近期###火山語音團隊發布的超自然對話語音合成技術既是如此,相較傳統TTS將語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統完美復現,而且只需常規音庫1/4數據。 ###此外之前風靡網路的###“音色復刻技術”,也出自火山語音團隊之手。 ### 不同於傳統語音合成技術對於數據的高門檻要求,火山語音音色復刻技術對###數據量的需求僅為傳統方法的0.3%###,###普通人在相對安靜的開放環境錄製2分鐘以上###即可達到音色空間建模的標準,產生專屬音色的AI模型,便利又有效率。 ######

目前火山語音將打磨多年的語音技術能力面向市場並透過火山引擎開放給外部企業,已涵蓋汽車、金融、有聲閱讀、視訊配音等眾多應用場景,並助力如合眾汽車、追書神器等多家行業頭部企業實現AI 語音能力的應用與拓展,未來火山語音將不斷探索前沿科技與業務場景的高效結合,持續為用戶體驗和業務增長注入創新勢能,以實現更大價值。

以上是火山語音TTS技術實力獲國檢中心認證 MOS評分高達4.64的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除