搜尋
首頁科技週邊人工智慧首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


自2024 年GPT-4o 出現以來,巨大投入各公司的資源進行TTS 大模型的研發。近幾個月內,中文語音合成大模型如雨後春筍般湧現,如 chattts、seedtts、cosyvoice 等。

雖然當前語音合成大模型在中文普通話上的效果已與真人幾乎無異,但面對中國紛繁複雜的方言,TTS 大模型卻鮮有涉獵,訓練一個統一的中文各方言語音合成大模型是一項極具挑戰性的任務。

產業痛點與技術瓶頸

技術目前,語音合成大模型在普通話領域已經取得了顯著進展,但在方言領域的發展卻十分緩慢。中國擁有數十種主要方言,每種方言都有獨特的語音特徵和語法結構,這使得訓練一個覆蓋各種方言的 TTS 大模型變得異常複雜。

現有的 TTS 大模型大多專注於普通話,無法滿足多樣化的語音合成需求。此外,方言語料庫的稀缺性以及高品質標註資料的匱乏,也進一步增加了技術難度。

巨人網路AI Lab 的技術創新與突破

為了解決上述難題,巨人網路AI Lab 團隊中的演算法專家和語言學家共同努力,基於中國方言體系,建構了涵蓋20 種方言、超過20 萬小時的普通話和方言資料集。透過這龐大的資料集,我們訓練出了第一個支援多種國語方言混說的 TTS 大模型 ——Bailing-TTS。 Bailing-TTS 不僅能夠產生高品質的普通話語音,還能產生包括河南話、上海話、粵語等在內的多種方言語音。

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • Homepage: //giantailab.github.io/bailingtts_tech_report/index.html
  • 論文標題:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards

以下是Bailing-TTS 河南話的合成效果:

文本1:

汴水東流無限春,隋家宮闕已成塵。行人莫上長堤望,風起楊花愁殺人。

產生語音1:
首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜文字:
文字2:

我嘞愛好也可多了,好聽豫劇,那腔調兒,聽著得勁兒嘞很。沒事嘞時候我也好出去溜達溜達,逛逛俺河南嘞大好風光。我還好搗鼓點兒吃嘞,像那燴面呀、胡辣湯呀,你別說,我自己做嗞也可像回事兒。

產生語音2:首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜
再給大家聽一下普通話零樣本複製的效果:

Prompt 1:青年-男首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜生成1:這個問題,嗯嘶,從另一個角度看,是不是對我們來說也是一件好事? 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 2:少年-男 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜生成2:嘍,明天又是週末啦,一起去看個電影吧。 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 3:老年-女 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜
生成3:說起我們以前三天的事,啊,那真是三天三夜都說不完。 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 4:幼童-女 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜產生4:哦,你說的是這個啊,這是我去海邊的時候撿到的。 首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜
我們採取了多項創新技術來實現這一目標:

1. 統一的方言Token 規範:我們將各方言的token 規範統一,並使普通話與各方言的token 有部分重疊,以利用普通話提供基礎發音能力。這使得我們能夠在有限的數據條件下,實現高品質的方言語音合成。

2. 精細化 Token 對齊技術:我們提出了基於大規模多模態預訓練的精細化 token-wise 對齊技術。

3. 層次混合專家結構:我們設計了一種層次混合專家體系結構,用於學習多個漢語方言的統一表示和每種方言的特定表示。

4. 層級強化學習增強策略:我們提出了層次化的強化學習策略,透過基礎訓練策略和高階訓練策略結合的方法,進一步增強TTS 模型的方言表達能力。

實作細節

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

                                     時中對> 🎜>1. 基於大規模多模態預訓練的精細化Token 對齊

為了實現文字和語音token 的精細化對齊,我們提出了一個多階段、多模態的預訓練學習框架。

第一階段,我們使用無監督的取樣策略,在大規模資料集上進行粗略訓練。第二階段,我們採用精細化採樣策略,在高品質的方言資料集上進行細粒度訓練。此方法能夠有效地捕捉文字和語音之間的細微關聯關係,促進兩種模態的對齊。

2. 層次混合專家Transformer 網路結構

為了訓練適用於多>為了訓練適用於多種漢語方言的統一TTS 模型,我們設計了一種層次混合專家網絡結構和多階段多方言token 學習策略。

首先,我們提出了一種專門設計的混合專家體系結構,用於學習多個漢語方言的統一表示和每種方言的特定表示。然後,我們透過基於交叉注意力的融合機制,將方言 token 注入 TTS 模型的不同層次,以提升模型的多方言表達能力。

3. 層次增強學習增強策略

我們提出了一種層次化的密集學習策略,透過採用基礎策略訓練和進階訓練策略結合的方法,進一步增強TTS 模型的方言表達能力。基礎訓練策略支持探索優質的方言語音表達,高級訓練策略在此基礎上強化不同方言的語音特色,從而實現多種方言的高品質語音合成。

                              圖2 Dialect MoE 結構

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

實驗結果Bailing-TTS 在國語、多種方言的穩健性、生成品質、自然度上已達到與真人較為接近的程度。

                      🎜>

在實際的在應用場景評測中,Baling-TTS 均取得了不錯的效果。

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

                                  🎜>

科技的落地應用與未來前景

首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜

目前,這項多方言TTS 大模型已經在多個實際場景中得到應用。例如,在遊戲中為 NPC 配音,影片創作中進行方言配音等。透過這項技術,遊戲和影片內容能夠更加貼近地域文化,提升用戶的沉浸感和體驗感。

未來,隨著端對端語音互動大模型的進一步發展,這項技術將在方言文化保護、遊戲AI NPC 方言互動等領域展現更大的潛力。在方言保護場景中,透過支持多種方言的語音交互,可以讓下一代便捷地學習、傳承、守護漢語方言,讓漢語方言文化源遠流長。在遊戲場景中,會說方言的可語音互動的智慧 NPC,將進一步提升遊戲內容的表現力。

巨人網路 AI Lab 將持續致力於推動這項技術的創新和應用,為使用者帶來更聰明、更便利的語音互動體驗。
團隊介紹

巨人 AI 實驗室成立於 2022 年,是隸屬於巨人網路的人工智慧技術應用與研究機構。致力於面向 AIGC 內容(圖像 / 文字 / 音訊視訊 / 3D 模型等)生成領域,實現內容生產創作全面智慧化,推動遊戲玩法創新。目前,實驗室已在巨人內部建構起全鏈路 AI 工業化生產管線,同時完成遊戲產業內首個垂類大模型(GiantGPT)備案,率先投入商業化應用。

以上是首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中