
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
ArXiv: https://arxiv.org/pdf/2408.00284 Homepage: //giantailab.github.io/bailingtts_tech_report/index.html 論文標題:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards
以下是Bailing-TTS 河南話的合成效果:
文本1:
汴水東流無限春,隋家宮闕已成塵。行人莫上長堤望,風起楊花愁殺人。
產生語音1:

我嘞愛好也可多了,好聽豫劇,那腔調兒,聽著得勁兒嘞很。沒事嘞時候我也好出去溜達溜達,逛逛俺河南嘞大好風光。我還好搗鼓點兒吃嘞,像那燴面呀、胡辣湯呀,你別說,我自己做嗞也可像回事兒。









第一階段,我們使用無監督的取樣策略,在大規模資料集上進行粗略訓練。第二階段,我們採用精細化採樣策略,在高品質的方言資料集上進行細粒度訓練。此方法能夠有效地捕捉文字和語音之間的細微關聯關係,促進兩種模態的對齊。
首先,我們提出了一種專門設計的混合專家體系結構,用於學習多個漢語方言的統一表示和每種方言的特定表示。然後,我們透過基於交叉注意力的融合機制,將方言 token 注入 TTS 模型的不同層次,以提升模型的多方言表達能力。
🎜>
在實際的在應用場景評測中,Baling-TTS 均取得了不錯的效果。🎜>
科技的落地應用與未來前景目前,這項多方言TTS 大模型已經在多個實際場景中得到應用。例如,在遊戲中為 NPC 配音,影片創作中進行方言配音等。透過這項技術,遊戲和影片內容能夠更加貼近地域文化,提升用戶的沉浸感和體驗感。
巨人 AI 實驗室成立於 2022 年,是隸屬於巨人網路的人工智慧技術應用與研究機構。致力於面向 AIGC 內容(圖像 / 文字 / 音訊視訊 / 3D 模型等)生成領域,實現內容生產創作全面智慧化,推動遊戲玩法創新。目前,實驗室已在巨人內部建構起全鏈路 AI 工業化生產管線,同時完成遊戲產業內首個垂類大模型(GiantGPT)備案,率先投入商業化應用。
以上是首個支持國語和方言混說的TTS大模型:河南話、上海話、粵語說得溜的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中