搜尋
首頁科技週邊人工智慧薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

近日,由清華大學計算機系朱軍教授課題組發布的基於薛定諤橋的語音合成系統[1],憑藉其“數據到數據”的生成範式,在樣本質量和採樣速度兩方面,均擊敗了擴散模型的「雜訊到資料」範式。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

論文連結:https://arxiv.org/abs/2312.03491
計畫網站:https://bridge-tts.github.io/
程式碼實作:https://github.com/thu-ml/Bridge-TTS

問題背景

自2021 年起,擴散模型(diffusion models)開始成為文字轉語音合成(text-to-speech, TTS)領域的核心生成方法之一,如華為諾亞方舟實驗室提出的Grad-TTS [2]、浙江大學提出的DiffSinger [3] 等方法均實現了較高的生成品質。此後,又有許多研究工作有效提升了擴散模型的採樣速度,如透過先驗優化 [2,3,4]、模型蒸餾 [5,6]、殘差預測 [7] 等方法。然而,如此項研究所示,由於擴散模型受限於「雜訊到資料」的生成範式,其先驗分佈對產生目標提供的資訊始終較為有限,且對條件資訊無法利用充分。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

本次語音合成領域的最新研究工作,Bridge-TTS,憑藉其基於薛定諤橋的生成框架,實現了“數據到數據”的生成過程,首次將語音合成的先驗資訊由雜訊修改為乾淨資料由分佈修改為確定性表徵

此方法的主要架構如上圖所示,輸入文字首先經由文字編碼器擷取出生成目標(mel-spectrogram, 梅爾譜)的隱空間表徵。此後,與擴散模型將此信息併入噪聲分佈或用作條件信息不同,Bridge-TTS 的方法‍支持直接將其作為先驗信息,並支持通過隨機或確定性採樣的方式,高質量、快速地生成目標。

工作成果

在驗證語音合成品質的在標準資料集LJ-Speech 上,研究團隊將 Bridge-TTS 與9 項高品質的語音合成系統和擴散模型的加速採樣方法進行了比較。如下所示,該方法在樣本品質上(1000 步、50 步採樣)擊敗了基於擴散模型的高品質TTS 系統[2,3,7],並在採樣速度上,在無需任何後處理如額外模型蒸餾的條件下,超過了眾多加速方法,如殘差預測、漸進式蒸餾、以及最新的一致性蒸餾等工作[5,6,7]。
薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰
以下是Bridge-TTS 與基於擴散模型方法的產生效果範例,更多產生樣本比較可存取專案網站:https://bridge-tts.github. io/

  • 1000 步驟合成效果比較

輸入文字:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰
  • 4 步驟合成效果比較

#輸入文字:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,”薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰
  •  2# 步合成效果比較

輸入文字:「The prison population fluctuated a great deal,」薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰下面展示了Bridge- TTS 一個在2 步和4 步的一個確定性合成(ODE sampling)案例。在 4 步驟合成中,此方法相較於擴散模型顯著合成了更多樣本細節,並沒有雜訊殘留的問題。在 2 步驟合成中,該方法展示了完全純淨的採樣軌跡,並在每一步中採樣完善了更多的生成細節。
薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰
在頻域中,更多的生成樣本如下所示,在1000 步合成中,該方法相較於擴散模型產生了更高品質的梅爾譜,當取樣步數降到50 步時,擴散模型已經犧牲了部分取樣細節,而基於薛丁格橋的方法仍保持著高品質的生成效果。在 4 步和 2 步合成中,該方法不需要蒸餾、多階段訓練、和對抗損失函數,仍然實現了高品質的生成效果。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

在1000 步驟合成中,Bridge-TTS與基於擴散模型的方法的梅爾譜對比

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

在50 步驟合成中,Bridge-TTS與基於擴散模型的方法的梅爾譜對比

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

在4 步驟合成中,Bridge-TTS與基於擴散模型的方法的梅爾譜對比
薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰
在2 步驟合成中,Bridge-TTS與基於擴散模型的方法的梅爾譜對比

Bridge-TTS一經發布,憑藉其在語音合成上新穎的設計與高品質的合成效果,在Twitter 上引起了熱烈關注,獲得了百餘次轉發和數百次點贊,入選了Huggingface 在12.7 的Daily Paper 並在當日獲得了支持率第一名,同時在LinkedIn、微博、知乎、小紅書等多個國內外平台被關注與轉發報道。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

多個外文網站也進行了報告和討論:

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

方法介紹

薛丁格橋(Schrodinger Bridge)是一類繼擴散模型之後,近期新興的深度生成模型,在影像生成、影像翻譯等領域都有了初步應用[8,9]。不同於擴散模型在資料和高斯雜訊之間建立變換過程,薛丁格橋支援任兩個邊界分佈之間的轉換。在 Bridge-TTS 的研究中,作者們提出了一個基於成對資料間薛定諤的語音合成框架,靈活支持多種前向過程、預測目標、及取樣過程。其方法概覽如下圖所示:

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

  • #前向過程:此研究在強資訊先驗與產生目標之間搭建了完全可解的薛丁格橋,支援靈活的前向過程選擇,如對稱噪音策略薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰、常數薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰,和非對稱噪音策略: 薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰、線性薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰,以及直接與擴散模型相對應的方差保持(VP)雜訊策略。此方法發現在語音合成任務中非對稱噪音策略:即線性薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰(gmax)和 VP 過程,相較於對稱式噪音策略有較好的生成效果。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

  • 模型訓練:此方法維持了擴散模型訓練過程的多個優點,如單一階段、單一模型、和單一損失函數等。並且其對比了多種模型參數化(Model parameterization)的方式,即網路訓練目標的選擇,包括噪音預測(Noise)、生成目標預測(Data)、和對應於擴散模型中流匹配技術[10,11]的速度預測(Velocity)等。文章發現以產生目標,即梅爾譜為網路預測目標時,可以達到相對較佳的生成效果。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

  • #取樣過程:得益於本研究中薛丁格橋完全可解的形式,對薛丁格橋對應的前- 後向SDE 系統進行變換,作者們得到了Bridge SDE 和Bridge ODE 用於推斷。同時,由於直接模擬Bridge SDE/ODE 推斷速度較慢,為加快採樣,該研究借助了擴散模型中常用的指數積分器[12,13],給出了薛定諤橋的一階SDE 與ODE 採樣形式:

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

在1 步驟取樣時,其一階SDE 與ODE 的取樣形式共同退化為網路的單步預測。同時,它們與後驗採樣 / 擴散模型 DDIM 採樣有著密切聯繫,文章在附錄中給出了詳細分析。文章也同時給出了薛丁格橋的二階採樣 SDE 與 ODE 採樣演算法。作者發現,在語音合成中,其生成品質與一階取樣過程類似。

在其他任務如語音增強、語音分離、語音編輯等先驗資訊同樣較強的任務中,作者們期待此研究也會帶來較大的應用價值。

作者簡介

#此項研究有三位共同第一作者:陳澤華,何冠德,鄭凱文,皆屬於清華大學電腦系朱軍課題組,文章通訊作者為朱軍教授,微軟亞洲研究院首席研究經理旭譚為計畫合作者。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

                                     

#                                               

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

陳澤華是清華大學電腦系水木學者博士後,主要研究方向為機率生成模型,及其在語音、音效、生物電訊號合成等方面的應用。曾在微軟、京東、TikTok 等多家公司實習,並在語音與機器學習領域重要國際會議 ICML/NeurIPS/ICASSP 等發表多篇論文。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

何冠德是清華大學在學的三年級碩士生,主要研究方向是不確定性估計與生成模型,此前在ICLR 等會議以第一作者身份發表論文。

薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰

鄭凱文是清華大學在學的二年級碩士生,主要研究方向是深度生成模型的理論與演算法,及其在圖像、音訊和 3D 生成中的應用。先前在 ICML/NeurIPS/CVPR 等頂級會議發表多篇論文,涉及了擴散模型中的流匹配和指數積分器等技術。

參考文獻:
#[1] Zehua Chen, Guande He , Kaiwen Zheng, Xu Tan, and Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv preprint arXiv:2312.03491, 2023.
[2] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.
[3] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, and Zhou Zhao. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism. In AAAI, 2022.
################################### # ###########[4] Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, and Tie-Yan Liu. PriorGrad : Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior. In ICLR, 2022.###################[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jing####[5] Rongjie 漢, Chenye Cui, and Yi Ren. ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech. In ACM Multimedia, 2022.##################[6 ] Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, and Yike Guo. CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model. In ACM Multimedia, 2023.########## ########[7] Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech. arXiv preprint arXiv:2212.14518, 2022.##################[8] Yuyang Shi, Valentin De Borang Shi, Valentin De Borang, Andrew### , and Arnaud Doucet. Diffusion Schrödinger Bridge Matching. In NeurIPS 2023.##################[9] Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A . Theodorou, Weili Nie, and Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.###################[10] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow Matching for Generative Modeling. In ICLR, 2023.##################[11] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs. In ICML, 2023.##################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu, Yuhao################[12] Cheng Lu、 Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.############ ######[13] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics. In NeurIPS, 2023.######## #

以上是薛丁格橋輔助,清華朱軍團隊開發新型語音合成系統應對擴散挑戰的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具