搜索
首页科技周边人工智能薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

论文链接:https://arxiv.org/abs/2312.03491
项目网站:https://bridge-tts.github.io/ 
代码实现:https://github.com/thu-ml/Bridge-TTS

问题背景

自 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩散模型的采样速度,如通过先验优化 [2,3,4]、模型蒸馏 [5,6]、残差预测 [7] 等方法。然而,如此项研究所示,由于扩散模型受限于「噪声到数据」的生成范式,其先验分布对生成目标提供的信息始终较为有限,对条件信息无法利用充分。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

本次语音合成领域的最新研究工作,Bridge-TTS,凭借其基于薛定谔桥的生成框架,实现了「数据到数据」的生成过程,首次将语音合成的先验信息由噪声修改为干净数据由分布修改为确定性表征

该方法的主要架构如上图所示,输入文本首先经由文本编码器提取出生成目标(mel-spectrogram, 梅尔谱)的隐空间表征。此后,与扩散模型将此信息并入噪声分布或用作条件信息不同,Bridge-TTS 的方法‍支持直接将其作为先验信息,并支持通过随机或确定性采样的方式,高质量、快速地生成目标。

工作成果

在验证语音合成质量的标准数据集 LJ-Speech 上,研究团队将 Bridge-TTS 与 9 项高质量的语音合成系统和扩散模型的加速采样方法进行了对比。如下所示,该方法在样本质量上(1000 步、50 步采样)击败了基于扩散模型的高质量 TTS 系统 [2,3,7],并在采样速度上,在无需任何后处理如额外模型蒸馏的条件下,超过了众多加速方法,如残差预测、渐进式蒸馏、以及最新的一致性蒸馏等工作 [5,6,7]。
薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战
以下是 Bridge-TTS 与基于扩散模型方法的生成效果示例,更多生成样本对比可访问项目网站:https://bridge-tts.github.io/

  • 1000 步合成效果对比

输入文本:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战
  • 4 步合成效果对比

输入文本:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,」薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战
  •  2 步合成效果对比

输入文本:「The prison population fluctuated a great deal,」薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战下面展示了 Bridge-TTS 一个在 2 步和 4 步的一个确定性合成(ODE sampling)案例。在 4 步合成中,该方法相较于扩散模型显著合成了更多样本细节,并没有噪声残留的问题。在 2 步合成中,该方法展示出了完全纯净的采样轨迹,并在每一步采样完善了更多的生成细节。
薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战
在频域中,更多的生成样本如下所示,在 1000 步合成中,该方法相较于扩散模型生成了更高质量的梅尔谱,当采样步数降到 50 步时,扩散模型已经牺牲了部分采样细节,而基于薛定谔桥的该方法仍然保持着高质量的生成效果。在 4 步和 2 步合成中,该方法不需蒸馏、多阶段训练、和对抗损失函数,仍然实现了高质量的生成效果。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

在 1000 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

在 50 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

在 4 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比
薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战
在 2 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

Bridge-TTS一经发布,凭借其在语音合成上新颖的设计与高质量的合成效果,在 Twitter 上引起了热烈关注,获得了百余次转发和数百次点赞,入选了 Huggingface 在 12.7 的 Daily Paper 并在当日获得了支持率第一名,同时在 LinkedIn、微博、知乎、小红书等多个国内外平台被关注与转发报道。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

多个外文网站也进行了报道和讨论:

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

方法介绍

薛定谔桥(Schrodinger Bridge)是一类继扩散模型之后,近期新兴的深度生成模型,在图像生成、图像翻译等领域都有了初步应用 [8,9]。不同于扩散模型在数据和高斯噪声之间建立变换过程,薛定谔桥支持任意两个边界分布之间的转换。在 Bridge-TTS 的研究中,作者们提出了基于成对数据间薛定谔桥的语音合成框架,灵活支持着多种前向过程、预测目标、及采样过程。其方法概览如下图所示:

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

  • 前向过程:此研究在强信息先验和生成目标之间搭建了一种完全可解的薛定谔桥,支持灵活的前向过程选择,如对称式噪声策略薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战、常数薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战,和非对称噪声策略: 薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战、线性薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战,以及直接与扩散模型相对应的方差保持(VP)噪声策略。该方法发现在语音合成任务中非对称噪声策略:即线性薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战(gmax)和 VP 过程,相较于对称式噪声策略有更好的生成效果。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

  • 模型训练:该方法保持了扩散模型训练过程的多个优点,如单阶段、单模型、和单损失函数等。并且其对比了多种模型参数化(Model parameterization)的方式,即网络训练目标的选择,包括噪声预测(Noise)、生成目标预测(Data)、和对应于扩散模型中流匹配技术 [10,11] 的速度预测(Velocity)等。文章发现以生成目标,即梅尔谱为网络预测目标时,可以取得相对更佳的生成效果。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

  • 采样过程:得益于该研究中薛定谔桥完全可解的形式,对薛定谔桥对应的前 - 后向 SDE 系统进行变换,作者们得到了 Bridge SDE 和 Bridge ODE 用于推断。同时,由于直接模拟 Bridge SDE/ODE 推断速度较慢,为加快采样,该研究借助了扩散模型中常用的指数积分器 [12,13],给出了薛定谔桥的一阶 SDE 与 ODE 采样形式:

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

在 1 步采样时,其一阶 SDE 与 ODE 的采样形式共同退化为网络的单步预测。同时,它们与后验采样 / 扩散模型 DDIM 采样有着密切联系,文章在附录中给出了详细分析。文章也同时给出了薛定谔桥的二阶采样 SDE 与 ODE 采样算法。作者发现,在语音合成中,其生成质量与一阶采样过程类似。

在其他任务如语音增强、语音分离、语音编辑等先验信息同样较强的任务中,作者们期待此研究也会带来较大的应用价值。

作者简介

此项研究有三位共同第一作者:陈泽华,何冠德,郑凯文,均属于清华大学计算机系朱军课题组,文章通讯作者为朱军教授,微软亚洲研究院首席研究经理谭旭为项目合作者。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

                                                             朱军教授

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

                                                              微软亚洲研究院首席研究经理谭旭

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

陈泽华是清华大学计算机系水木学者博士后,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。曾在微软、京东、TikTok 等多家公司实习,在语音和机器学习领域重要国际会议 ICML/NeurIPS/ICASSP 等发表多篇论文。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

何冠德是清华大学在读的三年级硕士生,主要研究方向是不确定性估计与生成模型,此前在 ICLR 等会议以第一作者身份发表论文。

薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战

郑凯文是清华大学在读的二年级硕士生,主要研究方向是深度生成模型的理论与算法,及其在图像、音频和 3D 生成中的应用。此前在 ICML/NeurIPS/CVPR 等顶级会议发表多篇论文,涉及了扩散模型中的流匹配和指数积分器等技术。

参考文献:
[1] Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, and Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv preprint arXiv:2312.03491, 2023.
[2] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.
[3] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, and Zhou Zhao. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism. In AAAI, 2022.
[4] Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, and Tie-Yan Liu. PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior. In ICLR, 2022.
[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, and Yi Ren. ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech. In ACM Multimedia, 2022.
[6] Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, and Yike Guo. CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model. In ACM Multimedia, 2023.
[7] Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech. arXiv preprint arXiv:2212.14518, 2022.
[8] Yuyang Shi, Valentin De Bortoli, Andrew Campbell, and Arnaud Doucet. Diffusion Schrödinger Bridge Matching. In NeurIPS 2023.
[9] Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, and Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.
[10] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow Matching for Generative Modeling. In ICLR, 2023.
[11] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs. In ICML, 2023.
[12] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.
[13] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics. In NeurIPS, 2023.

以上是薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验快手黑科技“子弹时间”赋能亚运转播,打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境