如何用紧凑型语音表征打造高性能语音合成系统-人工智能-PHP中文网

首页

科技周边

人工智能

如何用紧凑型语音表征打造高性能语音合成系统

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 am 11:10 AM

深度学习语音合成

小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器（VQ-VAE）的特征分析器采用若干码本对声学特征进行阶段式编码，形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得，并且通过神经声码器转换成目标音频。该方案，对比基于Mel-Spectrogram的Fastspeech 基线系统，音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”，并被语音领域会议 INTERSPEECH 2022 接收。

一、背景介绍

语音合成（Text-to-Speech, 简称 TTS）是把文本转化为语音的一种技术，被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括特征提取器，声学模型和声码器三部分。TTS 通常会对基于信号处理获得的声学特征（例如梅尔谱 Mel Spectrogram）进行声学建模，但受限于模型的拟合能力，预测得到的声学特征和真实数据在分布上存在一定差异，这导致在真实数据上训练的声码器难以从预测特征中生成高质量音频。

TTS 系统框架图

针对这一难题，学界使用了更为复杂的模型结构和更为新颖的生成式算法以减小预测误差和缩小分布差异。而本工作另辟蹊径，以紧凑型语音表征为出发点来考虑问题。对语音合成来说，1）声学特征良好的紧凑性能够保证更为准确的模型预测结果和更鲁棒的波形生成；2）声学特征良好的完备性能够保证更好地重构语音信号。基于这两点考虑，本文提出采用矢量量化变分自编码器（VQ-VAE）从目标数据中挖掘出一种更好的紧凑型表示。

二、表征学习 MSMC VQ-VAE

VQ-VAE 包括编码器与解码器。编码器将输入声学特征序列加工为隐序列并用相应码本进行量化。而解码器把经过量化的序列恢复为原始声学特征序列。这种量化序列作为离散化表征具有较好的紧凑性（特征参数量较少）。其中量化程度越高，即码本容量越小，特征紧凑程度就越高。但这也造成了信息压缩，使特征完备度变差。为了确保足够的完备性，一般都会使用更多的码字。但随着码本容量的增加，码本更新所需的数据量以及训练次数将呈指数级递增，这使得 VQ-VAE 难以通过增大码本来有效增强表征完备性。针对此问题，本文提出多头矢量量化（MHVQ）方法。

VQ-VAE 模型结构图

MHVQ 将单个码本按特征维度方向均分为若干个子码本。量化时还将每个输入向量相等地切割成若干个子向量，并分别用相应子码本量化，最终拼接成输出向量。这样我们就能更加有效地提高码本利用率及表征容量，而无需增加码本参数量。例如，要使压缩率减少1倍，码字本来要增加到原码本数的平方。采用 MHVQ 后，只要把码本切分成两部分就可以实现相同的压缩率。因此，本方法能够更加有效地调节量化表征的完备性。

MHVQ 示例图

另外在对语音序列进行量化时，语音特征中蕴含的各类信息都有不同程度地丢失。这些信息在时间粒度上是不一样的，如粗粒度的音色，发音风格等，以及细粒度的音调，发音细节等。在任何时间尺度上过度压缩信息都可能使语音质量遭到一定程度的破坏。为了缓解这一问题，本工作提出了一种多时间尺度的语音建模方法。如图所示，声学特征序列通过若干个编码器将声学特征序列阶段式编码至不同时间尺度，然后再通过解码器端逐层量化，解码得到若干个具有不同时间分辨率的量化序列。这类序列集合构成的表征，即为本工作提出的多阶段多码本表征。

多阶段建模示例图

三、声学建模 MSMC-TTS

针对多阶段多码本表征 MSMCR ，本论文提出了相应的 TTS 系统，即 MSMC-TTS 系统。系统包括分析、合成和预测3个部分。在系统训练中，该系统先对分析模块进行训练。训练集中的音频经过信号处理后转化为高完备性声学特征（如本次工作中用到的 Mel-Spectrogram 特征）。利用这些声学特征对基于 MSMC-VQ-VAE 的特征分析器进行训练，训练结束时将其转化为相应的MSMCR，再对声学模型及神经声码器进行训练。解码过程中，该系统利用声学模型从文本中预测 MSMCR，然后利用神经声码器产生目标音频。

MSMC-TTS 系统框架图

本工作还提出一种多阶段预测器来适配 MSMCR 建模。该模型是以 FastSpeech 为基础实现的，但在解码器端有所不同。该模型首先对文本进行编码，并根据预测时长信息对文本上采样。然后再将序列降采样至 MSMCR 对应的各个时间分辨率。这些序列将由不同解码器由低分辨率向高分辨率逐级解码量化。同时将低分辨率量化序列发送给下一阶段的解码器以协助预测。最后将预测所得 MSMCR 送入神经声码器中产生目标音频。

多阶段预测器结构图

对多阶段预测器进行训练与推断时，本工作选择直接在连续空间预测目标表征。这种方法能较好地顾及向量间及码字间在线性连续空间上的距离关系。训练准则除了采用常用于 TTS 建模的 MSE 损失函数外，还使用了 “triplet loss” 以迫使预测向量远离非目标码字并靠近目标码字。通过将两种损失函数项组合，该模型能够更好地预测目标码字。

四、实验效果

本工作在公开的英文单说话人数据集 Nancy (Blizzard Challenge 2011) 上进行实验。我们组织了主观意见得分测试（MOS）对 MSMC-TTS 合成效果进行评价。实验结果显示：原始录音为 4.50 分的情况下, MSMC-TTS 的得分为 4.41分，基线系统 Mel-FS（Mel-Spectrogram based FastSpeech）为 3.62 分。我们对基线系统的声码器进行调优，使之与Mel-FS输出特征相适配，结果为 3.69 分。该对比结果证明了文中所提方法对 TTS 系统的显著改进作用。

另外我们还进一步讨论了建模复杂度对于 TTS 的性能影响。由 M1 至 M3 模型参数量呈倍数下降, Mel-FS 合成效果降至 1.86 分。反观 MSMC-TTS, 参数量减少并未对合成质量造成显著的影响。当声学模型参数量为 3.12 MB 时, MOS 仍可保持 4.47 分。这既证明了以紧凑型特征为基础的 MSMC-TTS 建模复杂度需求较低，同时也展示了该方法应用于轻量级 TTS 系统的潜力。

最后我们在不同 MSMCR 基础上进行了 MSMC-TTS 比较，以探讨 MHVQ 与多阶段建模对 TTS 的影响。其中 V1 系统采用单阶段单码本的表征, V2 系统基于 V1 采用 4-head 矢量量化, V3 系统则基于 V2 采用两阶段建模。首先，V1 系统使用的表征拥有最高的特征压缩比，但在分析合成实验中表现出最低的完备性，同时在 TTS 实验中表现出最差的合成质量。经过 MHVQ 增强完备性, V2 系统在 TTS 效果上也得到了明显提升。V3 所使用的的多阶段表征虽然没有展现进一步完备性的提升，但是在 TTS 上展现出了最佳的效果，无论是韵律自然度还是音频质量均有明显改善。这进一步表明多阶段建模、多尺度信息保留在MSMC-TTS 中具有重要意义。

五、总结

该工作从研究紧凑型语音表征角度出发，提出一套新的高性能 TTS（MSMC-TTS）建模方法。该系统从音频中提取多阶段多码本表征，以代替传统声学特征。输入文本可被多阶段预测器转换为这种由多个时间分辨率不同的序列组成的语音表征，并通过神经声码器转换到目标语音信号。实验结果表明，相较于主流的基于 Mel-Spectrogram 的 FastSpeech 系统，该系统展示出了更优秀的合成质量，以及对建模复杂度更低的要求。

六、作者信息

郭浩瀚：小红书多媒体智能算法团队实习生。本硕毕业于西北工业大学，期间在 ASLP 实验室学习，师从谢磊教授。现博士就读于香港中文大学 HCCL 实验室，师从蒙美玲教授。迄今为止，作为一作，先后在 ICASSP、INTERSPEECH、SLT 国际语音会议上发表论文六篇。

解奉龙：小红书多媒体智能算法团队语音技术负责人。曾在ICASSP、INTERSPEECH、SPEECHCOM等语音领域会议及期刊发表论文十余篇，长期担任ICASSP、INTERSPEECH等主要语音会议的审稿人，主要研究方向为语音信号处理与建模。

以上是如何用紧凑型语音表征打造高性能语音合成系统的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

META的新AI助手：生产力助推器还是时间下沉？May 01, 2025 am 11:18 AM

Meta携手Nvidia、IBM和Dell等合作伙伴，拓展了Llama Stack的企业级部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，并启动了Llama Defenders计划，以增强AI安全性。此外，Meta还向10个全球机构（包括致力于改善公共服务、医疗保健和教育的初创企业）发放了总额150万美元的Llama Impact Grants。由Llama 4驱动的全新Meta AI应用，被设想为Meta AI

80％的Zers将嫁给AI：研究May 01, 2025 am 11:17 AM

公司开创性的人类互动公司Joi AI介绍了“ AI-Iatsionship”一词来描述这些不断发展的关系。 Joi AI的关系治疗师Jaime Bronstein澄清说，这并不是要取代人类C

AI使互联网的机器人问题变得更糟。这家耗资20亿美元的创业公司在前线May 01, 2025 am 11:16 AM

在线欺诈和机器人攻击对企业构成了重大挑战。零售商与机器人ho积产品，银行战斗帐户收购和社交媒体平台与模仿者的斗争。 AI的兴起加剧了这个问题，Rende

卖给机器人：将创造或破坏业务的营销革命May 01, 2025 am 11:15 AM

AI代理人有望彻底改变营销，并可能超过以前技术转变的影响。这些代理代表了生成AI的重大进步，不仅是处理诸如chatgpt之类的处理信息，而且还采取了Actio

计算机视觉技术如何改变NBA季后赛主持人May 01, 2025 am 11:14 AM

人工智能对关键NBA游戏4决策的影响两场关键游戏4 NBA对决展示了AI在主持仪式中改变游戏规则的角色。首先，丹佛的尼古拉·乔基奇（Nikola Jokic）错过了三分球，导致亚伦·戈登（Aaron Gordon）的最后一秒钟。索尼的鹰

AI如何加速再生医学的未来May 01, 2025 am 11:13 AM

传统上，扩大重生医学专业知识在全球范围内要求广泛的旅行，动手培训和多年指导。现在，AI正在改变这一景观，克服地理局限性并通过EN加速进步

Intel Foundry Direct Connect 2025的关键要点May 01, 2025 am 11:12 AM

英特尔正努力使其制造工艺重回领先地位，同时努力吸引无晶圆厂半导体客户在其晶圆厂制造芯片。为此，英特尔必须在业界建立更多信任，不仅要证明其工艺的竞争力，还要证明合作伙伴能够以熟悉且成熟的工作流程、一致且高可靠性地制造芯片。今天我听到的一切都让我相信英特尔正在朝着这个目标前进。新任首席执行官谭立柏的主题演讲拉开了当天的序幕。谭立柏直率而简洁。他概述了英特尔代工服务的若干挑战，以及公司为应对这些挑战、为英特尔代工服务的未来规划成功路线而采取的措施。谭立柏谈到了英特尔代工服务正在实施的流程，以更以客