日前,火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测,产品的技术支持团队-火山语音团队提供了丰富的音库,经评测其音色MOS评分最高可达4.64分,处行业领先水平。
作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心一直致力于推动智能语音产业的健康发展。本次获得AI国检中心的权威认证,也充分表明了火山语音的语音合成技术能力已达到行业领先水平。
感受火山语音合成的效果:https://www.php.cn/link/8e0ce414531179ae9b7f60e20351ee8b
更多音色体验:https://www.php.cn/link/a1ada9947e0d683b4625f94c74104d73
长期以来,火山语音面向字节跳动各大业务线以及火山引擎ToB行业与创新场景,提供行业领先的AI语音技术能力以及卓越的全栈语音产品解决方案。目前团队的语音识别和语音合成覆盖了多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等多种应用场景,为抖音、剪映、飞书、番茄小说、Pico等核心业务提供了领先的语音能力。
据了解,本次参评的火山引擎语音合成产品为火山语音团队自主研发,使用了业内领先的生成式神经网络技术,主要由前端文本分析、声学模型、声码器三大模块构成,具体介绍如下:
火山引擎语音合成产品听感真实自然、演绎生动、风格多样,同时细粒度还原了真人韵律,实现了笑声等多种副语言现象,给人带来沉浸式的听感体验。近期火山语音团队发布的超自然对话语音合成技术既是如此,相较传统TTS将语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统完美复现,而且只需常规音库1/4数据。此外之前风靡网络的“音色复刻技术”,也出自火山语音团队之手。 不同于传统语音合成技术对于数据的高门槛要求,火山语音音色复刻技术对数据量的需求仅为传统方法的0.3%,普通人在相对安静的开放环境录制2分钟以上即可达到音色空间建模的标准,生成专属音色的AI模型,便捷又高效。
目前火山语音将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,并助力如合众汽车、追书神器等多家行业头部企业实现AI 语音能力的应用与拓展,未来火山语音将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。
以上是火山语音TTS技术实力获国检中心认证 MOS评分高达4.64的详细内容。更多信息请关注PHP中文网其他相关文章!