搜索
首页科技周边人工智能全抖音都在说家乡话,两项关键技术助你'听懂”各地方言

国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。

这场“各地方言大赏”能够在网络上迅速走红,离不开抖音新推出的地方方言自动翻译功能的功劳。创作者们在录制家乡话的短视频时,使用了“自动字幕”功能,并选择了“转为普通话字幕”,这样就能够自动识别视频中的方言语音,并将方言内容转化为普通话字幕,让其他地区的网友也能轻松听懂各种“加密型国语”。福建的网友亲自测试后表示,就连“十里不同音”的闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方语也能被准确翻译,大呼“闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方语在抖音上为所欲为的日子一去不复返了”

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

众所周知,语音识别和机器翻译的模型训练需要大量的训练数据,但方言作为口语流传,可用于模型训练的方言语料数据很少,那么,为这项功能提供技术支持的火山引擎技术团队是如何突破的呢?

方言识别阶段

一直以来,火山语音团队都为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案,简单来说就是可以自动将视频中的语音和歌词转化成文字,来辅助视频创作的功能。

在这个过程中,技术团队发现,对于人工标注的有监督数据,传统的有监督学习会产生严重依赖。特别是在大语种的持续优化和小语种的冷启动方面。以中文普通话和英语这样的大语种为例,虽然视频平台提供了丰富的业务场景语音数据,但是一旦有监督数据达到一定规模,继续进行标注的回报将非常低。因此,技术人员必然需要思考如何有效利用百万小时级别的无标注数据,来进一步改善大语种语音识别的效果

相对小众的语言或者方言,由于资源、人力等原因,数据的标注成本高昂。在标注数据极少的情况下(10小时量级),有监督训练的效果非常差,甚至可能无法正常收敛;而采购的数据往往和目标场景不匹配,无法满足业务的需要。

对此,团队采用了以下方案:

  1. 低资源方言自监督

基于Wav2vec 2.0自监督学习技术,我们团队提出了Efficient Wav2vec,以实现在极少标注数据条件下的方言ASR能力。为了解决Wav2vec2.0训练速度慢、效果不稳定的问题,我们采取了两个方面的改进措施。首先,我们使用filterbank特征替代waveform,以降低计算量、缩短序列长度,并同时降低帧率,从而实现训练效率翻倍。其次,我们通过等长数据流和自适应连续mask的方法,大幅改善了训练的稳定性和效果

该实验使用了5万小时无标注语音和10小时标注语音,在为了保持原意不变,需要将内容改写为粤语。 上进行。结果如下表所示,相比Wav2vec 2.0,Efficient Wav2vec (w2v-e)在100M和300M参数量的模型下,CER相对下降了5%,同时训练开销减半

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

进一步,团队使用自我监督预训练模型微调得到的CTC模型作为种子模型,对无标注数据进行伪标签打上,然后将其提供给一个参数较少的端到端LAS模型进行训练。这样做既实现了模型结构的迁移,又压缩了推理计算量,可以直接在成熟的端到端推理引擎上部署和上线。这项技术已成功应用于两个低资源方言,仅使用10小时的标注数据就实现了低于20%的字错误率

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

重写后的内容:对比图表:模型参数量和CER

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

图说:基于无监督训练ASR的落地流程

  1. 方言大规模pretrain+finetune训练模式

在监督数据标注完成后,持续优化ASR模型成为一个重要的研究方向。在过去的一段时间里,半监督或无监督学习一直非常热门。无监督预训练的主要思想是充分利用未标记的数据集来扩充已标记的数据集,从而在处理少量数据时取得较好的识别效果。以下是算法流程:

(1)首先,我们需要利用有监督数据进行人工标注,训练出种子模型。然后,利用该模型对未标注的数据进行伪标签标记

(2)在伪标签生成过程中,由于种子模型对未标记数据的所有预测都不可能都是准确的,因此需要利用一些策略过率训练价值低的数据。

(3)接下来,需要将生成的伪标签与原始的标记数据结合起来,并在合并后的数据上进行联合训练

重写后的内容: (4)由于在训练过程中加入了大量的无监督数据,即使无监督数据的伪标签质量不及有监督数据,但往往能够得到比较通用的表征。我们使用基于大数据训练得到的预训练模型,对人工精标的方言数据进行微调。这样可以保留预训练模型带来的优秀泛化性能,同时提升模型对方言的识别效果

将5个方言的平均CER(字错误率)从需要重新写的内容是:35.3%优化到17.21%。重新写成:将五种方言的平均CER(字错误率)从需要重新写的内容是:35.3%优化到17.21%


平均字错误率需要进行重写

为了保持原意不变,需要将内容改写为粤语。

闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方

重写内容为:北京

中原官话

需要重写的内容是:西南官话

单方言

需要重新写的内容是:35.3

14.05

48.87

41.29

61.56

10.7

需要进行改写的内容是:100wh预训练+方言混合微调

17.21

13.14

需要重写的内容是:22.84

需要重写的是:19.60

19.50

10.95

方言翻译阶段

在通常情况下,机器翻译模型的训练需要大量语料的支持。然而,方言通常以口语形式传播,而现今方言使用者的数量逐年减少。这些现象都增加了方言语料数据收集的难度,从而使方言的机器翻译效果难以提升

为了解决方言语料不足的问题,火山翻译团队提出多语言翻译模型 mRASP (multilingual Random Aligned Substitution Pre-training)和 mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,充分利用语料,来学习更好的语言无关表示,由此提升多语言翻译性能。

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

论文地址:https://arxiv.org/abs/2105.09501

加入对比学习任务的设计是基于一个经典的假设:不同语言中同义句的编码后的表示应当在高维空间的相邻位置。因为不同语言中的同义句对应的句意是相同的,也就是“编码”过程的输出是相同的。比如“早上好”和“Good morning”这两句话对于懂中文和英文的人来说,理解到的意思是一样的,这也就对应了“编码后的表示在高维空间的相邻位置”。

重新设计训练目标

mRASP2在传统的交叉熵损失 (cross entropy loss) 的基础上,加入了对比损失 (contrastive loss) ,以多任务形式进行训练。图中橙色的箭头指示的是传统使用交叉熵损失 (Cross Entropy Loss, CE loss) 训练机器翻译的部分;黑色的部分指示的是对比损失 (Contrastive Loss, CTR loss) 对应的部分。

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

词对齐数据增强方法又称对齐增强(Aligned Augmentation, AA),是从mRASP的随机对齐变换(Random Aligned Substitution, RAS)方法发展而来的。

全抖音都在说家乡话,两项关键技术助你听懂”各地方言

重写后的内容如下:根据图示,图(a)展示了对平行语料的增强过程,图(b)展示了对单语语料的增强过程。在图(a)中,原本的英语单词被替换为相应的中文单词;而在图(b)中,原本的中文单词被替换为英语、法语、阿拉伯语和德语。mRASP的RAS等同于第一种替换方式,只需要提供双语同义词词典;而第二种替换方式需要提供包含多种语言的同义词词典。值得一提的是,在使用对齐增强方法时,可以选择只采用图(a)的方法或者只采用图(b)的方法

实验结果表明mRASP2在有监督、无监督、零资源的场景下均取得翻译效果的提升。其中有监督场景平均提升 1.98 BLEU,无监督场景平均提升 14.13 BLEU,零资源场景平均提升 10.26 BLEU。该方法在广泛场景下取得了明显的性能提升,可以大大缓解低资源语种训练数据不足的问题。

写在最后

方言和普通话互相补充,都是中华传统文化的重要表达方式。方言作为一种表达方式,代表着中国人对家乡的情感和纽带。通过短视频和方言翻译,可以帮助广大用户无障碍地欣赏来自全国各地不同区域的文化

当前,抖音「方言翻译」功能现已支持为了保持原意不变,需要将内容改写为粤语。 、闽语、吴语(重写内容为:北京)、需要重写的内容是:西南官话(四川)、中原官话(陕西、河南)等,据说未来还将支持更多方言,一起拭目以待吧。

以上是全抖音都在说家乡话,两项关键技术助你'听懂”各地方言的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

利用AI并压碎下一次求职面试的5种方法利用AI并压碎下一次求职面试的5种方法Apr 18, 2025 am 11:30 AM

根据简历建设者的一项调查,有51%的公司已经在招聘过程中使用了AI工具,预计到2025年底,您的招聘过程跃升至68%。您不仅利用AI解决方案来为您的下一次工作面试做准备,因此您不仅会获得优势。哟

企业中AI计划的8个主要问题企业中AI计划的8个主要问题Apr 18, 2025 am 11:29 AM

我们对今年使用LLM的快速发展非常热情,剩下的一些障碍和瓶颈往往会迷失在洗牌中。 与所有先前的技术一样,公司必须引入一个AI项目

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具