对于人机交互来说,如何让机器具备良好的听觉,一直是近些年来 AI 领域不懈追求的目标。2009 年前后,深度学习模型用于开始走出学术界,而以语音唤醒、识别、增强和合成为代表的智能语音技术,也逐渐走向成熟。
一个早期典型的例子是,2011 年 siri 的诞生。智能语音成了人与机器之间的沟通交互方式的新跃迁。而后经过十余年的发展,"嘿,siri"式的人机问答已经不再局限于移动终端设备,走进千家万户,广泛应用于各个场景:家居陪伴智能音箱,方便网购的天猫精灵,会议上的同声翻译,出行时的车载语音导航助手等等。
随着越来越多的互联网企业及上游厂商在智能语音赛道的积极布局,智能语音客服、对话式 AI 应用、AI 虚拟助手等产品的取得了进一步质量提升,响应语音更自然,理解问题更准确,并且有了自己的"小情绪"。
身处数字化浪潮的时代,万物互联的趋势不可阻挡。而智能语音作为当下人机交互的关键接口,正处于与实体经济深度融合碰撞的时期。随着应用场景的进一步下沉和拓展,我们也看到不少挑战性的问题,比如:如何识别说话人身份、如何识别方言、如何消除歧义等等都是最新的研究热点。
一项技术走向成熟的背后,往往蕴含着一些潜质,这其中包括它在实际应用中的创新能力,以及它更有潜力的演进方向。展望下一个阶段,智能语音技术也必会出现新的演进趋势,例如:深度集成的AI语音芯片能否取代云端运行模型的模式?多模态融合、无监督学习、脑学科交叉融合的创新研究能否取得突破性成果?我们拭目以待。
那么,智能语音技术在各大企业中实践探索中都遇到了哪些真实的生产问题?又是如何解决的?取得了哪些进展?行业出现了哪些新变化?下一步的发展趋势又会有哪些?"AISummit全球人工智能技术大会"智能语音技术专场带给你深度思考!
8月7日,51CTO倾力打造的“AISummit全球人工智能技术大会”智能语音专场重磅来袭!
1.语音识别技术探索:分享端到端、高效利用数据等大规模实际应用场景下的语音识别技术,并提出了基于前缀自动机的热词技术方案。
2.语音评测技术实践:语音发音纠错技术方面结合作业帮的高并发场景,提出了多任务知识迁移、多模态特征融融合方案,很大程度上提升提升模型的因素区分能力和噪声环境下的检错能力。并针对语音评测落地难的痛点,提出了高性能的云端一体化测评技术。
3.语音合成技术框架:分享作业帮基于现有的小数据量语音技术框架进一步改进的思考与实践。
1.语音识别技术在办公场景中的应用进程:办公邮件、即时通讯中的语音输入办公语音助手、实时字幕&会后转写。
2.解决思考:会议智能化、效率提升。
3.挑战与机遇:语音识别任务的挑战、下游任务带来的挑战、会议提供额外的信息。
4.重点算法工作介绍(端到端语音识别系统):Transducer & CIF、动态+静态热词、Context-aware。
1.高水平语音合成系统背景介绍及问题分析。
2.高水平语音合成系统设计思考与实现。
3.实验评估。
4.未来工作展望。
1.SOUL社交元宇宙场景下的端到端语音识别
2.多模态语音合成技术的构建路线
3.在语音安全和语音交互等业务场景下的应用
1.语音识别在58同城的应用场景:AI智能语音应用、语音识别链路介绍、挑战与技术路线
2.基于WeNet的模型优化工作:半监督训练、Efficient Conformer、模型压缩
3.端到端语音识别的部署方案:自研引擎架构、Wenet解码服务部署、流式/非流式解码性能测试
宋旸在百度工作7年,从事算法研发工作。2015年加入作业帮,为智能中台部负责人,为公司各业务输出包括数据挖掘、NLP、语音在内的中台技术能力,先后负责搜索答疑、个性化推荐、智能质检、语音评测、服务智能化调度等方向。
在加入作业帮之前,王强强曾任职于清华大学电子工程系语音处理与机器智能实验室,负责语音识别算法落地,搭建工业级解决方案。2018 年加入作业帮,负责语音相关算法研究和落地,主导了语音识别、评测、合成等算法在作业帮的落地实践, 为公司提供整套语音技术解决方案。
张骏长期从事语音识别、语音唤醒等语音算法研究与应用,经验丰富。2018 年加入字节跳动AI Lab智能语音团队,目前主要负责智能办公、智能硬件、智能客服等方向的语音技术方案建设。
谭旭,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等。研发的机器翻译和语音合成系统获得多项比赛冠军并在学术评测集上达到人类水平,研究工作如预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界广泛关注。
刘忠亮硕士毕业于中科院研究生院,目前在SOUL担任语音算法负责人,曾任职于搜狗AI交互部和陌陌大数据部。近10年主要从事语音唤醒、语音识别、语音合成、音频音乐理解等语音技术体系的研发工作,主要应用于输入法、手机助手、智能硬件、语音安全等语音交互和语音理解业务场景,致力于打造最好的可落地的语音技术。
周维,58同城AI Lab语音算法部负责人、算法架构师,负责语音识别、语音合成算法研发。2016年硕士毕业于中国科学院大学,毕业后参与对话式AI产品方向创业,2018年5月加入58同城,曾先后参与智能客服、智能外呼、智能写稿等AI项目的NLP算法研发,2019年开始主攻语音算法方向,带领团队从0到1自主研发58同城语音处理引擎中的语音算法。
除了精彩的AI技术大咖的精彩的实践创新干货分享外,AISummit全球人工智能技术大会还为与会的朋友们准备了丰富的场前、场中互动福利。加入这场盛会,在拓展技术能力和人脉资源的同时,顺便惊喜礼品带回家!
活动包括"当人不让"、"工享幸运"、"智同道合"等四大妙趣横生的互动游戏,总有一款精美礼品惊艳到你!那么,传说中神秘的终极大奖会是什么呢?等待热爱技术的你来现场揭秘!(PS:听说越早预约报名,中大奖几率越高哦!)
点击进入AISummit 全球人工智能技术大会 官方网站,按提示完整填写、提交信息即可完成报名。
扫码加入大会官方群,参与抽奖,赢取SONY音响、冰墩墩、AI技术书籍等精美礼品,还有红包雨掉落。
以上是Siri越来越“大众”,未来智能语音会有哪些突破?的详细内容。更多信息请关注PHP中文网其他相关文章!