搜索
首页科技周边人工智能语音识别的发展之路要怎么走

语音识别的发展之路要怎么走

Apr 12, 2023 pm 05:01 PM
语音识别

通过利用深度学习技术进行自然语言的深度理解,一直是人们关注的焦点。听音乐不需要自己查找,开灯不需要动手,空调能听懂你的心声……这些场景在很多影视作品中有所表现,也代表了很多人脑海中“智慧生活”的概念。基于此,在人工智能发展的热潮中,自然语言处理成为了各大企业和科研机构角逐的战场。

语音识别的发展之路要怎么走

目前,语音交互赛道已汇集了互联网巨头、知名硬件企业、电商平台、传统家电厂商以及各类人工智能初创公司,特别是近几年以智能音箱为代表的语音交互产品在国内外的火爆,极大地激发了语音交互技术的应用和发展。

多个领域均有应用落地

近段时间,智能家居硬件中风头最盛的无疑是小米AI音箱。此品一经推出,便在市场上引起了极大反响,被众多媒体称为“交互体验最好的音箱”、“智能音箱界的担当”、“目前‘最热门’的智能硬件”……而在小编看来,小米AI音箱优秀,没错,但也没到他们夸的这种程度。以小编周围人的具体使用体验来看,其语音识别能力并没有特别突出,与目前市场上主流同类产品区别不大。它最大的优势是在生态链方面,通过小米AI音箱,可以控制小米台灯、小米扫地机器人、小米落地扇等配套家具设备。毫无疑问,这将使得人们距离智能生活更进一步。

在汽车及智能移动设备领域,语音交互功能已经很普及。在开车的时候,人们往往腾不出手,也不应该腾出手去操作手机,这时候,车载语音就成了必需品,也成了车联网标配。在当下这个智能互联、无人驾驶被炒得火热的时代,新车不带点语音识别的黑科技,似乎都不好意思拿出手。福特的SYNC系统专为手机和数字媒体播放器配备的福特车载多媒体通信娱乐系统,是目前车载系统中采用语音交互技术的成功的案例,已经广泛应用在福特多个系列汽车中。互联网巨头苹果在其iPhone4S中推出智能语音助理应用Siri后,Google公司也在其安卓智能手机操作系统中推出了GoogleNow智能语音搜索及问答服务,微软公司也将语音技术应用于WindowsPhone,三星也适时推出了Bixby。

在金融领域。语音识别技术也有了用武之地。近日,中国建设银行在上海黄浦区开设了一家自动化服务支行,由机器人为顾客服务。机器人装配面部扫描识别软件,可以解答顾客的大部分问题,解决普通高街银行绝大部分的业务需求,同时还配备人工辅助服务以及其他专业服务,以满足个性化需求。顾客由机器人接待,这些机器人通过语音识别功能,与人交流,解答顾客的问题。人工服务能做到的事,它们也能完成绝大部分,包括开户、转账以及投资。

此外,在新零售领域,智能语音技术的应用也在不断扩展。比如2017年12月18日,科大讯飞和红星美凯龙发布战略合作计划,未来由科大讯飞研发的智能导购机器人“美美”将在全国红星美凯龙门店上市。

除了语音交互之外,语音转文字也是当前语音识别技术中的一大热点。早先,这个功能是新闻工作者的最爱,用此功能整理采访稿件、演讲稿件能极大的提高工作效率,如今,这个功能正在被普通人接受,老人、懒癌发作的年轻人都可以使用此功能来替代打字。

时至今日,资本的涌入、政策的扶持、市场的一再扩容,使得语音技术日益成熟,全球语音市场也迎来了一个应用落地的黄金发展期。根据相关统计数据显示,2016年智能语音产业规模直逼60亿元大关,2017年将破百亿,同比增长69%左右。

技术现状并不能让人满意

与语音识别在多个领域开枝散叶形成对比的是,语音识别技术的发展颇为缓慢,在这种形势下,语音识别技术在实际应用中碰到了许多问题。

现在有很多企业说自己的语音识别率已经达到了97%甚至是98%,但在实际应用中,效果并不能让人满意。举一个比较有信服力的例子,IBMT.JWatson研究院开发的中文语音识别系统连续三年在美国DARPA主办的竞赛中名列第一,该系统在识别央视《新闻联播》节目时,其错误率小于5%,但在识别其它内容时,差距非常大。在实际应用中,识别率主要受到以下几个因素的影响:

对于汉语语音识别,方言或口音会降低识别率。

公共场所的强噪声对识别效果影响甚大,即使是在实验室环境下,敲击键盘、移动麦克风都会成为背景噪声。

打断问题,如果人在说话时有停顿,机器就不能很好的联系上下文使语意通顺。

此处,还有“口语”问题。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”时,能够像进行“人与人对话”一样自然,而一旦用户以跟人交谈的方式进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。

语音识别的技术迭代

此前,就有人指出口音、新词汇等问题可以通过语音识别技术在实际应用中的数据采集来实现。随着数据量的增加,这种问题都能得到解决。

而另外诸如“打断”等问题,便需要各种深度学习模型,如DNN、CNN、BLSTM(双向长短时记忆神经网络)等,以及新的算法,来逐步解决。

技术使用起来往往需要一个迭代的过程的,需要先上线,然后在场景里收集数据去评估,优化模型,改善用户体验。经过几轮迭代,才可以发挥最佳效果。其他AI技术也是相似的。今天很多AI技术的用户很容易把技术的能力理想化,感觉一引入,就应该立竿见影的看到效果。看到实际效果不尽人意时,就会感觉有很大的落差,失望和放弃。诚然,智能语音技术已经达到广发应用的水平,但在真正落地的时候,要充分认识到可能遇到的困难,有持久战的思想准备。

语音识别的发展之路要怎么走

总结

可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

以上是语音识别的发展之路要怎么走的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器