搜索
首页科技周边人工智能人工智能:语音识别技术

人工智能:语音识别技术

May 04, 2023 am 11:22 AM
人工智能技术语音识别

今天给大家介绍一下关于语音识别相关的知识,希望对大家有所帮助!

1、什么是语音

语音指的是人类通过发声器官发出来具有一定意义、用来沟通交流的声音。

计算机中语音存储:以波形文件的方式存储,通过波形反映语音的变化,从而可以获取音强、音长等参数信息。

音域参数:傅利叶谱、梅尔频率到谱系数,主要用来提取语音内容以及音色的差别,用来更进一步辨别语音信息。

2、什么是语音识别

语音识别简单来说就是把语音内容自动转换为文字的过程,是人与机器交互的一种技术。

涉及领域:声学、人工智能、数字信号处理、心理学等方面。

语音识别的输入:对一段声音文件进行播放的序列。

语音识别的输出:输出的结果是一段文本序列。

3、语音识别的原理

语音识别需要经过特征提取、声学模型、语音模型、语音解码和搜索算法四个部分。

特征提取:把要分析的信号从最原始信号提取出来,这个阶段主要是对语音的幅度标准化、频响校正、分帧、加窗、始末端点检测等预处理操作,为声学模型提供需要特征向量。

声学模型:依靠声学模型进行语音参数分析(语音共振峰频率、幅度等)和对语音的线性预测参数进行分析。

语言模型:根据相关语言学理论,计算出声音片段可能词组序列的概率。

语音解码和搜索算法:根据声学模型+发音词典+语音模型构建的搜索空间,找到最合适的路径。解码完成后最终输出文本。

4、语音识别系统的组成

一个完整的语音识别系统包括:预处理、特征提取、声学模型训练、语言模型训练、语音解码器。

4.1 预处理

对输入的原始声音信号进行处理,过滤掉其中的背景噪音、非重要信息,还要对找到语音信号的开始和结束、语音分帧、提升高频部分的信号等操作。

4.2 特征提取

最常用的特征提取方法为梅尔顿到谱系数(MFCC),因为它拥有良好的抗噪性和健壮性。

4.3 声学模型训练

根据悬恋语音库的特征参数训练出声学模型参数,从而可以在识别时与声学模型进行匹配得到相应结果。目前主流语音识别系统一般都会采用HMM进行声学模型建模。

4.4 语言模型训练

用来预测哪个词序列正确的可能性更大。

4.5 语音解码器

解码器也就是语音识别技术中的识别过程,根据输入的语音信号,然后和训练好的HMM声学模型、语言模型、发音字典建立一个搜索空间,根据搜索算法找到最合适的路径。从而找到最合适的词串。

5、语音识别的使用场景

语音识别在日常生活中使用非常广泛主要分为封闭式和开放式应用。

封闭式应用:主要指针对特定控制指令的应用。

比如常见的有智能家居比如通过语音指令控制灯开关、热水器开关温度调节、打开空调等,大大丰富了我们日常的生活;

开放式应用:开放式主要是厂商提供语音识别服务,一般会公有云或者私有云的方式部署提供对应的SDK,让使用服务的客户进行语音识别服务的调用。

常见的场景有输入法、会议字幕实时输出、视频剪辑字幕配置等场景。

以上是人工智能:语音识别技术的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何在Excel中删除重复项? - 分析Vidhya如何在Excel中删除重复项? - 分析VidhyaApr 15, 2025 am 09:20 AM

数据完整性:删除Excel中的重复项以进行准确分析 干净的数据对于有效的决策至关重要。 Excel电子表格中的重复条目可能会导致错误和不可靠的分析。本指南向您展示了如何轻松删除DUP

十大电话面试技巧 - 分析Vidhya十大电话面试技巧 - 分析VidhyaApr 15, 2025 am 09:19 AM

掌握电话采访的艺术:成功指南 成功的电话面试可以大大增加进入工作申请过程下一阶段的机会。 这种至关重要的第一印象,通常是唯一的前fac

如何成为统计学家?如何成为统计学家?Apr 15, 2025 am 09:15 AM

介绍 想象一下,有能力在医疗保健,金融或体育等领域为自己和您的公司做出明智的决定。那就是统计学家的角色。 随着组织中数据的越来越多,对统计学家的需求

AI如何工作? - 分析VidhyaAI如何工作? - 分析VidhyaApr 15, 2025 am 09:14 AM

人工智能:综合指南 技术使我们能够设想一个世界,即机器了解我们的偏好,预测我们的需求,并从过去的互动中学习以提供更好的结果。这不是科幻小说;它是

什么是象形图? - 分析Vidhya什么是象形图? - 分析VidhyaApr 15, 2025 am 09:09 AM

介绍 在数据分析的世界中,有效的沟通是关键。 象形图提供了一个强大的解决方案,以视觉上吸引人且易于消化的格式提供信息。与复杂的图表和数字不同,象形文字 - 也

Llama-3.1-STORM-8B:8B LLM优于元和爱马仕Llama-3.1-STORM-8B:8B LLM优于元和爱马仕Apr 15, 2025 am 09:08 AM

Llama 3.1风暴8b:有效语言模型的突破 追求高效,准确的语言模型导致了Llama 3.1 Storm 8b的发展,这是80亿个参数模型类别的显着进步。 这是完善的

如何安装git? - 分析Vidhya如何安装git? - 分析VidhyaApr 15, 2025 am 09:07 AM

git:您的版本控制与协作的基本指南 Git是开发人员的关键工具,简化了项目协作和版本控制。 本指南提供了在Linux,MacOS和Wind上安装GIT的直接说明

在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具