基于深度学习的语音唤醒研究及其应用
发布时间:2020-11-21 11:36
语音唤醒技术是一种特别的语音识别技术,随着移动互联网和人工智能时代的来临被应用在各种智能化设备上。语音唤醒经常扮演一个开启系统的入口角色,在手机助手、车载环境和智能家居环境运用得尤其多。语音唤醒技术一直在发展前行,但是在实际应用场景中还面临着噪声、远场等环境下识别效果差,在一些计算性能低的平台还面临着相对计算复杂度高、资源占用大的问题。本文主要针对以上问题,对声学模型进行优化,应用相对计算复杂度较低的解码算法,致力于提升语音唤醒系统的性能,同时还将语音唤醒系统应用在实际工程中,实现算法的移植。本文的主要工作包括:1、为提升噪声和远场环境下语音唤醒系统的准确性,将数据集进行加噪和模拟远场处理,训练多结构、精简的语音唤醒专用声学模型,并使用Viterbi算法进行路径搜索,实现基于HMM/Filler的语音唤醒系统。2、实现基于置信度解码计算的专用唤醒词与可定制唤醒词的语音唤醒系统。经过实验论证,使用基于置信度计算的语音唤醒系统相比于基于HMM/Filler的语音唤醒系统,能够获得更好的识别性能。3、语音唤醒系统的工程应用。将语音唤醒系统的后台算法移植到Android平台,并编写可扩展调用的SDK,在移动端验证语音唤醒系统的可行性。
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34;TP181
【部分图文】:
2.1引言??语音识别系统的实现分为四个部分:语音信号处理和特征提取、声学模型、??语言模型、解码搜索。其系统框架图如图2.1所示。??语音信号?识别1结果??^^,?'1:?,?1?????(声学语抖(j?丨|解码搜_?1??声学模型??训练解码%??.1/,?L?\??/i\?/?A?/^?八?模厂——‘一7??丨声学模型i丨?发音字典::语言模型丨耍思一"丨文本语料:??I?\]?\?y?\?y?型训红?\?\??图2.1语音识别系统架构图??从图中可以看出,这四个部分贯穿了整个语音识别系统,而从中又可以引出??几个更具体的问题:??*语音的存储及数字化表示??*输入语音流的有效起点和终点检测??*语音的特征提取过程??*声学模型的选取及其训练方法??*语言模型的分类及选用??*解码方法及其搜索过程??本章将针对这些问题,从各个方面对语音识别系统进行一个全面的介绍。首??先是对语音如何存储表示做一个说明,再者是对语音的端点检测及特征提取问题??做一个介绍。然后是对传统的声学模型的理论基础进行更加详细的介绍。声学模??型的选取是语音识别的重点内容,在传统GMM-HMM模型应用的基础上,随着??11??
16KHz*16Bits?=?256Kbps?〇??语音通道数就是一段语音生成波形的数量,通常来说分成单声道以及立体声??道。单声道生成一个波形,立体声道则生成两个波形。如图2.2是一段16KHz,??16bits的单声道语音时域波形图。??一般来说,语音文件常见的格式有Wav、A-law、mp3等,其中Wav是原生??音频PCM加上头部信息得到的,A-law?—般是8k?8bit的语音,mp3是经过压缩??得到的音频格式。如果想查看音频的具体信息,可以借助Cool?EditPro这一专??业的软件进行波形图、频谱图等的查看。图2.2就是通过CoolEditPro得到的语??音波形图,其内容为“你好小一”。??HHHH??图2.2语音信号时域波形图??2.2.2端点检测??在对一段长语音或者对语音流进行运算之前,需要过滤掉一些无效的语音段,??13??
??语音为清音,如图2.3所示。??M?A??M?j一,\???7i?\??Ml??..…j.?j\??一?^?j?!?;?:?^??Cl?j?Bi?:?All?Ai\?Bl\?p2?1??Z?‘?j?j?I?|?|?j?? ̄^—HJ??Zs.....?|f?|?r%.?^??Cl?Bi?Ai?A2?Bi?C2?j??图2.3双门限法不意图??但是在实际应用中,过零率作为一个特征在寻找结束帧时并不稳定。??另外一种方法是基于窗能量的实时检测算法。该算法是以一定时长的语音段??的窗能量作为判定的一个标准设定缓冲区的最小窗能量阈值,计算公式为:??窗能量阈值=最小幅度绝对值x窗长x采样率?(2-3)??当连续5次窗能量小于阈值时,则停止录音,找到语音的结束端点;否则,??将有效的窗语音信号进行拼接,送入到特征提取模块进行进一步处理。??另外还可通过语音特征来检测静音与否,内容将在后文进行详细介绍。??2.2.3特征提取??目前语音识别的过程都是建立在对语音的特征分析的基础上,并不是直接对??音频本身进行处理。语音的特征包含了语音的很多特性
【参考文献】
本文编号:2892939
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34;TP181
【部分图文】:
2.1引言??语音识别系统的实现分为四个部分:语音信号处理和特征提取、声学模型、??语言模型、解码搜索。其系统框架图如图2.1所示。??语音信号?识别1结果??^^,?'1:?,?1?????(声学语抖(j?丨|解码搜_?1??声学模型??训练解码%??.1/,?L?\??/i\?/?A?/^?八?模厂——‘一7??丨声学模型i丨?发音字典::语言模型丨耍思一"丨文本语料:??I?\]?\?y?\?y?型训红?\?\??图2.1语音识别系统架构图??从图中可以看出,这四个部分贯穿了整个语音识别系统,而从中又可以引出??几个更具体的问题:??*语音的存储及数字化表示??*输入语音流的有效起点和终点检测??*语音的特征提取过程??*声学模型的选取及其训练方法??*语言模型的分类及选用??*解码方法及其搜索过程??本章将针对这些问题,从各个方面对语音识别系统进行一个全面的介绍。首??先是对语音如何存储表示做一个说明,再者是对语音的端点检测及特征提取问题??做一个介绍。然后是对传统的声学模型的理论基础进行更加详细的介绍。声学模??型的选取是语音识别的重点内容,在传统GMM-HMM模型应用的基础上,随着??11??
16KHz*16Bits?=?256Kbps?〇??语音通道数就是一段语音生成波形的数量,通常来说分成单声道以及立体声??道。单声道生成一个波形,立体声道则生成两个波形。如图2.2是一段16KHz,??16bits的单声道语音时域波形图。??一般来说,语音文件常见的格式有Wav、A-law、mp3等,其中Wav是原生??音频PCM加上头部信息得到的,A-law?—般是8k?8bit的语音,mp3是经过压缩??得到的音频格式。如果想查看音频的具体信息,可以借助Cool?EditPro这一专??业的软件进行波形图、频谱图等的查看。图2.2就是通过CoolEditPro得到的语??音波形图,其内容为“你好小一”。??HHHH??图2.2语音信号时域波形图??2.2.2端点检测??在对一段长语音或者对语音流进行运算之前,需要过滤掉一些无效的语音段,??13??
??语音为清音,如图2.3所示。??M?A??M?j一,\???7i?\??Ml??..…j.?j\??一?^?j?!?;?:?^??Cl?j?Bi?:?All?Ai\?Bl\?p2?1??Z?‘?j?j?I?|?|?j?? ̄^—HJ??Zs.....?|f?|?r%.?^??Cl?Bi?Ai?A2?Bi?C2?j??图2.3双门限法不意图??但是在实际应用中,过零率作为一个特征在寻找结束帧时并不稳定。??另外一种方法是基于窗能量的实时检测算法。该算法是以一定时长的语音段??的窗能量作为判定的一个标准设定缓冲区的最小窗能量阈值,计算公式为:??窗能量阈值=最小幅度绝对值x窗长x采样率?(2-3)??当连续5次窗能量小于阈值时,则停止录音,找到语音的结束端点;否则,??将有效的窗语音信号进行拼接,送入到特征提取模块进行进一步处理。??另外还可通过语音特征来检测静音与否,内容将在后文进行详细介绍。??2.2.3特征提取??目前语音识别的过程都是建立在对语音的特征分析的基础上,并不是直接对??音频本身进行处理。语音的特征包含了语音的很多特性
【参考文献】
相关期刊论文 前2条
1 路青起;白燕燕;;基于双门限两级判决的语音端点检测方法[J];电子科技;2012年01期
2 李虎生,刘加,刘润生;语音识别说话人自适应研究现状及发展趋势[J];电子学报;2003年01期
相关硕士学位论文 前1条
1 李敏;基于语音关键词检测的人机交互研究[D];北京交通大学;2016年
本文编号:2892939
本文链接:https://www.wllwen.com/kejilunwen/wltx/2892939.html