对感冒语音鲁棒的语音指令识别及嵌入式实现
发布时间:2020-07-24 04:59
【摘要】:近几年来,语音识别技术逐渐进入人们的日常生活,而加入了语音识别技术的智能家居系统使得人们的生活更加舒适、便利。但是在实际应用场景中,语音识别准确性受许多因素的影响,例如环境噪声或者说话人本身变音(如感冒、声带发炎、咽喉炎等),从而导致语音识别系统鲁棒性不强。环境噪声的因素目前已得到研究人员广泛关注并采取各种措施来降低噪声的影响,但是对说话人本身变音的研究还十分缺乏。因此本文对说话人感冒状态下的语音识别进行了研究,其中重点研究了语音识别系统在保证正常语音识别率的同时使得感冒语音识别率尽量接近正常语音识别率,从而改善语音识别系统性能。本论文的主要研究工作和创新如下:(1)建立了感冒语音数据库。根据智能家居控制语音指令,建立了“感冒非常态及常态语音数据库”,该数据库已被中文语言资源联盟收录(No:CLDC-2018-001)。(2)对感冒语音与正常语音的特征进行差异分析和特征参数处理。采用研究对象感冒前、后的语音,对所提取的特征参数做统计分析。分析表明研究对象感冒前、后的基音频率、共振峰、Mel倒谱系数具有明显的区别。根据特征参数的差异,本文提出一种基于特征空间轨迹的时间规正方法,该方法采用段内语音信号的均值代表语音特征。实验结果表明相比Mel倒谱系数特征,经过该方法处理的特征能有效降低正常语音与感冒语音之间的特征差异。(3)考虑到感冒语音与正常语音模板的失配问题,提出了两种对感冒语音鲁棒的语音识别方案。第一种是基于决策融合的语音识别方案,该方案通过SVM分类器对输入语音进行正常语音和感冒语音的分类判别。当感冒语音与正常语音区分度较小时,经过决策融合方法得出识别结果;而区分度较大时,根据分类结果采用对应的语音模板得出识别结果。该方案弥补了语音判别过程带来的误差,提升了感冒语音在语音识别系统中的识别率。第二种是基于特征空间轨迹的时间规正的语音识别方案,该方案对感冒语音特征参数进行时间规正处理。该方案能有效提高了感冒语音的识别率和实时性。(4)实现了嵌入式语音识别系统,其中包括语音识别算法模块、人机交互界面模块及在线学习模块。最后在真实场景下对系统进行测试,系统识别率在77.52%左右。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
语 1272 个、控制指令 1032 个(8 人),此数据集二中感冒语音与正常语音实验平台 MATLAB2014a 利用 Voicebox、Pmtk3-master、Lib-SVM 等工具箱搭建一实验使用的计算机为 DELL,该计算机内核为 Intel(R) Core(TM) i7,安装indows 操作系统。音信号的产生过程类产生语音过程分为生理阶段和物理阶段。在生理阶段,大脑将要表达的的形式,向发音器官发送一系列的神经指令,在物理阶段,声音经过呼官和共鸣器官的共同作用以声波的形式发出与传递[32]。
图 2-3 基于短时自相关函数的基音提取.2 感冒前、后基音周期对比采用短时自相关函数法提取基音,在语音信号有说话声部分提取的基音频率或平稳。基音周期对比实验,提取 6 名感冒患者感冒前、后语音,语音来自 PA库数据,男生 4 名,女生 2 名。统计 6 位录音者感冒前、后的基音频率,分析
X k 的包络线,在语音信号的 包络线上寻找出幅值的极大值,通过多个极大值求得共振峰。图 2-4 是一帧语音信号的频谱,频谱曲线用黑实线表示,频谱包络线用黑粗线表示,共振峰峰值位置用黑色小圆圈表示。图中有四个黑色小圆圈,表示该段语音信号的 4 个共振峰 F1、F2、F3、F4 的位置。图 2-4 语音信号的共振峰提取图 2-5 为原始语音信号的时域波形图,图 2-6 为语音信号的二维语谱图,用颜色表示能量值,语谱图中颜色的深浅表示语音能量的大小,颜色越深,则表示能量越大。语
本文编号:2768353
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
语 1272 个、控制指令 1032 个(8 人),此数据集二中感冒语音与正常语音实验平台 MATLAB2014a 利用 Voicebox、Pmtk3-master、Lib-SVM 等工具箱搭建一实验使用的计算机为 DELL,该计算机内核为 Intel(R) Core(TM) i7,安装indows 操作系统。音信号的产生过程类产生语音过程分为生理阶段和物理阶段。在生理阶段,大脑将要表达的的形式,向发音器官发送一系列的神经指令,在物理阶段,声音经过呼官和共鸣器官的共同作用以声波的形式发出与传递[32]。
图 2-3 基于短时自相关函数的基音提取.2 感冒前、后基音周期对比采用短时自相关函数法提取基音,在语音信号有说话声部分提取的基音频率或平稳。基音周期对比实验,提取 6 名感冒患者感冒前、后语音,语音来自 PA库数据,男生 4 名,女生 2 名。统计 6 位录音者感冒前、后的基音频率,分析
X k 的包络线,在语音信号的 包络线上寻找出幅值的极大值,通过多个极大值求得共振峰。图 2-4 是一帧语音信号的频谱,频谱曲线用黑实线表示,频谱包络线用黑粗线表示,共振峰峰值位置用黑色小圆圈表示。图中有四个黑色小圆圈,表示该段语音信号的 4 个共振峰 F1、F2、F3、F4 的位置。图 2-4 语音信号的共振峰提取图 2-5 为原始语音信号的时域波形图,图 2-6 为语音信号的二维语谱图,用颜色表示能量值,语谱图中颜色的深浅表示语音能量的大小,颜色越深,则表示能量越大。语
【参考文献】
相关期刊论文 前10条
1 刘佩军;;关于普通感冒发病机制的新思考[J];医学争鸣;2015年03期
2 杨潇亮;;基于安卓操作系统的应用软件开发[J];电子制作;2014年19期
3 吴勇毅;;智能家居产业的机遇与挑战[J];上海信息化;2014年05期
4 酆勇;李宓;李子明;;文本无关的说话人识别研究[J];数字通信;2013年04期
5 王文娟;杨震;;基于语音压缩感知观测序列非重构的清浊音判别法[J];数据采集与处理;2013年03期
6 张永刚;;我国智能家居现状与问题[J];智能建筑与城市信息;2012年12期
7 周英;;关于语音识别技术发展趋势的分析[J];计算机光盘软件与应用;2012年19期
8 朱立;;一种基于Android系统的嵌入式数据库同步方案[J];价值工程;2011年16期
9 丁世飞;齐丙娟;谭红艳;;支持向量机理论与算法研究综述[J];电子科技大学学报;2011年01期
10 严乐贫;奉小慧;;双模态车载语音控制仿真系统的设计与实现[J];计算机与现代化;2010年08期
相关博士学位论文 前1条
1 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
相关硕士学位论文 前2条
1 金海;基于深度神经网络的音频事件检测[D];华南理工大学;2016年
2 杜朦旭;感冒病人嗓音的特征提取与识别研究[D];浙江大学;2016年
本文编号:2768353
本文链接:https://www.wllwen.com/kejilunwen/wltx/2768353.html