基于连续隐马尔可夫模型的语音识别抗噪问题研究
发布时间:2021-06-16 19:47
随着信息化时代的来临,隐马尔可夫模型(HMM)被广泛应用在语音识别领域,并已成为该领域最受关注最有效的建模方法之一。随着人们对智能化要求越来越高,基于HMM的语音识别技术也在不断改进,尤其在噪声环境下,原识别系统与现实语音无法高度匹配,这使得系统识别率大幅降低。因此本文将基于HMM的连续情形(CHMM)下,研究语音识别系统的可靠性和抗噪能力。本文首先基于最大互信息(MMI)训练准则对CHMM进行改进,初步提高系统的识别率。之后在信号空间研究白噪声背景下,提出基于线性预测隐马尔可夫模型(LPHMM),利用Gaussian有色噪声白化方法(GCNW)和最小均方误差估计(MMSE)得到一种语音增强方法(LWM),比较其与经典语音增强算法谱减法(SS)的抗噪效果;在特征空间,基于特征参数梅尔频率倒谱系数(MFCC),通过加权对其实现优化,结合时域特征短时能量(En)和短时平均过零率(ZCR)得到一种特征参数提取方法(MFFEZ);在模型空间,基于对加性噪声和信道函数联合补偿的模型补偿方法(MACA),结合MFFEZ特征提取,得到MFFEZ-MCAC模型,并比较噪声环境下其与MACA模型的识别率...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
语音识别原理图
哈尔滨工业大学理学硕士学位论文-7-中可知,预加重前后语音信号的高频部分的幅频有明显提升。a)滤波器幅频特性a)Filteramplitude-frequencycharacteristicsb)滤波器相频特性b)Filterphasefrequencycharacteristics图2-2数字滤波器特性Fig.2-2Digitalfiltercharacteristicsa)原始语音时域信号b)预加重后语音时域信号a)Originalvoicetimedomainsignalb)Speechtimedomainsignalafterpre-emphasis
哈尔滨工业大学理学硕士学位论文-10-112nmZsgnxmsgnxmnm其中,sgnx为符号函数,其定义为1,01,0xnsgnxnxn由上述定义可知,过零率易受低频影响,为解决这一问题,通过设置门限T,将过零率更改为跨过正负阈值,即1{|[][1]|2|[][1]}nmZsgnxmTsgnxmTsgnxmTsgnxmTnm双门限端点检测的基本思想:首先,将整个端点检测分为四个部分:静音部分、过渡部分、语音部分、结束。设置一个变量用于指示实验期间的当前状态。默认初始状态为静音部分,若能量或者过零率超过低阈值,则标记进入过渡部分。当两个参数值低于低阈值时,则认为返回静音部分,并且若过渡部分中两个参数中任何一个大于高阈值,则认为进入语音部分。语音段中,当参数均低于低阈值,并且计时长度小于最短时间门限,则认为此段语音是噪音部分,继续读取,否则标记终点。如图2-4所示,此为一段数字“9”的语音信号,利用双门限端点检测算法检测该段信号,其中红色范围内为寻找的有效语音信号段。图2-4能量和过零率端点检测Fig.2-4Energyandzero-crossingrateendpointdetection
【参考文献】:
期刊论文
[1]鲁棒性语音识别技术研究综述[J]. 黄志东. 信息通信. 2019(11)
[2]语音识别技术的研究进展与展望[J]. 王海坤,潘嘉,刘聪. 电信科学. 2018(02)
[3]基于卷积神经网络的面罩语音识别[J]. 王霞,杜桂明,王光艳,张艳. 传感器与微系统. 2017(10)
[4]应用于语种识别的加权音素对数似然比特征[J]. 张健,徐杰,包秀国,周若华,颜永红. 清华大学学报(自然科学版). 2017(10)
[5]基于时频特征的光纤周界入侵振动信号识别与定位[J]. 朱程辉,王建平,李奇越,左冬森,李帷韬. 中国激光. 2016(06)
[6]噪声鲁棒语音识别研究综述[J]. 雷建军,杨震,刘刚,郭军. 计算机应用研究. 2009(04)
[7]一种对加性噪声和信道函数联合补偿的模型估计方法[J]. 王智国,吴及,戴礼荣,王仁华. 声学学报(中文版). 2008(03)
[8]基于最大互信息的连续型隐马尔可夫模型参数训练方法[J]. 陈文锋,李兵,武海锋. 云南大学学报(自然科学版). 2006(S1)
[9]连续隐马尔可夫模型和神经网络在说话人识别中的比较[J]. 周茉,刘蓉,陈琦. 计算机与数字工程. 2006(09)
[10]基于段长分布的HMM语音识别模型[J]. 王作英,肖熙. 电子学报. 2004(01)
博士论文
[1]抗噪声语音识别新技术的研究[D]. 宁更新.华南理工大学 2006
硕士论文
[1]语音识别抗噪算法的研究[D]. 肖勇.中南大学 2009
本文编号:3233680
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
语音识别原理图
哈尔滨工业大学理学硕士学位论文-7-中可知,预加重前后语音信号的高频部分的幅频有明显提升。a)滤波器幅频特性a)Filteramplitude-frequencycharacteristicsb)滤波器相频特性b)Filterphasefrequencycharacteristics图2-2数字滤波器特性Fig.2-2Digitalfiltercharacteristicsa)原始语音时域信号b)预加重后语音时域信号a)Originalvoicetimedomainsignalb)Speechtimedomainsignalafterpre-emphasis
哈尔滨工业大学理学硕士学位论文-10-112nmZsgnxmsgnxmnm其中,sgnx为符号函数,其定义为1,01,0xnsgnxnxn由上述定义可知,过零率易受低频影响,为解决这一问题,通过设置门限T,将过零率更改为跨过正负阈值,即1{|[][1]|2|[][1]}nmZsgnxmTsgnxmTsgnxmTsgnxmTnm双门限端点检测的基本思想:首先,将整个端点检测分为四个部分:静音部分、过渡部分、语音部分、结束。设置一个变量用于指示实验期间的当前状态。默认初始状态为静音部分,若能量或者过零率超过低阈值,则标记进入过渡部分。当两个参数值低于低阈值时,则认为返回静音部分,并且若过渡部分中两个参数中任何一个大于高阈值,则认为进入语音部分。语音段中,当参数均低于低阈值,并且计时长度小于最短时间门限,则认为此段语音是噪音部分,继续读取,否则标记终点。如图2-4所示,此为一段数字“9”的语音信号,利用双门限端点检测算法检测该段信号,其中红色范围内为寻找的有效语音信号段。图2-4能量和过零率端点检测Fig.2-4Energyandzero-crossingrateendpointdetection
【参考文献】:
期刊论文
[1]鲁棒性语音识别技术研究综述[J]. 黄志东. 信息通信. 2019(11)
[2]语音识别技术的研究进展与展望[J]. 王海坤,潘嘉,刘聪. 电信科学. 2018(02)
[3]基于卷积神经网络的面罩语音识别[J]. 王霞,杜桂明,王光艳,张艳. 传感器与微系统. 2017(10)
[4]应用于语种识别的加权音素对数似然比特征[J]. 张健,徐杰,包秀国,周若华,颜永红. 清华大学学报(自然科学版). 2017(10)
[5]基于时频特征的光纤周界入侵振动信号识别与定位[J]. 朱程辉,王建平,李奇越,左冬森,李帷韬. 中国激光. 2016(06)
[6]噪声鲁棒语音识别研究综述[J]. 雷建军,杨震,刘刚,郭军. 计算机应用研究. 2009(04)
[7]一种对加性噪声和信道函数联合补偿的模型估计方法[J]. 王智国,吴及,戴礼荣,王仁华. 声学学报(中文版). 2008(03)
[8]基于最大互信息的连续型隐马尔可夫模型参数训练方法[J]. 陈文锋,李兵,武海锋. 云南大学学报(自然科学版). 2006(S1)
[9]连续隐马尔可夫模型和神经网络在说话人识别中的比较[J]. 周茉,刘蓉,陈琦. 计算机与数字工程. 2006(09)
[10]基于段长分布的HMM语音识别模型[J]. 王作英,肖熙. 电子学报. 2004(01)
博士论文
[1]抗噪声语音识别新技术的研究[D]. 宁更新.华南理工大学 2006
硕士论文
[1]语音识别抗噪算法的研究[D]. 肖勇.中南大学 2009
本文编号:3233680
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3233680.html