嘈杂环境下特定目标语音搜索方法研究
发布时间:2020-11-02 22:16
语音搜索是用来判定特定目标身份信息的一种识别技术,应用领域较为广泛,所以嘈杂环境下特定目标语音搜索方法成为当前研究的热点,具有重要的理论和实际意义。本文从语音信号的基本理论入手,着重研究了特征参数的提取、高斯混合模型的训练方式、噪声参数估计及语音增强算法,并提出了一种基于语音增强算法与高斯混合模型相结合的嘈杂环境下语音搜索方法。本文对语音搜索的逐个环节进行了详细研究,首先对语音信号的预处理过程进行了简要分析,研究了几种常用的端点检测方法,指出了其在嘈杂环境下的不足。其次分析了几种典型特征参数的提取方法,并对梅尔倒谱系数进行一阶差分处理得到ΔMFCC,将MFCC与ΔMFCC相融合,以提高系统搜索的准确性。然后对嘈杂环境中的噪声特性进行了研究,主要分析了有声/无声段检测与连续噪声谱两种噪声估计的方法,并将改进的谱熵法用于有声/无声段检测。经仿真实验表明,有声/无声段检测仅能对平稳噪声进行有效估计,而连续噪声谱对平稳噪声和非平稳噪声均有较好的处理效果。在噪声估计的基础上,为了提高语音信号的信噪比,减少信号失真。对谱减法,维纳滤波算法,基于最小均方误差的MMSE算法进行了研究,并提出了新的动态Dynamic-MMSE算法。经仿真实验表明,本文提出的新算法较上述算法性能上有了一定提升。为了提高特定目标语音搜索的识别率,对诸多识别模型进行了研究。最终确定采用高斯混合模型及期望最大化算法(EM算法)将融合后的特征参数进行特定目标语音搜索,优势在于并不需要完整的数据便可对概率模型的特征参数进行最优估计,对于嘈杂环境下的语音搜索尤为适用。经一系列仿真实验表明,将梅尔倒谱系数与ΔMFCC融合后的特征参数能更好的反映特定目标的个性信息,经噪声参数估计和语音增强后,能将语音信号从带噪语音信号中较好的分离出来,将融合后的特征参数,经高斯混合模型训练识别后,在嘈杂环境下,特定目标的识别率有了明显提升。
【学位单位】:哈尔滨理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.3
【部分图文】:
而高频部分能量却较低。低频部分包含了语音的主要信息,所以在处理语音原始信号时,期望获得更多的低频信号。语音信号的频率范围为300Hz~3400Hz,高频部分在 800Hz 以上。对频谱进行分析时,高频部分的频带较窄,难以分析。预加重后的语音信号 s(n),主要是加重高频部分,可以提高语音信号的分辨率,使频谱更加平缓,利于声道参数和频谱的研究。预加重通过预加重数字滤波器实现,通常选用一阶数字滤波器:1H ( z ) 1αz = (2-1)α 为预加重系数,识别率会随着 α 的大小而改变,通常选取 α 值为0.9375。语音信号的预加重公式如下:( ) ( ) ( 1)a p pS n = S n αS n (2-2)其中pS 和aS 为预加重前后的信号。下图 2-1 为语音信号“2”预加重前后的频谱图,由图可看出,高频部分得到提升,且语音信号的频谱也较为平坦。
2. 假设前若干帧为无声段,统计噪声的短时过零率与短时能量。3. 根据嘈杂的背景环境及语音信号的短时能量和过零率选取其高低门限值记为1amp 、2amp 和1zcr 、2zcr 。4. 采用短时能量门限确定起止点,在通过短时过零率对门限进行修正,最终得到语音信号的起止点。下图 2-2 采用双门限端点检测的方法在纯净语音下对数字“3”进行端点检测的结果。第一张图为语音信号的时域波形及双门限端点检测的结果,第二张图为语音信号的短时能量波形,第三张为短时过零率的波形。图 2-3 为嘈杂环境下的仿真效果对比图。由此可见,在纯净语音环境下,经典的双门限端点检测算法能有效检测出语音信号的起止点,但在嘈杂环境下,性能急剧下降。
2. 假设前若干帧为无声段,统计噪声的短时过零率与短时能量。3. 根据嘈杂的背景环境及语音信号的短时能量和过零率选取其高低门限值记为1amp 、2amp 和1zcr 、2zcr 。4. 采用短时能量门限确定起止点,在通过短时过零率对门限进行修正,最终得到语音信号的起止点。下图 2-2 采用双门限端点检测的方法在纯净语音下对数字“3”进行端点检测的结果。第一张图为语音信号的时域波形及双门限端点检测的结果,第二张图为语音信号的短时能量波形,第三张为短时过零率的波形。图 2-3 为嘈杂环境下的仿真效果对比图。由此可见,在纯净语音环境下,经典的双门限端点检测算法能有效检测出语音信号的起止点,但在嘈杂环境下,性能急剧下降。
【参考文献】
本文编号:2867646
【学位单位】:哈尔滨理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.3
【部分图文】:
而高频部分能量却较低。低频部分包含了语音的主要信息,所以在处理语音原始信号时,期望获得更多的低频信号。语音信号的频率范围为300Hz~3400Hz,高频部分在 800Hz 以上。对频谱进行分析时,高频部分的频带较窄,难以分析。预加重后的语音信号 s(n),主要是加重高频部分,可以提高语音信号的分辨率,使频谱更加平缓,利于声道参数和频谱的研究。预加重通过预加重数字滤波器实现,通常选用一阶数字滤波器:1H ( z ) 1αz = (2-1)α 为预加重系数,识别率会随着 α 的大小而改变,通常选取 α 值为0.9375。语音信号的预加重公式如下:( ) ( ) ( 1)a p pS n = S n αS n (2-2)其中pS 和aS 为预加重前后的信号。下图 2-1 为语音信号“2”预加重前后的频谱图,由图可看出,高频部分得到提升,且语音信号的频谱也较为平坦。
2. 假设前若干帧为无声段,统计噪声的短时过零率与短时能量。3. 根据嘈杂的背景环境及语音信号的短时能量和过零率选取其高低门限值记为1amp 、2amp 和1zcr 、2zcr 。4. 采用短时能量门限确定起止点,在通过短时过零率对门限进行修正,最终得到语音信号的起止点。下图 2-2 采用双门限端点检测的方法在纯净语音下对数字“3”进行端点检测的结果。第一张图为语音信号的时域波形及双门限端点检测的结果,第二张图为语音信号的短时能量波形,第三张为短时过零率的波形。图 2-3 为嘈杂环境下的仿真效果对比图。由此可见,在纯净语音环境下,经典的双门限端点检测算法能有效检测出语音信号的起止点,但在嘈杂环境下,性能急剧下降。
2. 假设前若干帧为无声段,统计噪声的短时过零率与短时能量。3. 根据嘈杂的背景环境及语音信号的短时能量和过零率选取其高低门限值记为1amp 、2amp 和1zcr 、2zcr 。4. 采用短时能量门限确定起止点,在通过短时过零率对门限进行修正,最终得到语音信号的起止点。下图 2-2 采用双门限端点检测的方法在纯净语音下对数字“3”进行端点检测的结果。第一张图为语音信号的时域波形及双门限端点检测的结果,第二张图为语音信号的短时能量波形,第三张为短时过零率的波形。图 2-3 为嘈杂环境下的仿真效果对比图。由此可见,在纯净语音环境下,经典的双门限端点检测算法能有效检测出语音信号的起止点,但在嘈杂环境下,性能急剧下降。
【参考文献】
相关期刊论文 前10条
1 李轶南;张雄伟;贾冲;陈亮;曾理;;稀疏低秩噪声模型下无监督实时单通道语音增强算法[J];声学学报;2015年04期
2 李世绍;高勇;;低信噪比下基于FastIca和MMSE-LSA的语音识别[J];电声技术;2014年01期
3 夏乐乐;孙永荣;王勇;;基于自适应噪声估计的语音增强技术[J];计算机工程与应用;2014年23期
4 胡旭琰;邹月娴;王文敏;;基于MDT特征补偿的噪声鲁棒语音识别算法[J];清华大学学报(自然科学版);2013年06期
5 赵改华;周彬;张雄伟;;基于超高斯混合模型的语音幅度谱增强算法[J];通信技术;2013年06期
6 林琳;陈虹;陈建;;基于鲁棒听觉特征的说话人识别[J];电子学报;2013年03期
7 吴海洋;杨飞然;周琳;吴镇扬;;矢量泰勒级数特征补偿的说话人识别[J];声学学报;2013年01期
8 陈联武;郭武;戴礼荣;;声纹识别中合成语音的鲁棒性[J];模式识别与人工智能;2011年06期
9 游大涛;韩纪庆;邓世文;;基于长短时能量均值的活动语音检测算法[J];智能计算机与应用;2011年04期
10 陈黎;徐东平;;基于SVM-GMM的开集说话人识别方法[J];计算机工程;2011年14期
相关硕士学位论文 前1条
1 李克粉;噪声环境下的语音识别方法研究与改进[D];江苏科技大学;2013年
本文编号:2867646
本文链接:https://www.wllwen.com/kejilunwen/wltx/2867646.html