当前位置:主页 > 科技论文 > 信息工程论文 >

一种低信噪比环境下的语音端点检测算法

发布时间:2022-01-16 20:18
  端点检测技术是语音信号处理的关键技术之一,为提高低信噪比环境下端点检测的准确率和稳健性,提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法。该算法首先通过抑制非平稳噪声再采用调制域谱减消除残余噪声来提升信噪比,减少语音失真。然后再提取每帧信号的功率归一化倒谱系数,计算每帧信号与背景噪声的功率归一化倒谱距离。最后将该倒谱距离作为检测参数,采用双门限判决方法进行端点检测。实验结果表明,该端点检测算法对语音帧和噪声帧具有较好的区分性。此外,在低信噪比环境下,所提出的算法对于不同类型的噪声都具有较好的稳健性。 

【文章来源】:声学技术. 2020,39(05)北大核心CSCD

【文章页数】:11 页

【部分图文】:

一种低信噪比环境下的语音端点检测算法


改进的噪声功率谱密度估计Fig.2Improvednoisepowerspectraldensityestimation

对比图,语音增强,对比图,波形


∽芎停?舫??兄翟蚺卸ǜ糜镆艉?懈丛铀蔡??击噪声,若不是则输出含噪语音,后续算法可对其进行消除。无需采用瞬态抑制,有效提高程序运行速度、降低复杂度,若是则进行瞬态噪声抑制。1.3瞬态噪声抑制由图1流程图所示总的噪声干扰包括了背景噪声(,)dλkl和瞬态干扰(,)tλkl,利用OM-LSA算法减小实际纯净语音和估计的纯净语音的差异,增强语音、抑制瞬态干扰[9]。瞬态干扰抑制的加入使得算法对键盘敲击声、敲门声等非平稳噪声具有一定抑制作用,为了验证算法对非平稳瞬态噪声的抑制能力,图3给出了信噪比为0dB的瞬态抑制前后波形图,通过对比图3(a)、3(b)、3(c),给出了非平稳瞬态噪声的一个有效估计,图3(d)中大部分瞬态冲击噪声被抑制,但(a)原始语音波形(b)信噪比为0dB的含噪(机械键盘噪声)语音波形(c)估计的瞬态非平稳噪声(d)瞬态抑制后的输出语音图3语音增强前后波形对比图Fig.3Waveformcomparisonchartbeforeandafterspeechenhancement是还存在一定的背景噪声,后续引入调制域谱减法对其进行消除。2调制域谱减法2.1调制域人们测试和分析信号一般通过时域和频域来实现。近年来由于调频技术的快速发展,调制域处理在语音编码、语音识别等领域的应用日益普及[10]。与频域表示的是频率与幅度间关系和时域表示时间和幅度间关系不同,调制域是时间和频率之间的关系,其相互关系可表示如图4[2]。图4时域、频域、调制域之间的关系Fig.4Theconnectionbetweentimedomain,frequencydomainandmodulationdomain2.2调制域谱减谱减法是一种直观而有效的单通道降噪算法,但在低能量语音区域做谱减处理时会引入音乐噪声,为了解决上述问题,Paliway等[6]在2010年?

原理图,瞬态,噪声,原理图


氐悖?岫杂镆粼斐杉?蟮母扇拧R虼颂岣咚惴?在复杂环境中的稳健性具有广泛的研究意义。1.1瞬态PSD估计利用语音、瞬态噪声、背景噪声的不同变化率,引入一个可跟踪瞬态信号快速变化的最优改进对数谱幅度估计(Optimally-ModifiedLog-SpectralAmplitudeEstimator,OM-LSA)算法[8],通过分配一个较小的平滑参数来调整OM-LSA的噪声PSD估计分量,以跟踪输入信号频谱的瞬态变化。假设x(n)为语音信号,d(n)为加性平稳噪声、t(n)为瞬态噪声,被测信号y(n)表示如下:y(n)=x(n)+d(n)+t(n)(1)算法整体的流程图如图1所示。信号经过加窗、快速傅里叶变换(FastFourierTransform,FFT)后可实现短时傅里叶变换(ShortTimeFourierTransform,SFFT),然后对最小控制递归平均(MinimaControlledRecursiveAveraging,MCRA)的平滑参数进行调整再加入反因果窗区分瞬态,可为修正的OM-LSA算法提供准确的噪声PSD估计。图2为改进的噪声PSD估计算法流程图,虚线框图为调整部分,具体改进如下:图1瞬态噪声抑制原理图Fig.1Principlediagramoftransientnoisesuppression(1)平滑处理y(n)由瞬态分量和非瞬态分量(语音和噪声)构成,利用上述算法估计非瞬态分量的PSD,图中Y、X分别表示含噪语音在时频域做短时傅里叶变换的幅度值以及测量信号Y的估计值,、tdλλ则为瞬态噪声的功率谱估计值以及平稳噪声信号的功率谱估计值,噪声信号功率谱估计基于一个对频谱幅度进行时间递归平均获得的周期图,其中当前帧含噪语音的功率谱S(k,l)可表示为2(,)(,1)+(1)(,)ssSkl=αSkl--αYkl(2)为了更快跟踪采用一个较小的平滑参数sα,其值越低,对当前时间的估计越准确,瞬态信号能迅速被捕捉到,通过实验将其从0.9~0

【参考文献】:
期刊论文
[1]低信噪比环境下语音端点检测改进方法[J]. 王瑶,曾庆宁,龙超,谢先明,毛维.  声学技术. 2018(05)
[2]基于多特征融合与动态阈值的语音端点检测方法[J]. 朱春利,李昕.  计算机工程. 2019(02)
[3]低信噪比下语音端点检测算法的改进研究[J]. 王群,曾庆宁,郑展恒.  科学技术与工程. 2017(21)
[4]基于调制域谱减法的鲁棒性说话人识别[J]. 程小伟,王健,曾庆宁,谢先明,龙超.  科学技术与工程. 2017(03)
[5]基于自适应倒谱距离的强噪声语音端点检测[J]. 赵新燕,王炼红,彭林哲.  计算机科学. 2015(09)
[6]结合相位谱补偿的调制域谱减法[J]. 陈紫强,李欣阳,谢跃雷.  信号处理. 2015(04)
[7]基于Mel倒谱特征顺序统计滤波的语音端点检测算法[J]. 陈振锋,吴蔚澜,刘加,夏善红.  中国科学院大学学报. 2014(04)
[8]强噪声环境下改进的语音端点检测算法[J]. 鲁远耀,周妮,肖珂,叶青.  计算机应用. 2014(05)
[9]基于改进PNCC特征和两步区分性训练的录音设备识别方法[J]. 贺前华,王志锋,Alexander I Rudnicky,朱铮宇,李新超.  电子学报. 2014(01)
[10]基于临界带功率谱方差的端点检测[J]. 张春雷,曾向阳,王曙光.  声学技术. 2012(02)

硕士论文
[1]基于小波和PNCC特征参数的语音识别技术研究[D]. 张子涛.重庆大学 2018



本文编号:3593352

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3593352.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d58c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com