复杂环境下音质客观评价的参考源构造方法研究

发布时间：2018-11-19 22:20

【摘要】：作为通信服务质量(Quality of Service,QoS)的重要组成部分,语音质量客观评价方法受到了广泛的关注。实际的语音通信中持续存在的复杂环境噪声很大程度地影响着人们对通信音质的主观评价,是决定语音质量的主要因素。因此,复杂环境下高效的语音质量客观评价方法成为了研究热点。目前,以国际电信联盟(International Telecommunication Union,ITU)提出的音质感知评估(Perceptual Evaluation Speech Quality,PESQ)为代表的有参考源客观评价方法采用干净语音和经过噪声污染的失真语音信号作为语音质量评价的输入参量,寻求两者的听觉失真误差与主观感知之间的关系,基本实现了与主观评价的较高相关度的契合。然而该类方法需要原始语音并且要求和失真语音之间做到严格同步,在实际监测过程中,严格同步的要求并不容易得到满足,同时大部分的应用场景无法获得原始干净语音。另一方面,以ITU P.563为代表的无参考源客观评价方法主要通过探求描述干净信号和失真信号之间主观感知差异的语音特征来估测语音质量,虽然评价过程不需要原始干净语音,但是这类方法需要对原始干净信号空间作出假设,因此与主观评价的相关度不如有参考源客观评价方法。本文基于这个事实,以提升复杂环境下音质主客观评价的相关度为目标,提出一种基于准干净语音构造和有参考源评价方法实现复杂环境下语音质量的无参考源客观评价模型,以准干净语音构造为核心研究内容,从复杂环境下的噪声跟踪与去除,干净语音信号稀疏重构和语噪源分离等角度探求了多种准干净语音构造方法,并提出了适用于无参考源情况的改进有参考源评价模型。本文主要工作及贡献如下:(1)提出了基于准干净语音构造和有参考源方法实现复杂环境下语音质量的无参考源客观评价模型。模型分为两步实现:第一步,准干净语音构造。目标是从带噪语音谱中尽可能地将原始干净的语音信号恢复出来,然后通过逆变换获得时域信号;第二步,有参考源感知测量。将准干净语音作为有参考源评价模型的参考源,通过计算参考语音与带噪语音之间的失真误差,获得带噪语音的客观评价分值。另一方面,基于PESQ算法应用的有效性和广泛性,并且考虑准干净语音与带噪语音是严格同步的,提出将去除时间对齐模块的改进PESQ作为算法有参考源感知测量模型。(2)围绕(1)中准干净语音构造目标,针对目前主流的最小值控制递归平均(Minima Control Recursive Averaging,MCRA)噪声估计算法在复杂环境下存在噪声跟踪时延的问题,提出一种基于改进MCRA的准干净语音构造算法。该算法采取话音活动检测(voiceactivitydetection,vad)对带噪语音噪声谱进行语音与非语音部分的区分计算,并且采用局部最小值连续跟踪的方法,使得噪声跟踪可以不受窗口长度的限制。另外考虑到mcra算法利用过去估计的噪声谱与当前带噪语音谱对当前的噪声谱进行估计,采用非语音的先验信息和频率相关阈值计算信号的语音存在概率,以提高噪声跟踪的准确性。在基于timit与noisex-92噪声数据库的准干净语音构造性能实验结果中,在不同噪声信噪比条件下,改进mcra与经典mcra和最小值统计(minimumstatistic,ms)方法相比,对数似然度llr(loglikelihoodratio,llr)平均降低了0.08~0.18,分段信噪比(segmentalsnr,segmentsnr)平均提升幅度提高了1.44db~2.46db。在noizeus和itu-tp.supplement-23复杂环境带噪语音库的客观评价实验结果中,基于改进mcra准干净语音构造的无参考源评价方法相关度r在非条件平均和条件平均下分别为0.739和0.857,相对于p.563和其他比较方法,提高了5.4%~9.8%;与pesq算法性能相比,实现了87.8%和95.1%相关度的接近。(3)针对(2)中改进mcra方法存在噪声谱估计误差和交叉项误差等影响性能的因素,基于语音信号空间的过完备表征,从干净语音信号稀疏重构的角度提出一种自适应逼近残差的稀疏表示准干净语音构造方法(asrdn)。基于相位不会对语音可懂度造成影响的原则,给出了一种交叉项误差补偿方法,并且通过瞬时后验信噪比相关的权重因子对持续估计的噪声谱进行调整以提升噪声谱估计的准确性。基于k奇异值分解(k-singularvaluedecomposition,k-svd)算法构建干净语音谱的过完备字典,在稀疏表示时,基于调整后的噪声谱和估计的交叉项自适应地更新逼近残差,并采用正交匹配追踪(orthogonalmatchingpursuit,omp)算法对干净语音谱进行稀疏重构。在准干净语音构造性能实验结果中,相对于改进mcra和其他同类方法,llr平均降低了0.03~0.16,segmentsnr平均提升幅度提高了1.26db~3.79db。在音质客观评价实验结果中,相关度r非条件平均和条件平均分别为0.768和0.874,相对于改进mcra,p.563和其他比较方法,提高了3.9%~14.8%;与pesq算法性能相比,实现了91.3%和96.8%相关度的接近。(4)针对(3)中asrdn算法重构信号所需的计算用时较大,并且仅采用了与语音相关的功率谱字典对准干净语音进行重构,对于与语音相似的结构形背景噪声出现提取的语音原子会表征噪声信息,导致重构语音包含部分背景噪声等问题,从语噪两种源统计分析和分离的角度,基于非负矩阵分解(non-negativematrixfactorization,nmf)理论实现了新的准干净语音构造方法。首先对标准NMF分离的局限性进行了分析,并基于变分贝叶斯NMF对实际信号建模的灵活性,将变分贝叶斯NMF模型引入到准干净语音构造中,提出了基于变分贝叶斯NMF的准干净语音构造方法。同时,考虑到现实环境中的噪声类型不可预知,离线训练的噪声基础矩阵并不一定对应于现实的噪声类型,在变分贝叶斯NMF的基础上提出了一种在线数据驱动的噪声基础矩阵自适应更新方法。该方法在训练阶段采用类型和数目足够多的噪声样本来构建噪声的变分贝叶斯NMF背景模型,在语噪分离时,基于现实噪声类型比较稳定,噪声基础矩阵不会剧烈变化的事实,在一定时间范围内估算出带噪语音信号内的噪声帧。基于这些在线噪声数据,通过变分贝叶斯NMF训练更新噪声基础矩阵,实现将噪声背景模型自适应更新到实际的噪声类型。在准干净语音构造性能实验结果中,相对于ASRDN和其他同类方法,LLR平均降低了0.11~0.19,SegmentSNR平均提升幅度提高了1.46dB~4.68dB,而计算用时大概仅为ASRDN的一半。在音质客观评价实验结果中,相关度R非条件平均和条件平均为0.802和0.892,相对于ASRDN,P.563和其他比较方法,提高了4.4%~19.1%;与PESQ算法性能相比,实现了95.3%和98.9%相关度的接近。
[Abstract]:......
【学位授予单位】：华南理工大学
【学位级别】：博士
【学位授予年份】：2016
【分类号】：TN912.3

【相似文献】