基于双耳听觉时延估计的声源定位研究

发布时间：2020-08-28 21:25

　　声源定位技术在人机交互、智能会议、助听器等中发挥着重要作用。室内环境中存在混响和噪声会对声源定位结果产生影响,造成一定的误差。因此,对混响和噪声环境中如何提高声源定位准确度的研究具有重要意义。首先,论文研究与分析了基于双耳信号的声源定位算法的理论基础,并重点研究了双耳信号的声源定位原理,分析双耳信号模型和确定了双耳听觉声源定位的总体方案。其次,论文对常用时延估计方法的相关原理进行了研究。针对声源信号各频率分量作同样的处理不能解决混响对不同频率语音的影响差异而导致定位误差的问题,提出一种基于分频的广义互相关的时延估计算法。双耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子带进行互相关计算,将每个子带互相关函数求和得出最大互相关值相对应的双耳时间差值,再经过几何模型获得方位角度。通过实验证明,该算法对语音信号的各个频率分量作了充分地去混响处理,有效地减少了多频声源中混响带来的定位误差。再者,论文对方位估计方法进行了较深入研究,针对存在混响和噪声而导致声源定位性能下降的问题,提出一种基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位算法。该算法利用DNNs来映射双耳特征与方位角之间的关系,通过DNNs学习与测试过程来提高声源定位的准确度,并在DNN学习过程加入不同信噪比的噪声来提高该算法的抗噪性能。首先通过CIPIC数据库中的头部相关响应函数构建双耳信号,再利用Gammatone滤波器对双耳信号进行分频,对分频后子带信号进行倒谱去混响处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross-Correlation Function,GCCF)。本文将双耳语音定位视为一个多分类的问题,将GCCF和双耳声压级差(Interaural Level Differences,ILDs)作为定位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置。实验证明,该算法能有效提高混响和噪声环境中的定位准确度。最后,构建了一个基于双耳信号的声源定位系统,并进行了相应的实验测试和分析。实验结果表明,基于分频和DNNs的声源定位算法具有更好的定位准确度,实验结果和理论计算的结果是一致的,在混响时间为0.89s,信噪比分别为SNR=20dB,10dB和0dB时,声源定位准确估计率分别为88.56%,84.46%和70.06%,能在噪声和混响环境下能达到较好的定位效果。
【学位单位】：重庆邮电大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TN912.3
【部分图文】：

坐标系,仰角,双耳信号,水平面

庆邮电大学硕士学位论文第 2 章基于双耳信号声源定位的理论研究与方案设源矢量与水平面前半平面的夹角，仰角为 0°代表水平面，仰角为 180°代表正，仰角为 90°代表正上方，仰角为 270°正下方。

界面图,数据集,仰角,加载

声源矢量与水平面前半平面的夹角，仰角为 0°代表水平面，仰角为 180°代表正方，仰角为 90°代表正上方，仰角为 270°正下方。图 2.1 CIPIC 测量 HRTF 使用的坐标系

布局图,布局图,波形图

载 GUI 界面图中，还可以看出左右耳信号的 HRIR 和 HRTF 灰度图像和波形图，以及 ITD 波形图。图中左耳 HRIR 灰度图像中水平方向的虚线是指到达时间，垂直方向的虚线是指对应的仰角。图 2.3 为 GUI 布局图，详细地解释了图 2.2 中图形内容以及布局。在图 2.3 中左侧四个两两并排放置的图形分别为左右耳信号的HRIR 图和 HRTF 图，右边四个图从上往下分别为 ITD 波形图、HRIR 波形图和左右耳 HRTF 波形图。2.1.3 HRTF 时频特性HRTF 在时域的等价表达是 HRIR，它们与LH 、RH 由傅里叶变换相联系： 22, , , , , , , ,, , , , , , , ,j ftL Lj ftR RH r f h r f e dtH r f h r f e dt (2.3)HRIR 表示声源到双耳的脉冲响应，它是声源的位置r 、、及时间t的函数，

【参考文献】