当前位置:主页 > 科技论文 > 网络通信论文 >

基于双耳听觉时延估计的声源定位研究

发布时间:2020-08-28 21:25
   声源定位技术在人机交互、智能会议、助听器等中发挥着重要作用。室内环境中存在混响和噪声会对声源定位结果产生影响,造成一定的误差。因此,对混响和噪声环境中如何提高声源定位准确度的研究具有重要意义。首先,论文研究与分析了基于双耳信号的声源定位算法的理论基础,并重点研究了双耳信号的声源定位原理,分析双耳信号模型和确定了双耳听觉声源定位的总体方案。其次,论文对常用时延估计方法的相关原理进行了研究。针对声源信号各频率分量作同样的处理不能解决混响对不同频率语音的影响差异而导致定位误差的问题,提出一种基于分频的广义互相关的时延估计算法。双耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子带进行互相关计算,将每个子带互相关函数求和得出最大互相关值相对应的双耳时间差值,再经过几何模型获得方位角度。通过实验证明,该算法对语音信号的各个频率分量作了充分地去混响处理,有效地减少了多频声源中混响带来的定位误差。再者,论文对方位估计方法进行了较深入研究,针对存在混响和噪声而导致声源定位性能下降的问题,提出一种基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位算法。该算法利用DNNs来映射双耳特征与方位角之间的关系,通过DNNs学习与测试过程来提高声源定位的准确度,并在DNN学习过程加入不同信噪比的噪声来提高该算法的抗噪性能。首先通过CIPIC数据库中的头部相关响应函数构建双耳信号,再利用Gammatone滤波器对双耳信号进行分频,对分频后子带信号进行倒谱去混响处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross-Correlation Function,GCCF)。本文将双耳语音定位视为一个多分类的问题,将GCCF和双耳声压级差(Interaural Level Differences,ILDs)作为定位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置。实验证明,该算法能有效提高混响和噪声环境中的定位准确度。最后,构建了一个基于双耳信号的声源定位系统,并进行了相应的实验测试和分析。实验结果表明,基于分频和DNNs的声源定位算法具有更好的定位准确度,实验结果和理论计算的结果是一致的,在混响时间为0.89s,信噪比分别为SNR=20dB,10dB和0dB时,声源定位准确估计率分别为88.56%,84.46%和70.06%,能在噪声和混响环境下能达到较好的定位效果。
【学位单位】:重庆邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.3
【部分图文】:

坐标系,仰角,双耳信号,水平面


庆邮电大学硕士学位论文 第 2 章 基于双耳信号声源定位的理论研究与方案设源矢量与水平面前半平面的夹角,仰角为 0°代表水平面,仰角为 180°代表正,仰角为 90°代表正上方,仰角为 270°正下方。

界面图,数据集,仰角,加载


声源矢量与水平面前半平面的夹角,仰角为 0°代表水平面,仰角为 180°代表正方,仰角为 90°代表正上方,仰角为 270°正下方。图 2.1 CIPIC 测量 HRTF 使用的坐标系

布局图,布局图,波形图


载 GUI 界面图中,还可以看出左右耳信号的 HRIR 和 HRTF 灰度图像和波形图,以及 ITD 波形图。图中左耳 HRIR 灰度图像中水平方向的虚线是指到达时间,垂直方向的虚线是指对应的仰角。图 2.3 为 GUI 布局图,详细地解释了图 2.2 中图形内容以及布局。在图 2.3 中左侧四个两两并排放置的图形分别为左右耳信号的HRIR 图和 HRTF 图,右边四个图从上往下分别为 ITD 波形图、HRIR 波形图和左右耳 HRTF 波形图。2.1.3 HRTF 时频特性HRTF 在时域的等价表达是 HRIR,它们与LH 、RH 由傅里叶变换相联系: 22, , , , , , , ,, , , , , , , ,j ftL Lj ftR RH r f h r f e dtH r f h r f e dt (2.3)HRIR 表示声源到双耳的脉冲响应,它是声源的位置r 、 、 及时间t的函数,

【参考文献】

相关期刊论文 前8条

1 张毅;许方煜;罗元;;噪声下基于耳蜗基底膜分频特性的声源定位[J];重庆邮电大学学报(自然科学版);2015年06期

2 郭业才;张宁;吴礼福;孙心宇;;基于自适应加权约束最小二乘法的麦克风阵列稳健频率不变波束形成算法[J];物理学报;2015年17期

3 罗元;陈凯;张毅;;一种结合听觉掩蔽与双耳互相关的声源定位算法[J];计算机应用与软件;2015年03期

4 郭业才;宋宫琨琨;吴礼福;孙心宇;王丽华;;基于圆形麦克风阵列的声源定位改进算法[J];数据采集与处理;2015年02期

5 张雷岳;张兴敢;刘超;;麦克风阵列声源定位中时延估计的改进[J];南京大学学报(自然科学);2015年01期

6 张毅;邢武超;罗元;何春江;;基于耳蜗核模型改进双耳时间差的声源定位[J];计算机应用;2013年11期

7 谢菠荪;;头相关传输函数相位特性及双耳时间差的意义[J];电声技术;2006年11期

8 张武威;关于室内混响时间的计算问题[J];电声技术;2005年03期

相关博士学位论文 前3条

1 吕晓玲;基于听觉信息的机器人声源定位技术研究[D];河北工业大学;2010年

2 崔玮玮;基于麦克风阵列的声源定位与语音增强方法研究[D];清华大学;2009年

3 居太亮;基于麦克风阵列的声源定位算法研究[D];电子科技大学;2006年

相关硕士学位论文 前10条

1 刘平方;基于虚拟仪器的声源追踪技术研究[D];河南工业大学;2016年

2 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年

3 王宜童;分布式阵列声源定位方法的研究[D];辽宁工业大学;2016年

4 段丽萍;基于TDOA算法的四麦克风阵列三维声源定位研究[D];兰州理工大学;2014年

5 李文东;人机交互中的声源定位与增强方法研究[D];华南理工大学;2014年

6 马明宇;语音信号的混响消减技术研究[D];西南交通大学;2014年

7 李薯光;3D虚拟声算法研究与实现[D];西安电子科技大学;2014年

8 王春霞;声源定位系统时延估计算法优化研究[D];河北工程大学;2012年

9 宗志亚;基于麦克风阵列的室内声源定位方法研究[D];重庆大学;2012年

10 柯昆;声源定位技术研究[D];西安电子科技大学;2010年



本文编号:2808184

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2808184.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户30681***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com