声源辨别及定位的并行化方法的研究与实现

发布时间：2017-08-25 07:57

本文关键词：声源辨别及定位的并行化方法的研究与实现

【摘要】：随着“互联网+”和大数据时代的到来,智能终端的语音交互体验广受关注,三维立体声音在实时人机交互中占有重要地位,声源辨别及定位技术被广泛应用于民用和军事领域,具有良好的发展前景。声源辨别定位算法较高的计算复杂度与较大的数据处理规模,制约了其应用的实时性。为此本文设计了声源辨别及定位的并行化方法,基于拾音阵列和GPU并行计算开展了如下工作:(1)以现有声源辨别及定位方法为基础,研究了语音信号预处理的相关技术,介绍了声纹辨别与声源定位的常用方法,分析了基于拾音阵列的声源辨别及定位模型。(2)在传统声纹辨别神经网络的基础上,引入深度学习技术,设计了基于深度信念网络(DBN)的声纹辨别模型,克服了传统神经网络学习能力不足的缺点;给出了针对目标范围内声源辨别的改进方法。(3)在原有TDOA声源定位模型中,将信号的包络分析技术融入时延估计算法中,设计了基于包络匹配法的广义互相关时延估计算法,研究对比了不同声源定位模型的位置解算方法及其性能;利用拾音阵列的位置特性,研究了基于时频掩蔽的目标语音分离和增强方法。(4)针对语音信号处理具有独立性强、方法一致的特点,使用基于CUDA架构的并行计算方法,分别对DBN模型的训练过程、时延估计中的信号分析和信号融合的时频掩蔽算法等操作进行并行化改进,提高了辨别定位方法的处理速度。实验表明,基于拾音阵列的声源辨别及定位的并行化方法能有效实现对目标声源身份的辨别和位置的确定,抗噪性能较好,并行算法的效率有了明显提高,满足实时性的需求。该方法为大数据环境下语音信号的高性能处理提供了一种实现方式。
【关键词】：声源定位 声纹辨别 深度神经网络 CUDA并行化 拾音阵列
【学位授予单位】：江苏科技大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TN912.3
【目录】：

摘要5-6
Abstract6-14
第1章绪论14-22
1.1 课题研究背景和意义14-15
1.2 国内外研究现状及发展趋势15-17
1.2.1 声纹辨别发展历史与现状15
1.2.2 声源定位发展历史与现状15-16
1.2.3 声源辨别定位技术存在的不足及发展趋势16-17
1.3 GPU及其通用计算架构CUDA17-18
1.4 本文主要内容和结构安排18-20
1.4.1 论文主要研究内容18-19
1.4.2 论文结构安排19-20
1.5 本章小结20-22
第2章声源辨别及定位的常用方法22-31
2.1 声源辨别定位模型的设计目标与方法22-23
2.2 语音信号的预处理23-27
2.2.1 预滤波23
2.2.2 预加重23-24
2.2.3 加窗分帧24-25
2.2.4 端点检测25-27
2.3 声纹辨别常用方法概述27-28
2.4 声源定位常用方法概述28-30
2.4.1 基于声压幅度比的定位方法28
2.4.2 基于最大输出功率的可控波束形成技术28-29
2.4.3 基于声达时间差的声源定位技术29-30
2.5 本章小结30-31
第3章基于并行化深度神经网络的声纹辨别模型31-47
3.1 语音信号的特征提取31-35
3.1.1 线性预测系数与其倒谱系数31-32
3.1.2 梅尔频率倒谱系数32-34
3.1.3 线性预测梅尔倒谱系数34-35
3.2 基于深度信念网络的声纹辨别模型35-39
3.2.1 深度神经网络概述35-36
3.2.2 深度信念网络（DBN）36-38
3.2.3 声纹辨别的深度信念网络模型38-39
3.3 基于CUDA的并行DBN优化模型39-42
3.4 实验与分析42-46
3.4.1 实验环境与评估标准42-43
3.4.2 实验数据分析43-46
3.5 本章小结46-47
第4章基于并行化时延估计的声源定位模型47-63
4.1 基于包络分析的时延估计47-53
4.1.1 时延的物理意义47-48
4.1.2 广义互相关时延估计方法48-50
4.1.3 基于包络信号的广义互相关算法50-53
4.2 基于TDOA的定位算法模型53-56
4.2.1 平面双曲线算法模型53-54
4.2.2 平面四元阵算法模型54-56
4.3 基于CUDA并行化的声源定位算法优化56-59
4.3.1 并行化的FFT与IFFT算法57-58
4.3.2 并行化的互功率谱密度算法58-59
4.4 实验与分析59-61
4.5 本章小结61-63
第5章声源辨别及定位的并行化方法的优化与测试63-77
5.1 声源辨别定位的并行化模型设计63-64
5.2 系统模型存在的问题及改进方案64-69
5.2.1 系统模型存在的问题64
5.2.2 针对目标范围声源辨别的改进方法64-66
5.2.3 CUDA编程的存储优化方案66-67
5.2.4 目标声纹分离提取的并行化方法67-69
5.3 系统测试与分析69-75
5.3.1 测试环境69-70
5.3.2 目标语音分离增强效果测试70-72
5.3.3 并行化方法模型整体测试72-74
5.3.4 误差分析74-75
5.4 本章小结75-77
总结与展望77-79
参考文献79-83
攻读硕士学位期间发表的学术成果83-85
致谢85-86
详细摘要86-90

【相似文献】

中国期刊全文数据库前10条

1 沈常宇;郭宝金;姜守军;蒋坤军;;小区域高精度实时三维声源定位系统[J];声学技术;2007年05期

2 郑珍珍;冯华君;沈常宇;丁驰竹;李奇;;基于坐标系变换的三维声源定位算法[J];浙江大学学报(工学版);2008年02期

3 李彦翔;刘庆华;;高斯条件下基于粒子滤波的声源定位[J];电声技术;2009年10期

4 杨杰;张明路;;一种改进的声源目标成型波定位方法的研究[J];河北工业大学学报;2009年05期

5 袁余民;廖海龙;;可移动声源定位系统的研究与实现[J];信息系统工程;2010年01期

6 赵立业;李宏生;;噪声与共振环境下的数字助听器鲁棒声源定位法(英文)[J];Transactions of Nanjing University of Aeronautics & Astronautics;2010年02期

7 李彦翔;刘庆华;;基于粒子滤波的声源定位方法[J];计算机工程与应用;2010年30期

8 陈益如;王博;邬杨波;;基于声音导引的声源定位系统设计[J];工业控制计算机;2010年10期

9 张志勇;高宝成;;一种分布式的声源定位系统[J];数据采集与处理;2010年S1期

10 雷斌;孙舟;;分布式声源定位算法实现[J];西安工业大学学报;2011年02期

中国重要会议论文全文数据库前10条

1 汪增福;刘克辉;王东;韩文善;;基于声压幅度比的声源定位[A];2001年中国智能自动化会议论文集（下册）[C];2001年

2 饶丹;谢菠荪;;声源指向性对双耳可听化质量的影响[A];2005年声频工程学术交流会论文集[C];2005年

3 饶丹;谢菠荪;;声源指向性对双耳可听化质量的影响[A];中国声学学会2007年青年学术会议论文集（上）[C];2007年

4 沈常宇;郭宝金;姜守军;蒋坤军;;小区域高精度实时三维声源定位系统[A];中国声学学会2007年青年学术会议论文集（上）[C];2007年

5 原晶晶;;3-7岁正常儿童声源定位能力的研究[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年

6 全海英;张旭;邓军民;于红玉;徐瑾;孙涌;何宝新;水玉海;王宁宇;;声源定位测听系统的设计[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集（上册）[C];2007年

7 刘哲;陈日林;罗伦楷;滕鹏晓;杨亦春;;探测距离对声源定位精度的影响[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

8 黄益旺;杨士莪;吕钱浩;;基于时延的匹配场声源定位[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

9 刘红云;刘桂礼;罗倩;;基于改进时延估计的声源定位方法实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

10 朱胜佳;任海鹏;;基于混沌共轭梯度法的二维声源定位方法研究[A];2010振动与噪声测试峰会论文集[C];2010年

中国重要报纸全文数据库前1条

1 李函;人是如何定位声源的？[N];科技日报;2008年

中国博士学位论文全文数据库前10条

1 王子腾;高速车辆的声源定量识别方法[D];清华大学;2014年

2 丁浩;可识别声源深度的三维声聚焦波束形成方法研究[D];浙江工业大学;2013年

3 杨志国;马尔可夫状态—空间模型下的声源定位与跟踪[D];浙江大学;2013年

4 周成;人耳声源定位与编码技术研究[D];武汉大学;2011年

5 刘松;基于相位共轭方法进行声源识别和定位[D];大连理工大学;2011年

6 黄益旺;浅海远距离匹配场声源定位研究[D];哈尔滨工程大学;2005年

7 张承云;虚拟听觉环境实时绘制系统平台研究[D];华南理工大学;2012年

8 陈韶华;海洋声源信息获取与传输技术研究[D];西北工业大学;2006年

9 徐勤奇;基于正四面体传声器阵列的机器人声源定位方法研究[D];河北工业大学;2014年

10 饶丹;双耳可听化质量及其影响因素的研究[D];华南理工大学;2009年

中国硕士学位论文全文数据库前10条

1 李贺;基于波束形成算法的声源定位研究及DSP实现[D];南京信息工程大学;2015年

2 刘慧珠;基于麦克风阵列的声源方位估计算法研究[D];西南交通大学;2015年

3 薛伟诚;锯齿尾缘翼型降噪实验研究[D];中国科学院研究生院(工程热物理研究所);2015年

4 肖骏;基于麦克风阵列的实时声源定位技术研究[D];电子科技大学;2015年

5 刘茜茜;基于人耳听觉系统的盲声源分离方法研究[D];电子科技大学;2015年

6 李扬;基于小型麦克风阵列的声源定位系统设计与实现[D];哈尔滨工业大学;2014年

7 李哲;声源定位系统的设计与实现[D];河北科技大学;2015年

8 仲维灿;不确定性条件下机器人声源定位模型研究[D];河北工业大学;2015年

9 杨博元;传感器声源目标定位算法研究[D];西安工业大学;2013年

10 徐亦达;时变海洋声速剖面移动声源反演方法研究[D];浙江大学;2015年

，

本文编号：735912

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/735912.html

上一篇：时间分辨微弱信号检测及其在LIBS中的应用
下一篇：基于压缩感知的三维激光成像雷达恢复算法的研究及应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|