基于双耳声源定位的鲁棒语音分离研究
本文关键词:基于双耳声源定位的鲁棒语音分离研究,,由笔耕文化传播整理发布。
【摘要】:语音分离技术是语音信号处理系统的重要前端,其性能表现对整个系统影响非常大。以往的研究大多做的是固定目标声源方位的语音分离研究,且在混响与噪声的环境下性能下降十分明显。本文从人耳的感知特性出发,以双耳空间信息为基础,研究鲁棒的语音分离算法。本文提出的算法主要包含两大部分:基于深度神经网络的双耳声源定位算法和定位与分离的迭代方法。(1)基于深度神经网络的双耳声源定位算法。人耳听觉系统和神经系统对声信号层层递进的处理方式与近年来在机器学习领域非常火热的深度神经网络对输入信号的处理方式有一定的相似之处。本文将双耳语音定位问题视为一个多分类的问题,训练一个顶层为softmax回归结构的深度神经网络,输出声源处于每个方位的概率,取最大概率方位为声源位置。在处理定位问题时,本文提取的双耳特征线索是互相关函数CCF(Cross Correlation Function)和耳间强度差IID(Interaural Intensity Difference).在实验中,本文选取了定位准确率作为评价标准。在高信噪比和短混响时间的环境下,本文提出的定位算法有接近100%的准确率;在低信噪比和长混响时间的环境下,本文提出的定位算法的准确率在70%以上。(2)定位与分离的迭代方法。本文中使用了耳间时间差ITD(Interaural Time Difference)和耳间强度差IID计算IBM(Ideal Binary Mask)的方法实现语音分离。为了进一步增强算法的鲁棒性,本文提出了声源定位与语音分离迭代的方法。整个分离过程简单而言,首先根据空间线索对混合语音中的多个声源进行定位,将定位作为分离的依据,来实现不同声源数据流的重构;随后对各个重构之后的语音信号重新估计声源方位,再使用修正后的声源方位对混合语音重新进行分离。在迭代若干次之后,输出最后一次重构的语音信号作为分离结果。在实验中,本文选择了PESQ(Perceptual Evaluation of Speech Quality)来评估分离语音的质量。在高信噪比和短混响时间的环境下,本文提出的分离算法的PESQ得分在2.5左右;低信噪比和长混响时间的环境下,本文提出的分析算法的PESQ得分在1.6左右。论文中使用的计算机合成双耳信号采用了MIT媒体实验室提供的HRTF(Head Related Transfer Function)与单声道语音卷积合成,实际采集的双耳信号在实验室的消声室中采用KERMAR人工头采集完成。
【关键词】:双耳声源定位 深度神经网络 语音分离 迭代
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3;TP183
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-15
- 1.1 语音分离技术的研究背景和意义9-10
- 1.2 语音分离技术的研究现状10-12
- 1.3 论文主要研究内容及目标12-13
- 1.3.1 双耳语音多声源定位12-13
- 1.3.2 声源定位和语音分离的迭代结构13
- 1.4 论文组织结构13-15
- 第二章 基于双耳空间定位的语音分离方法介绍15-31
- 2.1 人类的听觉系统15-16
- 2.1.1 人耳生理构造与听觉特点15
- 2.1.2 空间听觉15-16
- 2.2 双耳声源定位线索16-20
- 2.2.1 耳间时间差17-18
- 2.2.2 耳间强度差18-19
- 2.2.3 双耳互相关函数19-20
- 2.3 神经网络简介20-23
- 2.3.1 神经元20-21
- 2.3.2 浅层神经网络21-22
- 2.3.3 深度神经网络22-23
- 2.4 双耳语音信号的采集23-27
- 2.4.1 与头相关传递函数23-24
- 2.4.2 计算机合成双耳信号24-26
- 2.4.3 人工头采集双耳信号26-27
- 2.5 基于双耳空间定位的语音分离概述27-30
- 2.5.1 原有的语音定位分离算法27-28
- 2.5.2 鲁棒性语音分离算法28-29
- 2.5.3 实验与性能评估方法29-30
- 2.6 本章小结30-31
- 第三章 基于DNN的双耳声源定位算法31-47
- 3.1 双耳空间线索提取31-34
- 3.1.1 预处理31-33
- 3.1.2 特征提取33-34
- 3.2 对ITD定位方法的改进34-36
- 3.3 基于DNN的声源定位方法36-43
- 3.3.1 DNN结构36-39
- 3.3.2 DNN训练算法39-42
- 3.3.3 训练数据42
- 3.3.4 训练参数42-43
- 3.4 定位效果的评估43-46
- 3.5 本章小结46-47
- 第四章 定位与分离的迭代方法47-61
- 4.1 迭代框架47-48
- 4.2 混合语音的首次定位48
- 4.3 分离方法48-49
- 4.4 重定位与重分离方法49-50
- 4.5 实验与仿真50-59
- 4.5.1 适定声源的迭代定位测试50-52
- 4.5.2 欠定声源的迭代定位测试52-56
- 4.5.3 分离语音的质量测试56-59
- 4.6 本章小结59-61
- 第五章 总结与展望61-63
- 5.1 总结61-62
- 5.2 展望62-63
- 致谢63-65
- 参考文献65-69
- 攻读硕士学位期间参加的科研项目和完成的论文69
【相似文献】
中国期刊全文数据库 前10条
1 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
2 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期
3 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
4 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期
6 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期
7 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期
8 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期
9 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
10 刘俊良;于凤芹;;基于分离度变步长的自然梯度算法的语音分离[J];计算机工程与应用;2013年21期
中国重要会议论文全文数据库 前5条
1 史晓非;王宪峰;黄耀P;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年
5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
中国博士学位论文全文数据库 前2条
1 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年
2 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年
2 曹猛;基于计算听觉场景分析和深度神经网络的混响语音分离[D];太原理工大学;2016年
3 李枭雄;基于双耳空间信息的语音分离研究[D];东南大学;2015年
4 王瑜;基于计算听觉场景分析的三通道语音分离研究[D];燕山大学;2016年
5 王菁;基于计算听觉场景分析的混合语音分离[D];燕山大学;2016年
6 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年
7 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年
8 张晖;层叠与深度神经网络研究及其在语音分离中的应用[D];内蒙古大学;2014年
9 童开国;多声源环境下基于听觉中枢系统的语音分离研究[D];重庆邮电大学;2012年
10 陈雪勤;基于计算声场景分析的混叠语音分离研究[D];苏州大学;2002年
本文关键词:基于双耳声源定位的鲁棒语音分离研究,由笔耕文化传播整理发布。
本文编号:268567
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/268567.html