单通道语音分离关键技术研究
本文关键词:单通道语音分离关键技术研究
更多相关文章: 计算听觉场景 语音分离 音质客观评价算法 基音跟踪
【摘要】:随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语音识别、语言自动翻译、说话者识别等技术的有力支撑。由于很多人机语音交互的实际应用场景中只有一个语音输入设备,单通道语音分离技术受到许多研究人员的关注。以听觉场景分析理论为基础,研究人员提出了基于计算听觉场景分析的单通道语音分离系统。这种语音分离系统的处理过程与人类听觉系统感知语音信号的过程类似,经过不断的改进,取得了较好的分离效果。本文对计算听觉场景分析的相关理论和算法进行了研究,详细的介绍了目前比较先进的Hu-Wang系统。并在Hu-Wang提出的单通道语音分离系统的基础上,提出了一些改进方法,本文主要的创新点如下:1.本文通过使用数学形态学图像处理技术,对CASA系统进行初步浊音分段得到的二值掩码图进行了改进。传统的CASA系统使用固定的阈值来进行浊音的初步分段,导致得到的二值掩码图中包含了残余的噪声和破损的语音。CASA系统后续的基音检测和组合过程都是以这个二值掩码图为基础的,不准确的二值掩码图会严重的影响CASA系统的语音分离结果。本文利用数学形态学图像处理技术,在二值掩码图的高频区域利用开运算消除噪声,在低频区域利用闭运算修补目标语音。实验表明,该方法能有效的提高初步浊音分段结果中目标语音信号的比例。2.针对Hu-wang串联语音分离系统在控制迭代过程中的不足,本文提出了一种基于语音客观评价算法改进迭代过程的方法。具体的做法是,对每一次迭代的结果,都经过后续的处理过程形成语音文件,将语音文件进行p.563语音质量检测,通过语音质量检测的结果来决定是否需要再次进行迭代。实验证明利用语音客观评价方法控制迭代流程要比传统方式更好。第一,客观语音质量评价算法可以根据每次迭代后目标语音的MOS-LQP评分值来控制迭代过程,让整个语音分离系统能够适用于不同的使用场景和不用的需求。第二,Hu-Wang系统中将数据是否收敛作为终止迭代系统的一个指标,而语音的客观评价标准比这个指标更具有权威性,更适合用来控制迭代流程。
【关键词】:计算听觉场景 语音分离 音质客观评价算法 基音跟踪
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-15
- 1.1 选题背景及研究意义10
- 1.2 单通道语音分离技术的发展10-13
- 1.2.1 基于CASA的语音分离技术10-12
- 1.2.2 基于频谱分解法的语音分离技术12-13
- 1.2.3 基于模型的语音分离技术13
- 1.3 本文主要工作13-14
- 1.4 本论文的结构安排14-15
- 第二章 计算听觉场景分析理论概述15-24
- 2.1 人耳的听觉感知系统15-16
- 2.2 语音的听觉特性16-18
- 2.2.1 清、浊音与基音周期16-17
- 2.2.2 声音的掩蔽效应17-18
- 2.3 CASA系统的基本原理和目标18-20
- 2.3.1 CASA系统的基本原理18
- 2.3.2 CASA系统的目标18-20
- 2.4 CASA系统的分类20-21
- 2.4.1 数据驱动型CASA系统20
- 2.4.2 图式驱动型CASA系统20-21
- 2.5 CASA单通道语音系统的难点21-22
- 2.6 CASA语音分离系统的应用前景22-24
- 第三章 一个典型的CASA系统24-42
- 3.1 听觉前端处理24-26
- 3.2 特征提取26-29
- 3.2.1 自相关图及其包络图26-29
- 3.2.2 信道之间的相关性29
- 3.3 分段29-31
- 3.3.1 清音语音的分段30
- 3.3.2 浊音语音的分段30-31
- 3.4 基音检测31-39
- 3.4.1 给定目标语音基音情况下检测IBM32-35
- 3.4.2 给定IBM情况下进行基音检测35-37
- 3.4.3 迭代过程37-39
- 3.5 时-频单元标注与组合39-42
- 第四章 基于数学形态学图像处理的初步浊音分段42-60
- 4.1 引言42-43
- 4.2 数学形态学图像处理简介43-46
- 4.2.1 结构元素43
- 4.2.2 腐蚀运算43-45
- 4.2.3 膨胀运算45-46
- 4.3 基于数学形态图像处理的浊音分段46-50
- 4.3.1 开运算滤除噪声47-48
- 4.3.2 闭运算修补语音信号48-50
- 4.4 算法实现与评估50-58
- 4.4.1 算法实现50-55
- 4.4.2 算法评估55-58
- 4.5 本章小结58-60
- 第五章 基于单端客观语音测量算法的CASA系统60-73
- 5.1 引言60
- 5.2 语音质量评价60-63
- 5.3 基于单端语音测量算法对CASA系统的改进63-65
- 5.3.1Hu-Wang串联语音分离系统的迭代过程63-64
- 5.3.2 基于语音客观评价方法改进串联语音分离系统的迭代过程64-65
- 5.4 算法实现与评估65-71
- 5.4.1 基于语音客观评价方法改进串联语音分离系统的实现65-69
- 5.4.2 算法的评估69-71
- 5.5 本章小结71-73
- 第六章 总结与展望73-75
- 6.1 全文研究工作总结73
- 6.2 展望73-75
- 致谢75-76
- 参考文献76-79
- 攻硕期间取得的成果79-80
【相似文献】
中国期刊全文数据库 前10条
1 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
2 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期
3 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
4 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期
6 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期
7 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期
8 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期
9 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
10 刘俊良;于凤芹;;基于分离度变步长的自然梯度算法的语音分离[J];计算机工程与应用;2013年21期
中国重要会议论文全文数据库 前5条
1 史晓非;王宪峰;黄耀P;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年
5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
中国博士学位论文全文数据库 前2条
1 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年
2 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年
2 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年
3 张晖;层叠与深度神经网络研究及其在语音分离中的应用[D];内蒙古大学;2014年
4 童开国;多声源环境下基于听觉中枢系统的语音分离研究[D];重庆邮电大学;2012年
5 陈雪勤;基于计算声场景分析的混叠语音分离研究[D];苏州大学;2002年
6 丁文;非负矩阵的分解及其在单声道语音分离中的应用[D];南昌大学;2014年
7 汪健;基于空域滤波的语音分离研究[D];西南交通大学;2011年
8 刘仙伟;卷积语音盲分离的SOPC实现[D];大连理工大学;2011年
9 宋岳阳;基于单源欠定语音分离的音乐主旋律提取方法研究[D];北京邮电大学;2012年
10 吴春;基于计算听觉场景分析的双说话人混合语音分离研究[D];广西大学;2014年
,本文编号:616544
本文链接:https://www.wllwen.com/kejilunwen/wltx/616544.html