基于深度置信网络的说话人识别研究与实现
发布时间:2017-10-27 19:21
本文关键词:基于深度置信网络的说话人识别研究与实现
更多相关文章: 深度学习 说话人识别 语音滤波 深度置信网络 特征提取 梅尔倒谱系数
【摘要】:随着互联网技术的快速发展,在越来越多的领域内都应用了语音信号处理技术,其中一个重要分支为说话人识别技术,它是目前语音信号处理技术领域中的一个研究热点。说话人识别是对说话人身份进行认证的一种技术,包括语音录入、预处理、特征提取、模型训练以及模式匹配,它是通过从经过预处理后的语音中获取语音特征进行模型训练与模式匹配从而确定说话人身份。从该过程可知特征提取是其他步骤的基础,它是说话人识别中最重要的一个环节,因此本文分析了特征提取方法的优缺点并提出了一种基于改进参数设置的深度置信网络的特征提取算法。影响特征提取的因素有很多,其中噪声是最为直接的因素,从而必须在特征提取前对语音进行滤波操作,因此本文也分析语音滤波方法的优缺点并提出一种多层自适应形态滤波算法,并且以此为基础设计实现一个说话人识别的原型系统。本文的主要工作为:(1)归纳了语音滤波算法和特征提取算法的特点和难点,对比分析了目前常用的语音滤波算法和特征提取算法的优缺点。(2)现有的大多滤波算法在进行语音滤波时损失了较多的纯净语音信号从而使得语音质量下降,利用形态滤波算法进行滤波时既可以很好的滤除语音中的噪音同时也可以减少纯净语音信号的损失,然而现有形态滤波算法还存在结构固定、预设结构元素和偏倚校正系数等问题,针对该问题,提出一种多层自适应形态滤波算法。该算法面对复杂变化的噪声时,可以灵活选择不同的结构元素、优化设置偏倚校正系数向量来减弱形态开运算和形态闭运算所带来的偏倚现象。仿真结果表明该算法改善了形态滤波的性能,具有设计简单、实用性强的特点。(3)现有的特征提取方法中对初始特征的处理大多是进行简单的组合、微分、筛选或加权等,所提取特征表征能力较弱,用其进行说话人识别时正确率较低。针对此问题,将深度置信网络用于特征提取并对其参数的设置进行改进使得所提取特征具有更强表征能力。仿真结果表明该算法所提取的特征能有效的降低说话人识别的误识率。(4)对说话人识别原型系统的需求进行了分析,根据说话人识别的处理流程进行了功能划分,并给出了说话人识别的系统结构,对其中的核心模块进行了详细设计并予以实现,最后对系统的功能和性能进行了测试并对测试结果进行了相应的分析。
【关键词】:深度学习 说话人识别 语音滤波 深度置信网络 特征提取 梅尔倒谱系数
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
- 摘要4-5
- abstract5-9
- 第一章 绪论9-20
- 1.1 课题背景及意义9-10
- 1.2 说话人识别10-12
- 1.2.1 说话人识别的基本概念10-11
- 1.2.2 说话人识别的优势与应用前景11-12
- 1.3 说话人识别的研究现状12-18
- 1.4 论文主要工作18-19
- 1.5 论文的组织结构19-20
- 第二章 说话人识别中的关键技术20-36
- 2.1 说话人识别的处理流程20-21
- 2.2 语音滤波21-25
- 2.2.1 经典语音滤波方法22-23
- 2.2.2 语音滤波效果的评价体系23-25
- 2.3 特征提取25-31
- 2.3.1 经典的特征提取方法25-29
- 2.3.2 特征优劣的评价体系29-31
- 2.4 模式匹配31-34
- 2.4.1 经典模式匹配方法31-32
- 2.4.2 模式匹配方法优劣的评价体系32-34
- 2.5 实验语料库34-35
- 2.6 本章小结35-36
- 第三章 一种多层自适应形态滤波算法36-56
- 3.1 语音滤波方法36-39
- 3.2 形态滤波的原理39-43
- 3.2.1 膨胀运算及腐蚀运算39-40
- 3.2.2 开运算及闭运算40-42
- 3.2.3 经典数学形态滤波器42-43
- 3.3 形态学滤波的相关算法43-45
- 3.4 多层自适应形态滤波算法45-49
- 3.4.1 多层结构45-46
- 3.4.2 自适应设置一维偏倚校正系数向量46-47
- 3.4.3 多层自适应形态滤波算法47-49
- 3.5 实验及结果分析49-54
- 3.5.1 Ⅰ型高斯白噪声的滤波49-50
- 3.5.2 Ⅱ型高斯白噪声的滤波50-52
- 3.5.3 高斯白噪声和sin函数噪声混合噪声的滤波52-53
- 3.5.4 高斯白噪声、sin函数噪声和cos函数噪声混合噪声的滤波53-54
- 3.6 本章小结54-56
- 第四章 基于深度置信网络的特征提取算法56-72
- 4.1 特征提取方法56-57
- 4.2 深度置信网络57-61
- 4.2.1 受限玻尔兹曼机58-59
- 4.2.2 DBNs训练59-61
- 4.3 基于误差判断的改进DBNs61-67
- 4.3.1 初始参数的设置61-64
- 4.3.2 DBNs深度的设置64-65
- 4.3.3 基于改进DBNs的特征提取算法65-67
- 4.4 实验及结果分析67-71
- 4.4.1 实验数据预处理67-68
- 4.4.2 确定终止RBM迭代训练的阈值68-69
- 4.4.3 确定终止RBM叠加的阈值69-70
- 4.4.4 基于改进DBNs所提取特征优劣的比较70-71
- 4.5 本章小结71-72
- 第五章 基于DBNs说话人识别的原型系统设计72-90
- 5.1 需求分析72-74
- 5.2 系统设计74-78
- 5.2.1 概要设计74-75
- 5.2.2 详细设计75-78
- 5.3 功能实现78-82
- 5.4 系统测试和结果分析82-89
- 5.5 本章小结89-90
- 第六章 总结与展望90-92
- 6.1 论文工作总结90-91
- 6.2 研究展望91-92
- 参考文献92-96
- 附录1 攻读硕士学位期间撰写的论文96-97
- 附录2 攻读硕士学位期间申请的专利97-98
- 致谢98
【参考文献】
中国期刊全文数据库 前2条
1 栗志意;张卫强;何亮;刘加;;基于核函数的IVEC-SVM说话人识别系统研究[J];自动化学报;2014年04期
2 ;Single-channel speech enhancement method based on masking properties and minimum statistics[J];Journal of Systems Engineering and Electronics;2004年02期
,本文编号:1104859
本文链接:https://www.wllwen.com/kejilunwen/wltx/1104859.html