基于深度学习的说话人性别特征识别研究
发布时间:2022-08-07 21:34
说话人性别识别是语音识别的一个重要领域,是基于说话人的声学特征进行说话人性别识别的技术。它最早是说话人识别领域的一个子研究课题,对语音信号先进行性别识别,再依据男女类别分别进行说话人识别,可以显著减少搜索空间和时间,在提高说话人辨别的准确率、提高系统的处理速度等方面都具有极大的意义。并且,基于性别相关的情感识别技术也一直是研究者处理情感计算的方法。传统的说话人性别识别系统,在纯净语音环境下以音素或单元音作为性别识别的训练语料的识别率较高,针对电话语音的性别识别也能达到较好的效果;而应用在连续语音或短时语音段上的识别率大大降低。在说话人性别识别系统中,特征参数的选取对系统的识别影响重大,单一的语音特征对识别率的提高有着局限性。本文尝试使用多种特征组合的方法来提升对连续语音的识别率。首先,对比了不同维数下的梅尔倒谱系数特征对识别率的影响;其次,选取了识别率较高的特征系数与基音和共振峰作为组合特征进行识别来进一步提高系统的识别率。另外,由于浅层的分类模型对于高维数据的处理能力不足,难以提取深层的特征信息,容易陷入局部最优解等问题。因此,引入深度学习的方法来进行分类识别,它使得深层神经网络的性...
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 说话人性别识别的研究现状
1.3 深度学习对说话人识别研究的意义
1.4 研究问题及内容
1.4.1 研究问题
1.4.2 研究内容
1.5 论文结构
第二章 说话人识别基础理论及实验分析
2.1 说话人识别模型
2.1.1 说话人识别原理
2.1.2 说话人识别分类
2.1.3 说话人性别识别
2.1.4 识别模型的种类
2.2 语音信号特征提取
2.2.1 语音信号预处理
2.2.2 基音的的提取
2.2.3 共振峰的提取
2.2.4 MFCC的提取
2.3 男女声的区分依据
2.4 男女声语音特征实验分析
2.4.1 语音信号的预处理
2.4.2 基音的提取和比较
2.4.3 共振峰的提取和比较
2.4.4 MFCC系数的提取和比较
2.5 本章小结
第三章 深度学习基础理论
3.1 深度学习背景
3.2 BP神经网络原理
3.2.1 BP神经网络结构
3.2.2 反向传播算法
3.3 深度学习中的关键技术
3.3.1 梯度消失
3.3.2 过度拟合
3.3.3 计算负载
3.4 卷积神经网络(CNN)
3.4.1 CNN的结构
3.4.2 卷积层
3.4.3 池化层
3.5 本章小结
第四章 基于深度学习的说话人性别识别模型的建立
4.1 基于深度学习的说话人性别识别模型
4.1.1 深度学习模型的选取
4.1.2 激励函数
4.1.3 Softmax分类器
4.2 网络的训练
4.2.1 代价函数
4.2.2 学习规则
4.2.3 网络的训练过程
4.3 网络的性能判定
4.4 本章小结
第五章 基于深度学习的说话人性别识别模型的性能分析
5.1 实验环境介绍
5.1.1 实验的硬件环境
5.1.2 实验的软件环境
5.2 实验语音库建立
5.2.1 自建语音库的建立
5.2.2 对照组语音库的介绍
5.3 网络参数的确定
5.3.1 特征数据的预处理
5.3.2 学习率的确定
5.3.3 网络结构的确定
5.3.4 迭代次数的确定
5.4 网络的性能分析
5.4.1 卷积神经网络的结构
5.4.2 不同语音特征的识别性能比较
5.4.3 不同分类模型的识别性能比较
5.4.4 不同语音库的识别性能比较
5.5 实验结果分析
5.6 本章小结
第六章 结论与展望
6.1 结论
6.2 展望
致谢
参考文献
附录A 攻读硕士学位期间学术成果
附录B 实验所用语音库及提取的特征
附录C 论文核心代码
【参考文献】:
期刊论文
[1]基于深度学习的图像描述研究[J]. 杨楠,南琳,张丁一,库涛. 红外与激光工程. 2018(02)
[2]基于深度循环网络的声纹识别方法研究及应用[J]. 余玲飞,刘强. 计算机应用研究. 2019(01)
[3]基于深度学习的藏文分词方法[J]. 李博涵,刘汇丹,龙从军,吴健. 计算机工程与设计. 2018(01)
[4]基于CNN的连续语音说话人声纹识别[J]. 吴震东,潘树诚,章坚武. 电信科学. 2017(03)
[5]基于VQ和HMM的双层声纹识别算法[J]. 赵峰,于洋. 桂林电子科技大学学报. 2017(01)
[6]面向声纹识别的藏语特征提取研究[J]. 李亚莹,周雁. 西藏科技. 2016(11)
[7]基于MFCC与共振峰的声纹识别算法研究[J]. 王正创. 电脑知识与技术. 2016(04)
[8]声纹识别技术及其应用现状[J]. 郑方,李蓝天,张慧,艾斯卡尔·肉孜. 信息安全研究. 2016(01)
[9]基于GMM模型的声纹识别模式匹配研究[J]. 于娴,贺松,彭亚雄,周晚. 通信技术. 2015(01)
[10]基于VQ和GMM的实时声纹识别研究[J]. 鲁晓倩,关胜晓. 计算机系统应用. 2014(09)
硕士论文
[1]卷积神经网络在声纹识别中的应用研究[D]. 胡青.贵州大学 2016
[2]基于深度学习的语音识别研究[D]. 刘帆.河北工业大学 2015
[3]声纹识别中的基音检测算法研究[D]. 庞玄萌.辽宁大学 2013
[4]基于GMM的声纹识别系统研究[D]. 向权.哈尔滨理工大学 2012
[5]基于声纹识别的身份认证技术研究[D]. 彭诗雅.南京航空航天大学 2010
本文编号:3671082
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 说话人性别识别的研究现状
1.3 深度学习对说话人识别研究的意义
1.4 研究问题及内容
1.4.1 研究问题
1.4.2 研究内容
1.5 论文结构
第二章 说话人识别基础理论及实验分析
2.1 说话人识别模型
2.1.1 说话人识别原理
2.1.2 说话人识别分类
2.1.3 说话人性别识别
2.1.4 识别模型的种类
2.2 语音信号特征提取
2.2.1 语音信号预处理
2.2.2 基音的的提取
2.2.3 共振峰的提取
2.2.4 MFCC的提取
2.3 男女声的区分依据
2.4 男女声语音特征实验分析
2.4.1 语音信号的预处理
2.4.2 基音的提取和比较
2.4.3 共振峰的提取和比较
2.4.4 MFCC系数的提取和比较
2.5 本章小结
第三章 深度学习基础理论
3.1 深度学习背景
3.2 BP神经网络原理
3.2.1 BP神经网络结构
3.2.2 反向传播算法
3.3 深度学习中的关键技术
3.3.1 梯度消失
3.3.2 过度拟合
3.3.3 计算负载
3.4 卷积神经网络(CNN)
3.4.1 CNN的结构
3.4.2 卷积层
3.4.3 池化层
3.5 本章小结
第四章 基于深度学习的说话人性别识别模型的建立
4.1 基于深度学习的说话人性别识别模型
4.1.1 深度学习模型的选取
4.1.2 激励函数
4.1.3 Softmax分类器
4.2 网络的训练
4.2.1 代价函数
4.2.2 学习规则
4.2.3 网络的训练过程
4.3 网络的性能判定
4.4 本章小结
第五章 基于深度学习的说话人性别识别模型的性能分析
5.1 实验环境介绍
5.1.1 实验的硬件环境
5.1.2 实验的软件环境
5.2 实验语音库建立
5.2.1 自建语音库的建立
5.2.2 对照组语音库的介绍
5.3 网络参数的确定
5.3.1 特征数据的预处理
5.3.2 学习率的确定
5.3.3 网络结构的确定
5.3.4 迭代次数的确定
5.4 网络的性能分析
5.4.1 卷积神经网络的结构
5.4.2 不同语音特征的识别性能比较
5.4.3 不同分类模型的识别性能比较
5.4.4 不同语音库的识别性能比较
5.5 实验结果分析
5.6 本章小结
第六章 结论与展望
6.1 结论
6.2 展望
致谢
参考文献
附录A 攻读硕士学位期间学术成果
附录B 实验所用语音库及提取的特征
附录C 论文核心代码
【参考文献】:
期刊论文
[1]基于深度学习的图像描述研究[J]. 杨楠,南琳,张丁一,库涛. 红外与激光工程. 2018(02)
[2]基于深度循环网络的声纹识别方法研究及应用[J]. 余玲飞,刘强. 计算机应用研究. 2019(01)
[3]基于深度学习的藏文分词方法[J]. 李博涵,刘汇丹,龙从军,吴健. 计算机工程与设计. 2018(01)
[4]基于CNN的连续语音说话人声纹识别[J]. 吴震东,潘树诚,章坚武. 电信科学. 2017(03)
[5]基于VQ和HMM的双层声纹识别算法[J]. 赵峰,于洋. 桂林电子科技大学学报. 2017(01)
[6]面向声纹识别的藏语特征提取研究[J]. 李亚莹,周雁. 西藏科技. 2016(11)
[7]基于MFCC与共振峰的声纹识别算法研究[J]. 王正创. 电脑知识与技术. 2016(04)
[8]声纹识别技术及其应用现状[J]. 郑方,李蓝天,张慧,艾斯卡尔·肉孜. 信息安全研究. 2016(01)
[9]基于GMM模型的声纹识别模式匹配研究[J]. 于娴,贺松,彭亚雄,周晚. 通信技术. 2015(01)
[10]基于VQ和GMM的实时声纹识别研究[J]. 鲁晓倩,关胜晓. 计算机系统应用. 2014(09)
硕士论文
[1]卷积神经网络在声纹识别中的应用研究[D]. 胡青.贵州大学 2016
[2]基于深度学习的语音识别研究[D]. 刘帆.河北工业大学 2015
[3]声纹识别中的基音检测算法研究[D]. 庞玄萌.辽宁大学 2013
[4]基于GMM的声纹识别系统研究[D]. 向权.哈尔滨理工大学 2012
[5]基于声纹识别的身份认证技术研究[D]. 彭诗雅.南京航空航天大学 2010
本文编号:3671082
本文链接:https://www.wllwen.com/kejilunwen/wltx/3671082.html