当前位置:主页 > 科技论文 > 网络通信论文 >

基于语种对抗训练的跨语种说话人识别研究

发布时间:2020-11-04 07:38
   近年来,随着科技的高速发展,人们越来越多的关注到生活中的信息安全和身份认证,个人信息、保密信息的泄漏不但对个人的人身、财产安全造成严重威胁,也会对社会的发展带来不利的影响。目前,身份证件、口令密码等传统的身份认证和鉴别的方法已经不能完全满足人们的需求,而基于生物特征的身份鉴别技术以其方便、可靠等特性,越来越多的得到了人们的关注。语音作为人们日常生活中交流沟通最直接、最便捷的方式,其中衍生出的说话人识别技术也成为研究的热点和重点随着国际化浪潮的推进,单一的语言已经完全不能满足人们的日常生活、工作和学习的需要。我国幅员辽阔,是一个多民族融合的国家,有着丰富的少数民族语言和地区方言,这种情况在我国南部和西部的粤语、藏语、维语等与中文普通话差异较大的方言和民族语言流行的地区尤为明显,跨语种的说话人识别问题在身份认证、公安刑侦、国防安全等领域尤显突出。本文针对跨语种的说话人识别这一问题提出基于语种对抗训练的跨语种说话人识别算法。利用迁移学习中对抗训练的方式提高从语音中提取说话人信息的能力,进而提高对跨语种任务中说话人识别的精度。本文的主要工作和贡献包括以下几点:(1)将卷积神经网络和时延神经网络相结合,应用于说话人识别的任务上,利用深度神经网络强大的表达能力,构建了一个可以实现端到端识别说话人的网络模型,并在跨语种的说话人识别数据上验证了其有效性。实验证明卷积-时延神经网络可以有效提取语音中的说话人信息,在同语种和跨语种的说话人识别任务中均能有效使用。(2)提出了基于语种对抗训练的说话人识别算法。利用迁移学习中对抗训练的思想,在基于深度神经网络的端到端的说话人识别网络中使用语种对抗训练的方法训练网络,在训练中加入语种监督信息。实验证明,该算法继承了深度神经网络能有效提取说话人信息的特点,同时能将网络中隐藏层提取的特征信息排除语种信息干扰,有效提高了跨语种说话人识别的精度。(3)利用三元损失函数训练深度神经网络。使用三元损失函数替代常规网络训练中的交叉熵函数,将不同说话人信息和不同语种之间的信息同时引入到网络训练中,进一步提高跨语种说话人识别的精度。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34;TP183
【文章目录】:
摘要
Abstract
中英文对照表
1 绪论
    1.1 研究背景和意义
    1.2 国内外研究概况
    1.3 论文的主要研究内容和章节安排
2 说话人识别的相关技术基础
    2.1 说话人识别的基本原理
    2.2 语音数据的预处理与特征提取
    2.3 基于i-vector的说话人识别
    2.4 说话人识别数据集与评价指标
    2.5 实验及结果分析
    2.6 本章小结
3 基于卷积-时延神经网络的端到端说话人识别算法
    3.1 引言
    3.2 卷积-时延深度神经网络
    3.3 实验及结果分析
    3.4 本章小结
4 基于语种对抗训练的说话人识别算法算法
    4.1 引言
    4.2 语种对抗训练
    4.3 三元损失函数
    4.4 实验及结果分析
    4.5 本章小结
5 总结与展望
致谢
参考文献

【参考文献】

相关期刊论文 前2条

1 蔡娟;蔡坚勇;廖晓东;黄海涛;丁侨俊;;基于卷积神经网络的手势识别初探[J];计算机系统应用;2015年04期

2 庄福振;罗平;何清;史忠植;;迁移学习研究进展[J];软件学报;2015年01期


相关硕士学位论文 前1条

1 蒋伟;基于高斯混合模型的说话人识别研究[D];电子科技大学;2008年



本文编号:2869826

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2869826.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7dbd7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com