当前位置:主页 > 科技论文 > 信息工程论文 >

面向说话人识别的深度学习方法研究

发布时间:2020-10-13 05:06
   说话人识别作为当今社会最热门的生物特征识别技术之一,被广泛应用在人机交互、身份验证、信息检索等方面,具有重要的研究意义和实用价值。近年来,随着深度学习在语音识别的成功应用,基于深度学习的说话人识别研究也受到研究学者们的广泛关注。本文主要研究面向说话人识别的深度学习方法,研究解决如何有效结合深度学习理论和说话人识别技术,在有限训练数据的条件下建立识别系统;如何结合不同种类的深度神经网络,构建高性能的说话人识别模型。主要研究内容如下:(1)研究了基于MFCC-CNN的说话人识别方法。虽然深度神经网络可以将特征提取与识别分类集为一体,直接对原始语音进行端对端识别,但前提是需要大量的训练数据才能获得较好的识别效果。为了提高少量数据环境下说话人识别效果,本文构建一种基于MFCC-CNN的说话人识别模型。该模型是先从原始语音中提取MFCC(Mel-Frequency Cepstral Coefficients,MFCC)参数作为语音特征,再利用CNN(Convolutional Neural Network,CNN)进行识别。同时,为了防止过拟合,通过引入Dropout和L2正则化的方式对模型进行优化。实验结果表明,基于MFCC-CNN的说话人识别方法在网络训练时间大幅缩短的情况下,识别率高于基于端对端的深度说话人识别方法。(2)研究了基于MFCC-CNN-LSTM混合深度神经网络的说话人识别方法。CNN可以克服传统说话人识别中时频偏移导致的不稳定问题,却没有考虑语音上下文之间的关联信息。本文提出一种基于MFCC-CNN-LSTM的说话人识别方法,首先用CNN提取帧间特征,然后用LSTM(Long Short Term Memory,LSTM)对上下文语音帧识别。该方法结合了CNN和LSTM模型的优点。实验结果表明,MFCC-CNN-LSTM混合模型识别性能优于单一的MFCC-CNN模型和MFCC-LSTM模型,且具有较好的鲁棒性。
【学位单位】:南昌航空大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34;TP183
【部分图文】:

说话人识别,语音处理,说话人确认,研究领域


航空大学硕士学位论文 第 1 章 绪论重要研究方向之一,它们同属于语音处理领域[6],语音处理研究领域的分支如 1-1。语音识别技术是一个广义的概念,根据识别内容的不同分为语音识别(识说话内容)、说话人识别(识别说话人是谁)、语种识别[7](识别说话语言种)。说话人识别又叫声纹识别[8,9],是根据说话人所发出的语音来推断出一个身份的技术。其中这个语音信号除了包含单词或句子内容之外,还包含其他关说话人的身份、性别、年龄、情绪、录音环境等信息,同时也会因为说话人自咽喉、鼻腔等发音器官的差异而有所不同。说话人识别技术就是利用语音信号含有的特定说话人信息来自动识别说话者身份。通俗来讲就是它不关心语音表的含义和文字信息,而是强调说话人的个性特征,通过语音的特征参数去辨别段语音出自哪个说话人。

频谱,语音信号,分帧


-1H z 1 -az重系数取值 a=0.94。语音信号 s (s ( n) s(n) as(n 1)语音信号。平稳的,但在短时间内(一般为 1有改变[35],可认为频谱也是不样把语音信号分为若干个短时长,用这一帧语音信号代替整帧是采用可移动的有限长度窗口-100 帧。为了使帧与帧之间平滑示的交叠分段的方法,前一帧和半。

频谱,矩形窗,加窗


会产生频谱泄露,所以还要进行加窗处函数 w (n)相乘得到加窗函数 ( ) ( ) ( )ws n s n w n。形窗,如图 2-3,表达式为: 0,其他1,(01)()nNw nHamming)窗,如图 2-4,表达式为: 0,其他,(0)120.540.46cos()nNNnwn 数对短时参数的计算有很大的影响,由于矩形窗漏,所以通常采用带宽较大,高频分量幅度较小。经过分帧加窗后得到的语音帧就更加平稳,便
【相似文献】

相关期刊论文 前10条

1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期

2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期

3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期

4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期

5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期

6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期

7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期

8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期

9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期


相关博士学位论文 前10条

1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年

6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年

7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年

8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年

9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年


相关硕士学位论文 前10条

1 梅文星;说话人识别中通用背景模型研究及深度学习初探[D];浙江大学;2019年

2 樊云云;面向说话人识别的深度学习方法研究[D];南昌航空大学;2019年

3 杨志勇;基于模糊神经网络的说话人识别方法研究[D];南昌航空大学;2019年

4 韩旭;噪声环境下基于RNN的说话人识别方法研究[D];哈尔滨理工大学;2019年

5 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年

6 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年

7 易中曼;关于法庭说话人识别的评估[D];西南政法大学;2018年

8 郭慧阳;基于深度学习的说话人识别技术研究[D];厦门大学;2018年

9 杨楠;基于深度学习的说话人识别研究与实现[D];郑州大学;2019年

10 方祥;基于多信息融合的说话人识别[D];哈尔滨理工大学;2018年



本文编号:2838771

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2838771.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户75181***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com