当前位置:主页 > 科技论文 > 信息工程论文 >

基于模糊神经网络的说话人识别方法研究

发布时间:2020-03-22 11:20
【摘要】:说话人识别技术是一项通过提取可以表征说话人生理特性的语音参数对说话人身份进行认证的技术。近年来,由于研究者们对人工智能技术的不断深入研究,说话人识别技术也因此得到了快速的发展。语音工作者已经把工作重心从研究基于高斯混合模型的说话人识别方法逐渐转移到研究基于深度神经网络的说话人识别方法中。其中模糊神经网络对说话人语音信号具有较强的模型分类能力,而卷积神经网络对数据又具很好的表征能力,基于此,本文通过提出一种改进的说话人识别方法,对说话人识别效果进行研究。本文的主要内容如下:(1)针对模糊神经网络存在的难以对数据特征进行深度提取的问题,本文通过将卷积神经网络的卷积层和池化层与模糊神经网络进行有效地结合,提出基于改进模糊神经网络的说话人识别方法。该方法首先通过利用卷积层对数据特征进行深度提取,然后通过池化层对提取的特征进行降维,最后将池化层输出的数据模糊化后,模糊推理系统会根据被模糊化后的输入信号的隶属度值,计算出当前规则的适用度,并完成数据去模糊化后,输出层将输出说话人识别结果。(2)针对当前Dropout算法存在因随机丢弃神经元而可能造成关键信息丢失的问题,本文对Dropout算法进行了改进。在当前Dropout算法中引入对神经元输出值阈值判断、分类的机制,并通过自定义函数降低激活程度较高的神经元被丢弃的可能性。实验结果表明,改进的Dropout算法能够有效地提升说话人识别系统的识别性能和泛化能力。
【图文】:

频谱,说话人,原始语音,频谱


完成预处理的语音信号具有更多的高频分量,更少的噪声以及更为均匀的频率分布。(1)预加重受声门激励和生理结构的影响,语音信号的平均功率谱中频率大于 800Hz 的部分会按 6dB 倍频程衰减。为了增加高频成分,我们通常采用数字滤波器对语音信号预加重,从而保持语音信号频谱的均匀性与平滑性[37]。平滑、均匀的语音信号可以用相同的信噪比计算出它的频谱,为下一步的频谱分析做准备。 本次课题中的说话人识别系统采用的是一阶数字滤波器: 11 H z z (2-1)其中 为预加重系数,通常在范围 0.9< <1 内取值,在本次试验中 取值为0.97。图 2-2 中,(a)为在说话人语音样本库中随机选取的一个说话人的语音信号图,(b)为对应的频谱图。

频谱,语音信号,频谱,分帧


(a) (b)图 2-3 滤波器响应与部分语音信号滤波后的频谱图 2-3 中,(a)为滤波器的幅频响应与相位响应。取出第 200 到 455 点的语音信号观察其特性,即(b)图为部分语音信号的频谱及其滤波后的频谱。(2)分帧连续长时语音信号具有时变特性,然而对于时长在 10ms 到 30ms 范围内的语音信号,它的频谱特征变化小,状态稳定,具有短时平稳性。在说话人识别领域,建立说话人识别系统都以短时语音分析技术[38, 39]为基础。长时语音信号分割为多个长度相等的语音片段的过程称为分帧,,其中每一语音片段称作一帧。帧的长度通常在[10,30]毫秒范围内取值。经过分帧,能表征说话人声音特性的语音帧就可以代替整段长时语音信号。(3)加窗为了使每一帧的两端能够平滑过渡,一般对语音帧加窗处理。主瓣和旁瓣的宽度是决定窗函数性能的主要因素。矩形窗函数主瓣集中、频率识别精度高但是
【学位授予单位】:南昌航空大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP183

【相似文献】

相关期刊论文 前10条

1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期

2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期

3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期

4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期

5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期

6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期

7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期

8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期

9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期

相关会议论文 前10条

1 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

2 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

3 吴玺宏;刘文举;;听神经计算模型及其在抗噪说话人识别中的应用[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 任舒彬;杨莹春;吴朝晖;;面向多通道说话人识别的预处理方法实验研究(类别:声纹鉴定)[A];第六届全国现代语音学学术会议论文集(下)[C];2003年

5 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年

6 张陈昊;郑方;王琳琳;;基于多音素类模型的文本无关短语音说话人识别[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

7 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 龙川;景新幸;杨海燕;;矢量量化与协方差矩阵结合的说话人识别方法[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

9 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年

10 王波;王炳锡;徐毅琼;;基于多分类器的抗噪声说话人识别系统[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年

相关重要报纸文章 前2条

1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年

2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年

相关博士学位论文 前10条

1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年

6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年

7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年

8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年

9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年

相关硕士学位论文 前10条

1 梅文星;说话人识别中通用背景模型研究及深度学习初探[D];浙江大学;2019年

2 樊云云;面向说话人识别的深度学习方法研究[D];南昌航空大学;2019年

3 杨志勇;基于模糊神经网络的说话人识别方法研究[D];南昌航空大学;2019年

4 韩旭;噪声环境下基于RNN的说话人识别方法研究[D];哈尔滨理工大学;2019年

5 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年

6 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年

7 易中曼;关于法庭说话人识别的评估[D];西南政法大学;2018年

8 郭慧阳;基于深度学习的说话人识别技术研究[D];厦门大学;2018年

9 杨楠;基于深度学习的说话人识别研究与实现[D];郑州大学;2019年

10 方祥;基于多信息融合的说话人识别[D];哈尔滨理工大学;2018年



本文编号:2594965

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2594965.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a348a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com