当前位置:主页 > 科技论文 > 信息工程论文 >

基于CNN的连续语音说话人声纹识别

发布时间:2019-02-13 07:28
【摘要】:近年来,随着社会生活水平的不断提高,人们对机器智能人声识别的要求越来越高。高斯混合—隐马尔可夫模型(Gaussian of mixture-hidden Markov model,GMM-HMM)是说话人识别研究领域中最重要的模型。由于该模型对大语音数据的建模能力不是很好,对噪声的顽健性也比较差,模型的发展遇到了瓶颈。为了解决该问题,研究者开始关注深度学习技术。引入了CNN深度学习模型研究连续语音说话人识别问题,并提出了CNN连续说话人识别(continuous speaker recognition of convolutional neural network,CSR-CNN)算法。模型提取固定长度、符合语序的语音片段,形成时间线上的有序语谱图,通过CNN提取特征序列,经过奖惩函数对特征序列组合进行连续测量。实验结果表明,CSR-CNN算法在连续—片段说话人识别领域取得了比GMM-HMM更好的识别效果。
[Abstract]:In recent years, with the continuous improvement of social living standards, the demand of machine intelligent voice recognition is becoming higher and higher. Gao Si Hybrid-Hidden Markov Model (Gaussian of mixture-hidden Markov model,GMM-HMM) is the most important model in the field of speaker recognition. Because the modeling ability of the model for large speech data is not very good, and the robustness to noise is also relatively poor, the development of the model has encountered a bottleneck. In order to solve this problem, researchers begin to pay attention to the technology of deep learning. In this paper, CNN depth learning model is introduced to study the continuous speech speaker recognition problem, and a CNN continuous speaker recognition (continuous speaker recognition of convolutional neural network,CSR-CNN) algorithm is proposed. The model extracts the speech fragments of fixed length and accords with the word order, and forms the ordered linguistic spectrum on the time line. The feature sequences are extracted by CNN, and the combination of feature sequences is continuously measured by the reward and punishment function. Experimental results show that the CSR-CNN algorithm achieves better recognition performance than GMM-HMM in the field of continuous-segment speaker recognition.
【作者单位】: 杭州电子科技大学;
【分类号】:TP393

【相似文献】

相关会议论文 前8条

1 曹阳;黄泰翼;;基于统计方法的汉语连续语音中声调模式的研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

2 程兰颖;俞铁城;李忠香;;基于音节分割的连续语音多模板隐马尔可夫模型的研究[A];第三届全国人机语音通讯学术会议论文集[C];1994年

3 孙海;范京;刘惠华;;汉语连续语音中的单字起止点综合判别的新方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

4 吴及;许海天;王作英;;连续数字串识别中语速的在线自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

5 沈彩凤;俞一彪;;采用三音节FO插值的连续语音声调评测算法[A];2011'中国西部声学学术交流会论文集[C];2011年

6 肖熙;王作英;;汉语连续语音声调识别的HMM方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年

7 曹阳;黄泰翼;;基于小波变换的基频提取和连续语音中基频变化模式的分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年

8 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年

相关博士学位论文 前1条

1 钟金宏;基于音节的汉语连续语音声调识别方法研究[D];合肥工业大学;2001年

相关硕士学位论文 前8条

1 范佳露;3-5岁听障儿童连续语音重复能力的特征及干预研究[D];华东师范大学;2010年

2 张芳;听障与健听儿童连续语音切换能力的比较及应用研究[D];华东师范大学;2009年

3 韩虎;汉语连续语音的音节自动标注算法研究及实现[D];哈尔滨工业大学;2008年

4 袁浩;连续语音中关键词快速检出的研究[D];哈尔滨工业大学;2011年

5 何义华;基于飞行器的连续语音指令识别技术研究[D];南京航空航天大学;2008年

6 陈斌;汉语连续语音声韵母类别属性检测技术研究[D];解放军信息工程大学;2011年

7 严欢;汉语连续语音声调及数字串识别系统的研究[D];哈尔滨理工大学;2011年

8 施凝;中等词汇量的汉语连续语音关键词识别系统[D];同济大学;2006年



本文编号:2421318

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2421318.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29f04***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com