基于融合特征与高斯混合模型的说话人识别研究
本文关键词: 说话人识别 特征提取 融合特征 高斯混合模型 出处:《东华理工大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着移动互联网的快速发展,方便快捷的生物认证技术越来越受到重视。说话人识别又称为声纹识别,是生物认证技术的一种,其凭借更便捷、更安全、更经济的优势迎来了发展的契机,广泛应用于通信网络、商业交易、司法鉴定以及军事安全等领域。说话人识别的关键在特征提取与模型训练上,其常用的语音特征有线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)以及感知线性预测(PLP),其中MFCC与PLP的识别性能要优于LPCC,但MFCC与PLP分别作为单一特征用于说话人识别仍不能满足一些领域的高精确性要求,而高斯混合模型(GMM)由于其方法简单、识别性能优良运用最为广泛,但简单的初始参数选择方法使其有不稳定、精确性不足等缺陷,基于此本文提出一种新的融合特征PLP-MFCC以及改进的GMM来提升识别的性能,主要工作内容如下:首先,介绍说话人识别中常用的特征参数LPCC、MFCC、PLP以及它们的提取过程,在分析F比与D比两种特征参数评价方法后,通过F比和D比选出MFCC与PLP中的部分特征进行融合,得到新的融合特征PLP-MFCC;其次,研究GMM的建模方法,GMM训练模型的过程就是其参数估计的过程,而参数估计中初始参数的选择会影响训练模型的精确性,初始参数的选取通常采用随机法或K均值算法,在分析它们存在的一些问题后,将一种改进的K均值算法运用到GMM参数估计中对GMM进行改进;最后,在Matlab平台上构建了基于高斯混合模型的说话人识别系统,实验采用标准的TIMIT语音库,将融合特征PLP-MFCC与MFCC、PLP进行对比实验,PLP-MFCC的识别率相比于MFCC、PLP分别提升了4.9%、3.8%,再将改进前后的GMM进行对比实验,改进后的GMM相比于改进前的GMM识别率提升了2.3%,实验结果表明,本文提出的融合特征以及改进的GMM对于提升说话人识别系统的性能有一定的效果。
[Abstract]:With the rapid development of mobile Internet, more and more attention has been paid to the convenient and fast biometric authentication technology. Speaker recognition, also known as voiceprint recognition, is a kind of biometric authentication technology, which is more convenient and more secure. The more economical advantage ushered in the development opportunity, widely used in the communication network, the commercial transaction, the judicial appraisal and the military security and so on domain. The speaker recognition key lies in the characteristic extraction and the model training. The commonly used speech features include LPC Cepstrum, Mel Frequency Cepstrum (MFCC) and perceptual Linear Predictive (PLP). The recognition performance of MFCC and PLP is better than that of LPCC, but MFCC and PLP as a single feature for speaker recognition can not meet the requirements of high accuracy in some fields. Gao Si hybrid model (GMMM) is widely used because of its simple method, but the simple initial parameter selection method has some defects, such as instability, inaccuracy and so on. Based on this, a new fusion feature PLP-MFCC and an improved GMM are proposed to improve the performance of recognition. The main work is as follows: first. This paper introduces the commonly used feature parameters LPCC- MFCC-PLP and their extraction process in speaker recognition. The evaluation methods of F / D ratio and D / F ratio are analyzed. A new fusion feature PLP-MFCC is obtained by selecting some features of MFCC and PLP by F / D ratio. Secondly, the study of GMM modeling method and the process of training model is the process of parameter estimation, and the choice of initial parameters in parameter estimation will affect the accuracy of the training model. The selection of initial parameters is usually based on random method or K-means algorithm. After analyzing their problems, an improved K-means algorithm is applied to GMM parameter estimation to improve GMM. Finally, a speaker recognition system based on Gao Si hybrid model is constructed on Matlab platform. The standard TIMIT language database is used in the experiment, and the feature PLP-MFCC and MFCC are fused. Compared with PLP, the recognition rate of PLP-MFCC was increased by 4.9% and 3.8% respectively. Then the GMM before and after the improvement was compared. Compared with the improved GMM, the improved GMM can improve the recognition rate by 2.3%. The experimental results show that. The proposed fusion feature and improved GMM can improve the performance of speaker recognition system.
【学位授予单位】:东华理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 邱政权,尹俊勋;针对说话人识别进行的加权小波去噪方法[J];电声技术;2005年09期
2 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期
3 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
4 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期
5 单进;;说话人识别技术研究[J];科技资讯;2010年21期
6 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期
7 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
8 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期
9 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
10 武光利;;说话人识别方法概述[J];硅谷;2012年19期
相关会议论文 前10条
1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
相关重要报纸文章 前2条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
相关博士学位论文 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 别凡虎;说话人识别中区分性问题的研究[D];清华大学;2015年
3 谢怡宁;基于稀疏编码的鲁棒说话人识别方法研究[D];哈尔滨理工大学;2016年
4 安冬;噪声背景下说话人识别的若干关键问题研究[D];东北大学;2013年
5 吴迪;低信噪比环境下说话人识别研究[D];苏州大学;2016年
6 酆勇;基于深度学习的说话人识别建模研究[D];重庆大学;2016年
7 陈英;基于含噪短语音的鲁棒说话人识别研究[D];南京理工大学;2015年
8 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
9 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年
10 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
相关硕士学位论文 前10条
1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年
3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年
4 汪q,
本文编号:1481897
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1481897.html