基于流形学习的语音特征提取研究
本文关键词: 流形学习 语音识别 特征提取 MFCC 倒谱系数 出处:《山东大学》2017年硕士论文 论文类型:学位论文
【摘要】:语音识别技术是语音信号处理技术的最重要的研究方向之一,其主要研究的对象是人类的话音信号。语音识别系统通过模拟人类的听觉过程,使得电脑可以利用某些算法实现准确理解人的话音。进入新世纪以来,个人计算机和数字信号处理等的信息科学技术有了极大的进步,特别是近5年以来,云计算和大数据技术的广泛应用,使得语音识别领域的研究进展迅速。语音识别技术的应用越来越广泛,已经深入到人们的生活中,不断改变着人们的生活习惯。在ASR系统中,提取语音的声学特征是语音信号处理的第一个也是最关键的一个步骤。本文在对语音产生原理及人的听觉机理的研究基础上,利用流形学习算法对语音信号进行参数化,提出了一种全新的语音特征参数提取方法。流形学习算法是一种最近十几年才发展起来的非线性的数据降维方法,目前流形学习研究的重点在图像处理相关的领域,特别是在图像检索、面部姿态识别、手写文字识别等领域相较传统算法有更好的表现,而在声音信号处理特别是语音识别领域的相关研究相对较少。语音识别中较成熟的特征参数MFCC、LPCC等均基于线性系统理论,而语音的发声系统为非线性时变系统,MFCC等特征很难反映出语音信号的本质特征。流形学习的目的是寻找非线性数据的本质特征,发掘蕴含于高维数据内部之几何结构。利用流形学习方法对语音信号进行研究,就是找出语音信号的内在特征,即发现语音信号中存在的低维流形,提高自动语音识别系统的识别准确率。通过提高语音识别的准确率,进而提高人工智能、语言输入、身份识别等应用的效率,具有一定的实际现实意义。本文首先介绍了流形学习相关的理论、语音的产生原理和常见的基于倒谱的语音特征参数提取方法,同时结合声管模型分析了语音信号中低维流形结构的存在性,创设了一类运用流形学习算法提取的语音信号特征参数的方法。该方法的创新性在于将流形学习技术与人类的发声原理和听觉机理联系起来,通过该方法提取的语音特征在语音音素的可分性、音素聚类以及小词汇量识别等方面与传统的特征提取方法相比具有更好的性能。该方法的提出,为人工智能、语言输入及身份识别等语音识别应用中的特征参数提取提供了新的选择,为研究人员进行相关研究提供了借鉴意义。
[Abstract]:Speech recognition technology is one of the most important research directions of speech signal processing technology. In the new century, the information science and technology of personal computer and digital signal processing have made great progress, especially in the past five years. With the wide application of cloud computing and big data technology, the research of speech recognition is developing rapidly. The application of speech recognition technology is more and more extensive, and it has been deeply into people's lives and changing people's living habits. Extracting acoustic features of speech is the first and most important step in speech signal processing. Based on the research of speech production principle and human auditory mechanism, this paper uses manifold learning algorithm to parameterize speech signal. A new method for extracting speech feature parameters is proposed. Manifold learning algorithm is a nonlinear data dimensionality reduction method which has been developed in recent ten years. At present, the research of manifold learning is focused on the field of image processing. Especially in the fields of image retrieval, facial posture recognition, handwritten character recognition and so on, it has better performance than traditional algorithms. However, there are relatively few researches in the field of sound signal processing, especially in the field of speech recognition. The more mature feature parameters MFCC / LPCC and so on are based on linear system theory. It is difficult to reflect the essential characteristics of speech signal by the phonetic system such as MFCC, which is a nonlinear time-varying system. The purpose of manifold learning is to find out the essential features of nonlinear data. The study of speech signal by manifold learning method is to find out the inherent characteristics of speech signal, that is, to find the low dimensional manifold in speech signal. Improve the recognition accuracy of automatic speech recognition system. By improving the accuracy of speech recognition, and then improve the efficiency of artificial intelligence, language input, identity recognition and other applications, This paper first introduces the theory of manifold learning, the principle of speech production and the common speech feature extraction method based on cepstrum. At the same time, combining the acoustic tube model, the existence of the low dimensional manifold structure of speech signal is analyzed. A new method for extracting feature parameters of speech signal using manifold learning algorithm is developed. The innovation of this method is to link manifold learning technology with the principle of human phonation and auditory mechanism. The speech features extracted by this method have better performance than the traditional feature extraction methods in terms of speech phoneme separability, phoneme clustering and small vocabulary recognition. The extraction of feature parameters in speech recognition applications, such as language input and identity recognition, provides a new choice and provides a reference for researchers to do relevant research.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 曾宪华;罗四维;;动态增殖流形学习算法[J];计算机研究与发展;2007年09期
2 曾宪华;罗四维;;局部保持的流形学习算法对比研究[J];计算机工程与应用;2008年29期
3 刘志勇;;基于保距与保拓扑的流形学习算法[J];长江大学学报(自然科学版)理工卷;2010年02期
4 闫志敏;刘希玉;;流形学习及其算法研究[J];计算机技术与发展;2011年05期
5 杨海红;;流形学习中邻域大小的选择算法[J];山西煤炭管理干部学院学报;2011年01期
6 周华;蔡超;丁明跃;;基于流形学习和流形高阶近似的图像距离度量[J];华中科技大学学报(自然科学版);2012年03期
7 石陆魁;张军;宫晓腾;;基于邻域保持的流形学习算法评价模型[J];计算机应用;2012年09期
8 谈超;关佶红;周水庚;;增量与演化流形学习综述[J];智能系统学报;2012年05期
9 徐蓉;姜峰;姚鸿勋;;流形学习概述[J];智能系统学报;2006年01期
10 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
相关会议论文 前4条
1 宋欣;王娟;张斌;叶世伟;;流形学习算法分析及在人脸数据库上的应用[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 刘晓平;季浩;邓伟财;;基于流形学习的非线性系统可视化算法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
4 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
相关博士学位论文 前10条
1 苏祖强;基于泛化流形学习的风电机组传动系统早期故障诊断方法研究[D];重庆大学;2015年
2 马婧华;基于流形学习的旋转机械早期故障融合诊断方法研究[D];重庆大学;2015年
3 邢向磊;流形学习与稀疏表示在模式识别中的应用[D];南京大学;2013年
4 卢磊;机械加工过程中的早期故障微弱信号处理方法研究[D];哈尔滨工业大学;2016年
5 郝中华;基于微分流形的非线性降维方法研究[D];上海大学;2016年
6 黄红兵;层次流形学习及其在监督分类中的应用[D];上海交通大学;2015年
7 杜春;流形学习及其应用算法研究[D];国防科学技术大学;2014年
8 黄鸿;图嵌入框架下流形学习理论及应用研究[D];重庆大学;2008年
9 尹峻松;流形学习理论与方法研究及在人脸识别中的应用[D];国防科学技术大学;2007年
10 黄启宏;流形学习方法理论研究及图像中应用[D];电子科技大学;2007年
相关硕士学位论文 前10条
1 胡浩松;基于流形学习的旋转机械故障识别方法研究[D];燕山大学;2015年
2 丁春涛;基于图嵌入的判别近邻分析研究及应用[D];苏州大学;2015年
3 余婵娟;交互式人脸检索中人机人脸认知一致性研究[D];上海大学;2015年
4 陈明霞;基于半监督的多流形学习算法研究[D];华侨大学;2015年
5 顾阳阳;基于流形学习的雷达辐射源识别技术[D];西安电子科技大学;2014年
6 高汉宇;基于最优r-覆盖堆积数本征维数估计方法及其应用[D];西安电子科技大学;2014年
7 罗廷金;基于流形学习的数据降维算法研究[D];国防科学技术大学;2013年
8 周韵然;基于流形学习的A股上市公司抽样的信用评价[D];电子科技大学;2014年
9 史仍浩;基于流形学习的在线社会网络节点分类[D];上海交通大学;2013年
10 陈诗文;流形学习在数据降维中的应用研究[D];浙江工业大学;2015年
,本文编号:1513143
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1513143.html