汉语语声特点的分析及应用
发布时间:2019-08-04 09:26
【摘要】:汉语普通话是世界上历史最为悠久,发展水平最高的语言之一。同时,汉语普通话也是世界上使用人数最多的语言之一。本文总结研究了汉语普通话声学方面的特点,并将其应用到语音识别系统,对比分析了系统性能;此外,搭建汉语普通话文本依赖说话人识别系统,并将汉语普通话的特点考虑到系统的设计实施中,对比分析了系统性能。 本文首先介绍了语音产生系统及语音感知系统,以及语音相关的识别系统中常用的特征筛选方法、隐马尔科夫模型(Hidden Markov Model)以及决策树基础理论知识。 然后总结了汉语普通话多方面的特点,主要是声学方面的特点;基于其特点,查阅相关论文,从汉语普通话连续语音中提取基音频率轨迹,通过强制对齐提取汉语音素基音频率;实验研究了音素基音频率轨迹各个方面的区分度。 最后,结合汉语普通话音素基音频率轨迹区分度实验结果,将基音频率特征应用到汉语普通话语音识别系统中,对比分析了系统性能;此外,设计实施汉语普通话文本依赖说话人识别系统,并将基音频率特征整合到系统中,对比分析了系统性能。
【图文】:
第二章语音信号处理基础理论 第二章语音信号处理基础理论2.1引言所谓说话人识别,是指通过从语音信号中提取出能够反应不同说话人发声系统差异的参数,进而对这些参数进行建模,从而进行说话人识别的技术。而语音识别则是从不同内容的语音中提取出一组参数,反映说话人说不同内容时发声系统的状态,然后对这些参数建模,从而达到语音识别的目的。说话人识别、语音识别涉及到诸多领域,比如生理学、语音信号处理、模式识别以及语言学等;本章主要阐释常用的基础理论知识。2.2语首产生系统
的线性滤波器来近似。声道的共振频率称为共振峰频率(Formant Frequencies)或简称为共振峰(Formant),,如图2-3所示:I ‘ ‘ ] ‘ { -- I -语音信号频率特性I3[_ I 倒谱声道谱特性I-3- j - N I 1 I ‘ !_1 0 500 1000 1500 2000 2500 3000 3500 4000频率/Hz图2-3声道频率特性及共振峰示意图图中F1,F2标注的分别是第一共振峰和第二共振峰。声道频率响应的尖峰位置大致对应共振峰的位置。声道用一个全极点模型近似的话,每个极点对应一个共振峰,而极点与单位圆的远近则决定了共振峰带宽。共振峰频率随着声道长度的增加而降低,其中儿童、女性、男性的共振峰频率依次降低。2.3梅尔频率倒谱系数根据语音产生系统的结构,经过声门的气流通过声道的过程就是声道对气流进行整形滤波的过程;所以声道的状态决定了发声系统产生的语音,如果我们能够准确反映发声过程中声道的形态,那么我们就能准确反映发声系统所产生的声音对应的语音内容;而声道的形态又反映在语音信号短时功率谱中,因此我们可以提取一组参数用来刻画语音信号的功率谱特性。目前用的较多的刻画声道不同状态特点的特征包括:线性预测倒谱系数(Linear Predictive Cepstrum Coefficients ,LPCC)【9]、感知线性预测系数(Perceptual Linear Predictive , PLP/igi以及梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents, MFCC)丨丨丨]。从人类语音的感知角度看,人类声音感知系统主要包括两部分:外围听觉器官(gp
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.3;H116
本文编号:2522844
【图文】:
第二章语音信号处理基础理论 第二章语音信号处理基础理论2.1引言所谓说话人识别,是指通过从语音信号中提取出能够反应不同说话人发声系统差异的参数,进而对这些参数进行建模,从而进行说话人识别的技术。而语音识别则是从不同内容的语音中提取出一组参数,反映说话人说不同内容时发声系统的状态,然后对这些参数建模,从而达到语音识别的目的。说话人识别、语音识别涉及到诸多领域,比如生理学、语音信号处理、模式识别以及语言学等;本章主要阐释常用的基础理论知识。2.2语首产生系统
的线性滤波器来近似。声道的共振频率称为共振峰频率(Formant Frequencies)或简称为共振峰(Formant),,如图2-3所示:I ‘ ‘ ] ‘ { -- I -语音信号频率特性I3[_ I 倒谱声道谱特性I-3- j - N I 1 I ‘ !_1 0 500 1000 1500 2000 2500 3000 3500 4000频率/Hz图2-3声道频率特性及共振峰示意图图中F1,F2标注的分别是第一共振峰和第二共振峰。声道频率响应的尖峰位置大致对应共振峰的位置。声道用一个全极点模型近似的话,每个极点对应一个共振峰,而极点与单位圆的远近则决定了共振峰带宽。共振峰频率随着声道长度的增加而降低,其中儿童、女性、男性的共振峰频率依次降低。2.3梅尔频率倒谱系数根据语音产生系统的结构,经过声门的气流通过声道的过程就是声道对气流进行整形滤波的过程;所以声道的状态决定了发声系统产生的语音,如果我们能够准确反映发声过程中声道的形态,那么我们就能准确反映发声系统所产生的声音对应的语音内容;而声道的形态又反映在语音信号短时功率谱中,因此我们可以提取一组参数用来刻画语音信号的功率谱特性。目前用的较多的刻画声道不同状态特点的特征包括:线性预测倒谱系数(Linear Predictive Cepstrum Coefficients ,LPCC)【9]、感知线性预测系数(Perceptual Linear Predictive , PLP/igi以及梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents, MFCC)丨丨丨]。从人类语音的感知角度看,人类声音感知系统主要包括两部分:外围听觉器官(gp
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.3;H116
【参考文献】
相关期刊论文 前2条
1 陈晓磊;;基音周期的提取[J];大众科技;2009年09期
2 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
本文编号:2522844
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2522844.html