语音识别关键技术及其改进算法研究
发布时间:2019-10-02 22:00
【摘要】:语音识别技术是计算机技术研究的一个重要领域,具有极大的研究价值和广泛的应用前景。但是现今的语音识别系统大多还局限于实验室,尽管已有一些产品进入市场,但是其使用效果距离人们期望的水平还有较大的差距。 本文紧紧抓住语音识别系统中识别效率和识别率两个关键因素,按照语音识别的流程,对语音识别中的关键技术进行了深入研究。 首先,论文在介绍了语音识别的基本原理和流程框架后,又分析了语音信号产生的数学模型以及语音信号的预处理问题,并针对传统端点检测算法的不足,提出了一种新的基于图像边缘检测技术的端点检测方法。实验结果表明,新的端点检测方法使检测准确率提高了18.6%,优于传统的检测方法。 其次,论文介绍并讨论了几种常用的语音特征参数的特点和提取过程,在深入分析MFCC参数的基础上,对其进行了特征加权、差分、PCA降维等处理,,获得了一种新的改进型的MFCC参数。实验证明,新的特征参数增强了语音识别系统的鲁棒性,在三种不同噪声环境下的平均识别率较传统的LPCC参数和MFCC参数分别提高了9.2%和4.3%,平均训练时间分别缩短了18.2%和11.5%。 再次,本文重点研究了基于HMM的语音识别技术。正是由于HMM在语音识别中的应用,才推动了语音识别技术的飞跃式发展,同时HMM技术也是目前应用最为广泛的一种语音识别的建模技术。针对传统HMM模型的初始化方法过于简单和粗糙的缺点,本文提出了一种改进的HMM模型的初始化方法。实验结果表明,新的初始化方法使得HMM模型的平均训练时间缩短了36.9%,系统识别率提高了5.2%。 最后,论文在对语音识别理论研究的基础上,结合语音识别算法的实现,利用MATLAB软件平台和自带的VoiceBox语音信号处理工具箱,建立了一个语音识别的仿真实验平台,并在此平台上进行仿真实验,实验结果表明,该系统对孤立词的识别率达到了95.5%。
【图文】:
同时抑制随机噪声,有必要对语音信号进行预加重处理。通常的处理方种:一是用模拟电路来实现;二是用数字电路实现。预加重一般在模数转换之后采用预加重数字滤波器实现时,其传递函数如下:1H ( z ) 1 z 0.93 0.97式(3.8)中 为预加重系数,通常取值在 0.93-0.97 之间。将这个系统传函转换成输序列 x ( n )与输出语音序列 y ( n )之间的差分方程:y ( n) x ( n) x ( n 1)3.4 语音信号加窗分帧处理3.4.1 加窗分帧原理图 3.3 展示了汉语单词“你好”的男声普通话发音的时域波形图。从图中我
长安大学硕士学位论文公式(3.11)、 (3.12)、 (3.13)中的N 均表示窗口的长度。从公式中可以看出,三个数都具有低通特性,但是不同的窗函数形状将会对分帧后的语音信号的短时特性产同的影响。图 3.4,图 3.5 给出了矩形窗、汉明窗、汉宁窗三种窗函数的时域波形及波形的比较。
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.34
本文编号:2545136
【图文】:
同时抑制随机噪声,有必要对语音信号进行预加重处理。通常的处理方种:一是用模拟电路来实现;二是用数字电路实现。预加重一般在模数转换之后采用预加重数字滤波器实现时,其传递函数如下:1H ( z ) 1 z 0.93 0.97式(3.8)中 为预加重系数,通常取值在 0.93-0.97 之间。将这个系统传函转换成输序列 x ( n )与输出语音序列 y ( n )之间的差分方程:y ( n) x ( n) x ( n 1)3.4 语音信号加窗分帧处理3.4.1 加窗分帧原理图 3.3 展示了汉语单词“你好”的男声普通话发音的时域波形图。从图中我
长安大学硕士学位论文公式(3.11)、 (3.12)、 (3.13)中的N 均表示窗口的长度。从公式中可以看出,三个数都具有低通特性,但是不同的窗函数形状将会对分帧后的语音信号的短时特性产同的影响。图 3.4,图 3.5 给出了矩形窗、汉明窗、汉宁窗三种窗函数的时域波形及波形的比较。
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.34
【参考文献】
相关期刊论文 前10条
1 徐正伟,汤静;语音信号及其编译码算法的研究[J];电声技术;2002年04期
2 李虎生,刘加,刘润生;语音识别说话人自适应研究现状及发展趋势[J];电子学报;2003年01期
3 谢志远,谭获茜,马永超;语音信号数据采集系统的研制[J];华北电力学院学报;1994年02期
4 杨大利,徐明星,吴文虎;语音识别特征参数选择方法研究[J];计算机研究与发展;2003年07期
5 徐大为,吴边,赵建伟,刘重庆;一种噪声环境下的实时语音端点检测算法[J];计算机工程与应用;2003年01期
6 齐子元,谢桂海,刘毅,明亮;一种实时语音信号采集处理系统的设计与实现[J];计算机工程与应用;2005年09期
7 李冠宇;孟猛;;藏语拉萨话大词表连续语音识别声学模型研究[J];计算机工程;2012年05期
8 韩立华;王博;段淑凤;;语音端点检测技术研究进展[J];计算机应用研究;2010年04期
9 王博;郭英;李宏伟;韩立峰;;基于倒谱距离的语音端点检测改进算法[J];空军工程大学学报(自然科学版);2006年01期
10 晁浩;杨占磊;刘文举;;汉语语音识别中基于音节的声学模型改进算法[J];计算机应用;2013年06期
本文编号:2545136
本文链接:https://www.wllwen.com/kejilunwen/wltx/2545136.html