基于发音特征的声效相关鲁棒语音识别算法

发布时间：2017-11-09 09:42

本文关键词：基于发音特征的声效相关鲁棒语音识别算法

【摘要】：针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别。基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法 5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%。实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。
【作者单位】：河南理工大学计算机科学与技术学院;
【基金】：国家自然科学基金资助项目(61300124) 河南省基础与前沿技术研究计划资助项目(132300410332) 河南省科技厅科技攻关计划项目(132102210123);河南省教育厅科技攻关计划项目(13A520321)
【分类号】：TN912.34
【正文快照】： 0引言现有的语音识别研究通常针对正常情况下的语音,忽视了语音信号的声效(Vocal Effort,VE)变化。而在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里需要通过耳语的方式交流;在嘈杂的场合需要大声说话对方才能听见;而在嘈杂的工厂车间可能就需

【参考文献】

中国期刊全文数据库前1条

1 栗学丽,丁慧,徐柏龄;基于熵函数的耳语音声韵分割法[J];声学学报;2005年01期

【共引文献】

中国期刊全文数据库前10条

1 栗学丽;周卫东;;ARMA Modelling for Whispered Speech[J];Journal of Measurement Science and Instrumentation;2010年03期

2 Kyel Ko;Myoung-Jin Kim;Min-Cheol Hong;;Image Resolution Enhancement Using Spatially Invariant Point Spread Function[J];Journal of Measurement Science and Instrumentation;2010年S1期

3 樊星;卢晶;徐柏龄;;汉语耳语音转换为正常音的研究[J];电声技术;2005年12期

4 钱博;李燕萍;唐振民;徐利敏;;基于频域能量分布分析的自适应元音帧提取算法[J];电子学报;2007年02期

5 潘欣裕;赵鹤鸣;陈雪勤;徐敏;;基于EMD拟合特征的耳语音端点检测[J];电子与信息学报;2008年02期

6 毕永新;韩慧健;周世文;;基于加权算法的汉语语音同步三维口型动画研究[J];图学学报;2012年02期

7 王丹;;基于MELP的汉语耳语音重建[J];电脑知识与技术;2013年16期

8 荣薇;陶智;顾济华;赵鹤鸣;;基于改进LPCC和MFCC的汉语耳语音识别[J];计算机工程与应用;2007年30期

9 荣薇;陶智;顾济华;赵鹤鸣;;基于概率神经网络的汉语耳语音识别系统[J];计算机工程与应用;2008年17期

10 谈雪丹;顾济华;赵鹤鸣;陶智;韩韬;吴俊;;基于HHT瞬时能频值的耳语音端点检测[J];计算机工程与应用;2010年29期

中国重要会议论文全文数据库前4条

1 茹婷婷;谢湘;;耳语音数据库的设计与采集[A];第九届全国人机语音通讯学术会议论文集[C];2007年

2 尹辉;茹婷婷;谢湘;;汉语耳语音数字串识别研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年

3 谈雪丹;顾济华;陶智;吴迪;;基于HHT的耳语音声韵分割[A];2009年度全国物理声学会议论文集[C];2009年

4 毕永新;韩慧健;周世文;;基于加权算法的汉语语音同步三维口型动画研究[A];第五届全国几何设计与计算学术会议论文集[C];2011年

中国博士学位论文全文数据库前3条

1 陶智;低信噪比环境下语音增强的研究[D];苏州大学;2011年

2 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年

3 龚呈卉;基于联合因子分析的耳语音说话人识别研究[D];苏州大学;2014年

中国硕士学位论文全文数据库前10条

1 张宝奇;基于切分的汉语连续语音识别技术研究[D];解放军信息工程大学;2010年

2 顾晓江;不匹配信道下耳语音说话人识别研究[D];苏州大学;2011年

3 周芬;基于电话信道的声纹识别算法研究[D];南京理工大学;2012年

4 陈斌;汉语连续语音声韵母类别属性检测技术研究[D];解放军信息工程大学;2011年

5 徐敏;基于MELP模型的汉语耳语音转换为正常音的实现[D];苏州大学;2007年

6 潘欣裕;汉语耳语音特征分析与应用研究[D];苏州大学;2007年

7 荣薇;基于概率神经网络的汉语耳语音识别的研究[D];苏州大学;2008年

8 刘丽岩;基于MFCC与IMFCC的说话人识别研究[D];哈尔滨工程大学;2008年

9 韩韬;基于RBF神经网络的汉语耳语音转换为正常语音的研究[D];苏州大学;2009年

10 巢一波;基于FPGA的音频处理系统[D];江南大学;2009年

【二级参考文献】

中国期刊全文数据库前5条

1 潘凌云,孙达传,吴美朝;语音识别中基于语谱图的语音音素分割方法[J];杭州大学学报(自然科学版);1995年01期

2 齐士钤,张家，

本文编号：1161348

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/1161348.html

上一篇：下一代WiFi中多AP频谱共享机制研究
下一篇：基于3G无线通信的远程温湿度监测系统设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|