基于神经网络的多方言口音汉语语音识别系统研究
[Abstract]:With the improvement of the performance of the Internet and other mobile terminals, speech recognition technology is becoming more and more popular in industrial production and daily life. Therefore, how to provide a speech recognition system with high recognition performance and strong robustness is becoming more and more important. However, since the application of speech recognition technology in Chinese recognition, there is a phenomenon that can not be ignored-accent problem, which greatly reduces the performance of the recognition system, especially in China, which is a country with multiple accents. In particular, the problem of multiple accents has become a key issue in Chinese speech recognition. China is a multi-accented country, in addition to standard Mandarin, there are seven other major dialects-Mandarin, Wu, Guangdong, Hunan, Hakka, Fujian and Jiangxi. The difference between dialect and standard Putonghua is great, and the change between dialects is great. People living in these dialects learn Putonghua as a second language, and one of the most direct results is that people living in these areas are speaking in Mandarin. There will be a significant change in accent. The result is that the current model trained on standard Putonghua data is not specific to the speech recognition of a particular dialect. The difficulty of Putonghua speech recognition with accent is mainly reflected in two aspects, because the existence of multi-accent phenomenon in China has resulted in the model mismatch caused by the variation of pronunciation in different accent areas. At the same time, it leads to the contradiction between the relevant models of training accent and the difficulty of obtaining large quantities of speech data from different accent areas. In this paper, we combine accent classification with improving the performance of specific accent acoustic models. Aiming at these two main problems, we can not only select appropriate acoustic models for the unknown area of Mandarin with accent test data, but also improve the performance of specific accent acoustic models. To solve the problem of model mismatch, and improve the model recognition ability of specific accents through multi-level adaptive network (MLAN), It can further solve the modeling problem caused by model mismatch in multi-accent problems and sparse data of specific accents, thus improving the recognition rate. The MLAN system introduced in this paper makes full use of the discriminative learning ability of the neural network and the adaptability of the cross data domain. The generality of standard Putonghua data with larger amount of data and specific dialect accent data is extracted adaptively, and then fed forward by the first level network to specific accent data training the second level network, and feedforward the standard Putonghua data. The standard Putonghua data are adapted to the personality characteristics of specific accents. This architecture not only improves the common expression ability of specific accent data, but also adapts to a large number of standard Putonghua data, and greatly increases the training data with specific dialect accent features. The experiments in Guangzhou and Chongqing show that the relative CER decrease of the improved system based on the baseline GMM-HMM system model is 23.03% and 21.21% respectively, and the performance improvement effect is quite obvious. The necessity of accent classification based on unknown accent test data and the superiority of MLAN framework are well verified. This paper proposes that this architecture has good scalability and adaptability. It can not only deal with speech recognition problems with multiple accents, but also be suitable for more complex cross-domain and more detailed classification situations, such as multi-language. Complex noise conditions, etc.
【学位授予单位】:中国科学院深圳先进技术研究院
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP183;TN912.34
【共引文献】
相关期刊论文 前10条
1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
2 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期
3 王晖;颜靖华;李传珍;蔡娟娟;;音频贝叶斯谐波模型中参数的提取[J];中国传媒大学学报(自然科学版);2007年04期
4 明生荣;毕节方言韵母的来源[J];毕节师范高等专科学校学报(综合版);2003年01期
5 周长锋;韩力群;;概率神经网络在文本无关说话人识别中的应用[J];北京工商大学学报(自然科学版);2007年01期
6 魏丽英;;简析语音编码[J];才智;2010年31期
7 由守杰;柏森;曹巍巍;;鲁棒的DCT域音频盲水印算法[J];重庆邮电大学学报(自然科学版);2008年02期
8 肖菲;陈贺新;许万里;赵岩;;模式匹配和过零率检测的音频差错掩盖[J];吉林大学学报(信息科学版);2011年01期
9 李雨昕;;基于余弦过完备原子库的语音信号MP稀疏分解[J];成都电子机械高等专科学校学报;2011年02期
10 祝清凯;;论方言差异的形成[J];成都航空职业技术学院学报;2005年04期
相关会议论文 前10条
1 徐晨;曹辉;;一种语音信号生成的数字模型的研究[A];第二届西安-上海两地声学学术会议论文集[C];2011年
2 哈妮克孜·伊拉洪;帕力旦·赛力提尼牙孜;那斯尔江·吐尔逊;吾守尔·斯拉木;;维吾尔人说汉语普通话发音特点的声学分析[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 冯朝斌;吕成国;赵洪刚;;话者识别系统改进策略的研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 项良;刘贺平;;G.723.1算法中闭环基音搜索算法的优化[A];冶金企业自动化、信息化与创新——全国冶金自动化信息网建网30周年论文集[C];2007年
5 陈鹏;张仁杰;郑哲;李杰;;基于ARM的语音识别家居控制装置研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 范京;郭司琴;张福学;;微硅陀螺信号振幅估计技术[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
7 陈玉平;韩纪庆;郑铁然;;基于音素模型的语音关键词检测系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 董军;孙自强;;基于ARM和μC/OS-Ⅱ的实时语音传输技术研究[A];第八届工业仪表与自动化学术会议论文集[C];2007年
9 冯晓亮;于水源;;语音识别中三种基于DTW的模板训练方法的比较[A];第八届全国人机语音通讯学术会议论文集[C];2005年
10 刘静萍;德熙嘉措;;安多藏语辅音识别的设计[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
相关博士学位论文 前10条
1 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
2 谢春辉;音频隐藏分析方法研究[D];中国科学技术大学;2011年
3 包桂兰;基于EPG的蒙古语标准音协同发音研究[D];内蒙古大学;2011年
4 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
5 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
6 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
7 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
8 田良臣;语文科口语课程的多维研究[D];华东师范大学;2006年
9 高林;育苗生产线气吸式播种系统智能控制的研究[D];北京林业大学;2008年
10 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年
相关硕士学位论文 前10条
1 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年
2 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
3 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
4 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
5 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
6 朱妹丽;三种篡改情况下的音频鉴定方法研究[D];大连理工大学;2010年
7 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
8 甄会;欠定盲分离混合矩阵估计方法的研究[D];大连理工大学;2010年
9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年
10 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
本文编号:2193850
本文链接:https://www.wllwen.com/kejilunwen/wltx/2193850.html