当前位置:主页 > 科技论文 > 网络通信论文 >

基于神经网络的多方言口音汉语语音识别系统研究

发布时间:2018-08-20 13:53
【摘要】:语音识别技术随着互联网和其他移动终端性能的提升,越来越受到工业生产和日常生活的青睐,因此如何提供一个识别性能高,鲁棒性强的语音识别系统显得越来越重要。但是,自从语音识别技术应用在中文识别上,就有一个不能忽视的现象——口音问题,它在很大程度上降低了识别系统的性能,尤其是我国是一个多口音地区国家,,口音问题,尤其是多口音问题,成为中文语音识别的一个关键问题。 我国是个多口音地区国家,除了标准的普通话,还有其它七个主要方言——官话,吴,粤,湘,客家,闽以及赣。方言与标准普通话差异大,方言之间变化大。生活在这些方言地区的人们都是把普通话作为第二语言学习的,导致一个最直接的结果就是生活在这些地区的人们,在用普通话进行表达的时候,会存在很大程度上的口音变化。结果就是当前在标准普通话数据上训练的模型并不能针对特定方言的语音识别。带口音的普通话语音识别的困难主要体现在两个方面,因为我国多口音现象的存在产生了不同口音地区发音的变异带来的模型不匹配问题,同时导致了训练口音相关模型和难以获得大批量的不同口音地区的语音语料数据的矛盾。本文采用口音分类和提升特定口音声学模型性能相结合的方法,针对这两个主要问题,不仅能够为地区未知的带口音普通话测试数据选择合适的声学模型,解决模型不匹配的问题,同时通过多层级适应性的网络(MLAN)提升特定口音的模型识别能力,能够进一步更好地解决多口音问题中的模型不匹配以及特定口音数据稀疏导致的的建模难题,进而提高识别率。 论文介绍的MLAN系统充分利用了神经网络的区分性学习能力和交叉数据域的适应能力,通过第一级网络,将更大数据量的标准普通话数据和特定方言口音数据的共性适应性地被提取,再由第一级网络前馈特定口音数据训练第二级网络,并对标准普通话数据前馈,使得标准普通话数据被适应上了特定口音的个性特征。这种架构不但提升了特定口音数据的共性表现能力,也对大量的标准普通话数据进行了个性化的适应,极大地增加了含有特定方言口音特征的训练数据。 目前在广州、重庆地区数据上的实验表明:在基线GMM-HMM系统模型的基础上本文提出的改进系统所带来的相对CER下降分别为23.03%和21.21%,性能提升效果相当明显。很好地验证了对口音未知测试数据进行口音分类的必要性和MLAN框架的优越性。 本文提出这种系统架构具有很好的扩展性和适应性,除了能很好的应对多种口音的语音识别问题,同时也适合更加复杂交叉领域和更加细致分类的情形,比如多种语言,复杂噪声条件等。
[Abstract]:With the improvement of the performance of the Internet and other mobile terminals, speech recognition technology is becoming more and more popular in industrial production and daily life. Therefore, how to provide a speech recognition system with high recognition performance and strong robustness is becoming more and more important. However, since the application of speech recognition technology in Chinese recognition, there is a phenomenon that can not be ignored-accent problem, which greatly reduces the performance of the recognition system, especially in China, which is a country with multiple accents. In particular, the problem of multiple accents has become a key issue in Chinese speech recognition. China is a multi-accented country, in addition to standard Mandarin, there are seven other major dialects-Mandarin, Wu, Guangdong, Hunan, Hakka, Fujian and Jiangxi. The difference between dialect and standard Putonghua is great, and the change between dialects is great. People living in these dialects learn Putonghua as a second language, and one of the most direct results is that people living in these areas are speaking in Mandarin. There will be a significant change in accent. The result is that the current model trained on standard Putonghua data is not specific to the speech recognition of a particular dialect. The difficulty of Putonghua speech recognition with accent is mainly reflected in two aspects, because the existence of multi-accent phenomenon in China has resulted in the model mismatch caused by the variation of pronunciation in different accent areas. At the same time, it leads to the contradiction between the relevant models of training accent and the difficulty of obtaining large quantities of speech data from different accent areas. In this paper, we combine accent classification with improving the performance of specific accent acoustic models. Aiming at these two main problems, we can not only select appropriate acoustic models for the unknown area of Mandarin with accent test data, but also improve the performance of specific accent acoustic models. To solve the problem of model mismatch, and improve the model recognition ability of specific accents through multi-level adaptive network (MLAN), It can further solve the modeling problem caused by model mismatch in multi-accent problems and sparse data of specific accents, thus improving the recognition rate. The MLAN system introduced in this paper makes full use of the discriminative learning ability of the neural network and the adaptability of the cross data domain. The generality of standard Putonghua data with larger amount of data and specific dialect accent data is extracted adaptively, and then fed forward by the first level network to specific accent data training the second level network, and feedforward the standard Putonghua data. The standard Putonghua data are adapted to the personality characteristics of specific accents. This architecture not only improves the common expression ability of specific accent data, but also adapts to a large number of standard Putonghua data, and greatly increases the training data with specific dialect accent features. The experiments in Guangzhou and Chongqing show that the relative CER decrease of the improved system based on the baseline GMM-HMM system model is 23.03% and 21.21% respectively, and the performance improvement effect is quite obvious. The necessity of accent classification based on unknown accent test data and the superiority of MLAN framework are well verified. This paper proposes that this architecture has good scalability and adaptability. It can not only deal with speech recognition problems with multiple accents, but also be suitable for more complex cross-domain and more detailed classification situations, such as multi-language. Complex noise conditions, etc.
【学位授予单位】:中国科学院深圳先进技术研究院
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP183;TN912.34

【共引文献】

相关期刊论文 前10条

1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期

2 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期

3 王晖;颜靖华;李传珍;蔡娟娟;;音频贝叶斯谐波模型中参数的提取[J];中国传媒大学学报(自然科学版);2007年04期

4 明生荣;毕节方言韵母的来源[J];毕节师范高等专科学校学报(综合版);2003年01期

5 周长锋;韩力群;;概率神经网络在文本无关说话人识别中的应用[J];北京工商大学学报(自然科学版);2007年01期

6 魏丽英;;简析语音编码[J];才智;2010年31期

7 由守杰;柏森;曹巍巍;;鲁棒的DCT域音频盲水印算法[J];重庆邮电大学学报(自然科学版);2008年02期

8 肖菲;陈贺新;许万里;赵岩;;模式匹配和过零率检测的音频差错掩盖[J];吉林大学学报(信息科学版);2011年01期

9 李雨昕;;基于余弦过完备原子库的语音信号MP稀疏分解[J];成都电子机械高等专科学校学报;2011年02期

10 祝清凯;;论方言差异的形成[J];成都航空职业技术学院学报;2005年04期

相关会议论文 前10条

1 徐晨;曹辉;;一种语音信号生成的数字模型的研究[A];第二届西安-上海两地声学学术会议论文集[C];2011年

2 哈妮克孜·伊拉洪;帕力旦·赛力提尼牙孜;那斯尔江·吐尔逊;吾守尔·斯拉木;;维吾尔人说汉语普通话发音特点的声学分析[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

3 冯朝斌;吕成国;赵洪刚;;话者识别系统改进策略的研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 项良;刘贺平;;G.723.1算法中闭环基音搜索算法的优化[A];冶金企业自动化、信息化与创新——全国冶金自动化信息网建网30周年论文集[C];2007年

5 陈鹏;张仁杰;郑哲;李杰;;基于ARM的语音识别家居控制装置研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

6 范京;郭司琴;张福学;;微硅陀螺信号振幅估计技术[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

7 陈玉平;韩纪庆;郑铁然;;基于音素模型的语音关键词检测系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

8 董军;孙自强;;基于ARM和μC/OS-Ⅱ的实时语音传输技术研究[A];第八届工业仪表与自动化学术会议论文集[C];2007年

9 冯晓亮;于水源;;语音识别中三种基于DTW的模板训练方法的比较[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 刘静萍;德熙嘉措;;安多藏语辅音识别的设计[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关博士学位论文 前10条

1 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年

2 谢春辉;音频隐藏分析方法研究[D];中国科学技术大学;2011年

3 包桂兰;基于EPG的蒙古语标准音协同发音研究[D];内蒙古大学;2011年

4 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年

5 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年

6 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年

7 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年

8 田良臣;语文科口语课程的多维研究[D];华东师范大学;2006年

9 高林;育苗生产线气吸式播种系统智能控制的研究[D];北京林业大学;2008年

10 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年

相关硕士学位论文 前10条

1 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年

2 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年

3 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年

4 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年

5 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年

6 朱妹丽;三种篡改情况下的音频鉴定方法研究[D];大连理工大学;2010年

7 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年

8 甄会;欠定盲分离混合矩阵估计方法的研究[D];大连理工大学;2010年

9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年

10 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年



本文编号:2193850

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2193850.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78767***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com