当前位置:主页 > 科技论文 > 信息工程论文 >

基于卷积神经网络的语种识别方法研究

发布时间:2018-03-04 01:06

  本文选题:语种识别 切入点:端对端网络 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文


【摘要】:语种识别技术是利用自动化方法对语音内容所属语言种类的判决过程。语种识别技术作为智能语音处理中包括自动语音识别、声纹识别及自然语言处理中重要的前端处理过程,在近十年有了长足的发展。到目前为止,基于深瓶颈特征的全差异空间建模是国际主流语种识别方法,并取得了目前公认最好的识别性能。该方法使用基于深度神经网络的声学模型,提取能够描述音素状态的深瓶颈特征并建立相应的高斯混合模型,但这些信息并不直接面向语种区分性信息进行建模;并且由于全差异空间建模是生成式的学习方法,在训练过程中并没有用到语种标号的信息,而忽略了不同语种类别之间的分类面,因此该系统在信息量不足的短时语音上性能有较大幅度的衰减。近几年,也有学者利用端对端网络的方法搭建了语种识别系统。这类网络摒弃了传统的全差异空间建模方法,输入底层声学特征,输出语种标号。从简单的深度神经网络到近几年流行的长短时记忆-循环神经网络再到最新的基于注意力机制的网络结构都有涉猎。大多数网络的性能差强人意,但仍然难以在性能上与基线系统形成优势。本文围绕基于端对端神经网络的策略提出了一些语种识别方法,并做了相应的分析,具体研究内容包括以下几点。首先,本文实现了端对端网络的语种识别方法,称为LID-net。LID-net首先利用深度神经网络在帧级特征上的优秀建模能力提取带有语种区分性信息的特征;然后利用卷积神经网络的卷积层提取具有语种区分性的基本单元,称为LID-senone,这是仿照语音识别中对三音子状态的定义;再利用卷积神经网络的池化层提取语音的段级表达;最后使用全连接层对语音段表示进行分类操作。实验表明,该网络在不同时长的不同指标中相比国际主流方法均有提升,尤其在短时及中短时语音上的识别性能上有较大幅度提升。其次,本文进行了基于LID-net的语种识别建模方法的研究,旨在利用语种区分性基本单元LID-senone进行高阶统计量信息建模。本文实现了两种建模方法,一种是基于LID-net的全差异空间建模,另一种是基于LID-net的Fisher Vector建模,两种建模方法的特征及混合高斯模型都是直接面向语种区分性信息进行建模的。实验表明,两种方法在各种时长上的识别性能均有提升。最后,本文搭建了另一种利用端对端网络的语种识别方法,称为LID-bilinear-net。该网络结合了端对端建模方法的区分性训练及全差异建模方法可以有效提取特征高阶统计量信息的优势,提取LID-senone的高阶统计量信息。实验结果表明,该网络在短时语音上的识别性能有了进一步地提升。
[Abstract]:Language recognition technology is an important front-end process in intelligent speech processing, which includes automatic speech recognition, voiceprint recognition and natural language processing. Up to now, full difference space modeling based on deep bottleneck feature is the international mainstream language recognition method. In this method, the acoustic model based on depth neural network is used to extract the characteristics of deep bottleneck which can describe the phoneme state, and the corresponding Gao Si mixed model is established. However, the information is not directly oriented to the differentiated information, and because the total difference space modeling is a generative learning method, there is no language label information in the training process. However, the classification surface between different language categories is neglected, so the performance of the system in short term speech with insufficient information is greatly attenuated. Some scholars also use end-to-end network to build a language recognition system. This kind of network abandons the traditional full-difference space modeling method and inputs the underlying acoustic features. Output language labeling. Ranging from simple depth neural networks to the long-short-term memory-cyclic neural networks that have been popular in recent years to the latest attention-based networks, most networks have poor performance. However, it is still difficult to form an advantage over the baseline system in performance. In this paper, some language recognition methods based on end-to-end neural network are proposed, and the corresponding analysis is made. The specific research contents include the following points. In this paper, an end-to-end network language recognition method is implemented, which is called LID-net.LID-net, which firstly uses the excellent modeling ability of depth neural network in frame level features to extract features with language distinguishing information. Then we use the convolution layer of the convolution neural network to extract the basic unit with language differentiation, called LID-senone, which is the definition of the trisyllabic state in speech recognition, and then use the pool layer of the convolutional neural network to extract the segment expression of the speech. Finally, the full connection layer is used to classify the speech segment representation. The experiment shows that the network has improved compared with the international mainstream method in different time and different indexes. Especially in short and medium term speech recognition performance has been greatly improved. Secondly, this paper studies the modeling method of language recognition based on LID-net. In this paper, we implement two modeling methods, one is the full difference space modeling based on LID-net, the other is Fisher Vector modeling based on LID-net. The characteristics of the two modeling methods and the mixed Gao Si model are directly oriented to the differentiated information. The experiments show that the recognition performance of the two methods has been improved in various time periods. Finally, In this paper, another language recognition method based on end-to-end network, called LID-bilinear-net-net, is built. The network combines the advantages of the discriminative training of end-to-end modeling method and the all-differential modeling method to extract feature higher-order statistics information effectively. The high order statistic information of LID-senone is extracted and the experimental results show that the recognition performance of the network in short term speech is further improved.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34;TP183

【相似文献】

相关期刊论文 前10条

1 杨晓帅 ,付玫;神经网络技术让管理更轻松[J];软件世界;2000年11期

2 云中客;新的神经网络来自于仿生学[J];物理;2001年10期

3 唐春明,高协平;进化神经网络的研究进展[J];系统工程与电子技术;2001年10期

4 李智;一种基于神经网络的煤炭调运优化方法[J];长沙铁道学院学报;2003年02期

5 程科,王士同,杨静宇;新型模糊形态神经网络及其应用研究[J];计算机工程与应用;2004年21期

6 王凡,孟立凡;关于使用神经网络推定操作者疲劳的研究[J];人类工效学;2004年03期

7 周丽晖;从统计角度看神经网络[J];统计教育;2005年06期

8 赵奇 ,刘开第 ,庞彦军;灰色补偿神经网络及其应用研究[J];微计算机信息;2005年14期

9 袁婷;;神经网络在股票市场预测中的应用[J];软件导刊;2006年05期

10 尚晋;杨有;;从神经网络的过去谈科学发展观[J];重庆三峡学院学报;2006年03期

相关会议论文 前10条

1 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年

2 周树德;王岩;孙增圻;孙富春;;量子神经网络[A];2003年中国智能自动化会议论文集(上册)[C];2003年

3 罗山;张琳;范文新;;基于神经网络和简单规划的识别融合算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年

4 郭爱克;马尽文;丁康;;序言(二)[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

5 钟义信;;知识论:神经网络的新机遇——纪念中国神经网络10周年[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

6 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

7 金龙;朱诗武;赵成志;陈宁;;数值预报产品的神经网络释用预报应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

8 田金亭;;神经网络在中学生创造力评估中的应用[A];第十二届全国心理学学术大会论文摘要集[C];2009年

9 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年

10 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年

相关重要报纸文章 前10条

1 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年

2 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年

3 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年

4 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年

5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年

6 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年

7 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年

8 刘力;我半导体神经网络技术及应用研究达国际先进水平[N];中国电子报;2001年

9 ;神经网络和模糊逻辑[N];世界金属导报;2002年

10 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年

相关博士学位论文 前10条

1 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年

2 李素芳;基于神经网络的无线通信算法研究[D];山东大学;2015年

3 石艳超;忆阻神经网络的混沌性及几类时滞神经网络的同步研究[D];电子科技大学;2014年

4 王新迎;基于随机映射神经网络的多元时间序列预测方法研究[D];大连理工大学;2015年

5 付爱民;极速学习机的训练残差、稳定性及泛化能力研究[D];中国农业大学;2015年

6 李辉;基于粒计算的神经网络及集成方法研究[D];中国矿业大学;2015年

7 王卫苹;复杂网络几类同步控制策略研究及稳定性分析[D];北京邮电大学;2015年

8 张海军;基于云计算的神经网络并行实现及其学习方法研究[D];华南理工大学;2015年

9 李艳晴;风速时间序列预测算法研究[D];北京科技大学;2016年

10 陈辉;多维超精密定位系统建模与控制关键技术研究[D];东南大学;2015年

相关硕士学位论文 前10条

1 章颖;混合不确定性模块化神经网络与高校效益预测的研究[D];华南理工大学;2015年

2 贾文静;基于改进型神经网络的风力发电系统预测及控制研究[D];燕山大学;2015年

3 李慧芳;基于忆阻器的涡卷混沌系统及其电路仿真[D];西南大学;2015年

4 陈彦至;神经网络降维算法研究与应用[D];华南理工大学;2015年

5 董哲康;基于忆阻器的组合电路及神经网络研究[D];西南大学;2015年

6 武创举;基于神经网络的遥感图像分类研究[D];昆明理工大学;2015年

7 李志杰;基于神经网络的上证指数预测研究[D];华南理工大学;2015年

8 陈少吉;基于神经网络血压预测研究与系统实现[D];华南理工大学;2015年

9 张韬;几类时滞神经网络稳定性分析[D];渤海大学;2015年

10 邵雪莹;几类时滞不确定神经网络的稳定性分析[D];渤海大学;2015年



本文编号:1563461

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1563461.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户35def***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com