当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的音素特征识别研究

发布时间:2021-09-11 16:43
  语音作为日常交流的重要方式,在人类发展历程中占有无可替代的地位。21世纪后,神经网络的重新提出和互联网的快速发展将语音识别技术推进到一个新的阶段。由于模式识别的进步,语音识别作为人机交互的重要组成是当前研究的热点。在语音的特征提取、声学模型识别和解码三个步骤中,特征提取作为语音识别的第一步尤其重要,随着深度学习在语音识别领域的成功应用,使用神经网络的深度结构可以实现对语音数据的复杂函数计算和高维学习,提取出比浅层结构分类效果更好的音素特征。近年来,大量的研究人员提出了多种利用神经网络的深层结构来提高语音特征识别率的方法,尽管在一定程度上取得了较好的效果,但是语音识别的研究技术仍存在进步的空间。本文为降低语音特征的识别错误率,首先,从语音信号中提取传统特征,然后对传统的特征进行音素提取;其次,建立新的串联系统模型,通过相关状态的共享结构来减少计算复杂度,同时充分利用深度学习框架中生成性网络的映射方式和学习能力,进行特征参数的提取;最后,经过声学模型的学习识别与解码后得到音素识别错误率,并以此为指标判断模型的效果。本文主要的研究内容如下:(1)子空间高斯混合模型在状态空间共享同一结构的情况... 

【文章来源】:陕西师范大学陕西省 211工程院校 教育部直属院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于深度学习的音素特征识别研究


一人机交互系统模块组成

基于深度学习的音素特征识别研究


HMM的组成

序列,孤立词,序列


?^??观察序列??图2-3?HMM的组成??Fig.?2-3?Composition?of?the?Hidden?Markov?Model??隐马尔可夫模型作为一个双内嵌形式的随机过程,一个过程是无法观测的,??仅可借助另一个过程中输出的观察序列得到结果。设HMM模型的状态转移序列??是夕二的…七,符号输出为■,则考虑到在HMM中所有可能的状态??序列,输出的符号序列概率为:??P(0)?=?[P(0|作⑷=[n?外,,?)?(2-7)??S?Si??根据上面的分析,可以看出声学模型HMM由以下5个参数决定:??M?=?{S,?O,?n,?A,?B}?(2-8)??式中,S为有限的状态集合,O为输出的可以进行观测的符号集合,;r为初始概??率的集合

【参考文献】:
期刊论文
[1]基于改进深度置信网络的语音增强算法[J]. 余华,唐於烽,赵力.  数据采集与处理. 2018(05)
[2]面向中文语音情感识别的改进栈式自编码结构[J]. 朱芳枚,赵力,梁瑞宇,王青云,邹采荣.  东南大学学报(自然科学版). 2017(04)
[3]深度学习在语音识别中的研究进展综述[J]. 侯一民,周慧琼,王政一.  计算机应用研究. 2017(08)
[4]LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J]. 陈雷,杨俊安,王一,王龙.  信号处理. 2015(03)
[5]非齐次语音识别HMM模型和THED语音识别与理解系统[J]. 王作英.  电信科学. 1993(04)
[6]用图样匹配法在计算机上自动识别语音[J]. 俞铁城.  物理学报. 1977(05)
[7]汉语标准频谱[J]. 马大猷,张家騄.  声学学报. 1965(04)



本文编号:3393356

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3393356.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户21cd4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com