当前位置:主页 > 科技论文 > 信息工程论文 >

基于深度神经网络的安多藏语语音识别

发布时间:2020-10-26 20:40
   语音识别是模式识别领域中重要的研究分支,其目的是将人类语音信息转换为文本信息。在汉语和英语语音识别中,相比于传统的高斯混合模型-隐马尔科夫模型,深度神经网络的识别性能实现了质的飞跃。但目前有关藏语语音识别的研究较少,特别是藏语属于低资源语言且存在浊辅音趋于清化、元音有长短区别、单元音增多等特点,使得藏语的语音识别仍面临诸多挑战。在藏语的卫藏、康巴与安多三大方言中,针对卫藏方言的语音识别研究相对较多,有关安多方言与康巴方言的研究相对较少,特别是深度神经网络在安多藏语语音识别中的应用尚未深入研究。因此,本文从安多藏语声学模型结构出发,探讨了端对端双向长短时记忆网络在安多藏语语音识别中的应用。本文研究内容如下:1)语料库建立。收集了安多藏语中出现频率最高的1278个单音节词汇,对每个词汇采集藏语安多方言的语音样本,采样频率为16KHZ、量化精度为16bit且通过Cool Edit Pro软件在噪声不高于50dB的室内录制。2)预处理。对藏语安多方言语音信号进行预加重、分帧、加窗、预处理操作,消除由于人类本身发声器官和语音信号采集设备所带来的混叠、高次谐波失真、高频等因素对语音信号质量的影响。预处理操作使语音信号更均匀、平滑,确保在特征提取阶段提取更优质的参数,从而提高语音识别性能。3)特征提取。在安多藏语语音识别任务中,考虑藏语发音的特点,探讨了不同特征提取方法对系统性能的影响。本文分别采用传统梅尔频率倒谱系数和卷积神经网络两种方式提取特征。实验结果表明,应用卷积神经网络提取的特征效果优于梅尔频率倒谱系数特征。4)声学建模。双向长短期网络适合处理序列问题,链接时序分类技术不需要预先对数据进行标注、对齐处理以及后处理操作。因此将链接时序分类技术与双向长短时记忆网络相结合,实现了端对端的安多藏语声学建模。实验证明,基于双向长短时记忆网络端对端的安多藏语声学模型获得了较好的性能。
【学位单位】:青海师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34;TP183
【部分图文】:

语音识别,原理框图,语音特征,特征提取


研究现状包括两个阶段:设计阶段和决策阶段,语料库建设、预处理、特征提取、模型训获取、预处理、特征提取、分类决策等。环节,因此,下文主要介绍特征提取和模语音信号 语音特征知语音信号 语音特征分类决策模型训练

藏语,地理分布,安多方言,范围


图 1-1 藏语三大方言的地理分布范围间的发音差异较大,但文字是统一的。藏文字母和 4 个元音字母。30 个辅音字母为: ,4个元音字母为: 。按照下组合构成字符;字符通过左右组合构成音最小的语音单位,也是最小的语义单位。音节以及句子。书写时,用专门的分隔符― ‖把相邻 。音主要有以下几方面的特点:1)安多方言复没有声调;3)安多方言有送气清擦音声母;方言无复元音;6)安多方言无长元音;7)安言在发音上有较多独特的地方。因此,本文的

函数,工神经网络,训练样本集,非线性函数


能在训练样本集中观测到它们的值,因此工神经网络具有非常重要的作用,目的是将网络可以任意逼近任何非线性函数。常见数将取值为 的数映射到 之如图 2-2 所示:
【参考文献】

相关期刊论文 前10条

1 王山海;景新幸;杨海燕;;基于深度学习神经网络的孤立词语音识别的研究[J];计算机应用研究;2015年08期

2 王一;杨俊安;刘辉;柳林;;基于层次稀疏DBN的瓶颈特征提取方法[J];模式识别与人工智能;2015年02期

3 张晴晴;刘勇;王智超;潘接林;颜永红;;卷积神经网络在语音识别中的应用[J];网络新媒体技术;2014年06期

4 普次仁;顿珠次仁;;基于LDA-MFCC的藏语语音特征提取技术研究[J];西藏大学学报(自然科学版);2014年01期

5 陈斌;张连海;牛铜;屈丹;李弼程;;基于MCE准则的语音识别特征线性判别分析[J];自动化学报;2014年06期

6 蔡尚;金鑫;高圣翔;潘接林;颜永红;;用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J];声学学报;2012年06期

7 黄浩;李兵虎;吾守尔·斯拉木;;区分性模型组合中基于决策树的声学上下文建模方法[J];自动化学报;2012年09期

8 王彪;;基于LPCC参数的语音识别系统[J];电子设计工程;2012年07期

9 伊·达瓦;匂坂芳典;中村哲;;语料资源缺乏的连续语音识别方法的研究[J];自动化学报;2010年04期

10 刘雅琴;智爱娟;;几种语音识别特征参数的研究[J];计算机技术与发展;2009年12期


相关硕士学位论文 前5条

1 周楠;基于深度学习的藏语非特定人连续语音识别研究[D];中央民族大学;2017年

2 刘晓凤;藏语语音深度特征提取及语音识别研究[D];中央民族大学;2016年

3 张宇聪;基于深度学习的藏语拉萨方言语音识别的研究[D];西北师范大学;2016年

4 崔天宇;基于HMM的语音识别系统的研究与实现[D];吉林大学;2016年

5 德庆卓玛;基于特定人小词汇量藏语语音特征值提取的研究[D];西藏大学;2010年



本文编号:2857502

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2857502.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bded2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com