当前位置:主页 > 科技论文 > 信息工程论文 >

基于稀疏编码的藏语语音识别研究

发布时间:2020-06-13 21:41
【摘要】:相对于汉语和英语等大语种语音识别,藏语语音识别研究始于2005年,起步较晚,且不同语种间存在差异,采用新技术以提升藏语语音识别系统性能,将成为藏语语音识别研究领域亟待解决的问题。针对藏语单音节识别系统,本研究主要进行了以下工作:1.特征提取。以梅尔频率倒谱系数作为输入的卷积神经网络可同时获取时序信息和空间位置信息。实验中提取了两类特征,即静态与动态的梅尔频率倒谱系数。2.稀疏编码。为了尽可能地消除特征间的相关性,减少与分类无关的信息,使用稀疏编码获取两种梅尔频率倒谱系数的稀疏表示。稀疏编码采用K-SVD算法。3.分类器设计。以多维矩阵作为输入的卷积神经网络可保持输入数据维数不变。为了捕捉空间位置特征,选择卷积神经网络作为分类器。4.基于稀疏编码的藏语语音识别系统。该系统将稀疏表示后的梅尔频率倒谱系数输入卷积神经网络用以识别藏语单音节语音。本研究将稀疏编码与卷积神经网络两种技术相结合,以改善语音识别系统性能。通过实验得出以下结论:1.相对于深度神经网络,卷积神经网络更适合处理高维数据;2.动态梅尔频率倒谱系数和稀疏编码可提升藏语语音识别系统性能;3.本系统可用于藏语语音识别任务。本研究主要贡献是将稀疏编码与卷积神经网络相结合构成基于稀疏编码的藏语语音识别系统以进行藏语语音识别。
【图文】:

序列,激活函数,收敛速度,实线


该网络是一种深度前馈神经网络,包含两种不同的层间流动[38]。HDNN 可以在不损失准确率的前提。随后,Lu L. 使用序列判别训练准则和说话人自适应[39]。积神经网络 是一种典型的深度学习结构,是计算机视觉和机器学习系结构之一。Krizhevsky A. 等人提出了一种 CNN,将任务[40]。激活函数为 的神经元称为线性。由图 1-1 可知,,用 ReLU 的 DNN 比传统神经网络(神nh 或 sigmoid)的训练时间要快数倍。该神经网络由 连接层组成,某些卷积层之后连接最大池化层,最后使训练更快,使用非常高效的 GPU 实现卷积运算。为了拟合,在全连接层后加了一层“Dropout”层。在 ILSVR用该模型的变体,获得了大赛第一名。

平面图,平面,概念,引入时间


图 1-2 三正交平面。空间域中引入时间概念面,即在空间域中引入时间概念,首先,用 C处理;然后,汇总三个平面的处理结果;最(图 1-3)。文献[42]还证明了时间域中提取具有互补性。
【学位授予单位】:青海师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34

【参考文献】

相关期刊论文 前10条

1 王辉;赵悦;刘晓凤;徐晓娜;周楠;许彦敏;;基于深度特征学习的藏语语音识别[J];东北师大学报(自然科学版);2015年04期

2 王山海;景新幸;杨海燕;;基于深度学习神经网络的孤立词语音识别的研究[J];计算机应用研究;2015年08期

3 陈斌;牛铜;张连海;李弼程;屈丹;;声学模型区分性训练中的动态加权数据选取方法[J];自动化学报;2014年12期

4 陈斌;张连海;牛铜;屈丹;李弼程;;基于MCE准则的语音识别特征线性判别分析[J];自动化学报;2014年06期

5 黄浩;李兵虎;吾守尔·斯拉木;;区分性模型组合中基于决策树的声学上下文建模方法[J];自动化学报;2012年09期

6 韩志艳;王健;伦淑娴;;基于遗传小波神经网络的语音识别分类器设计[J];计算机科学;2010年11期

7 吴娅辉;刘刚;郭军;;基于模型混淆度的模型组合算法研究[J];自动化学报;2009年05期

8 张震;王化清;;语音信号特征提取中Mel倒谱系MFCC的改进算法[J];计算机工程与应用;2008年22期

9 刘宇红;刘桥;任强;;基于模糊聚类神经网络的语音识别方法[J];计算机学报;2006年10期

10 朱小燕,王昱,徐伟;基于循环神经网络的语音识别模型[J];计算机学报;2001年02期



本文编号:2711782

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2711782.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60b0c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com