基于非负矩阵分解的语音深层低维特征提取方法
本文选题:连续语音识别 + 深层神经网络 ; 参考:《数据采集与处理》2017年05期
【摘要】:作为一种基于深层神经网络提取的低维特征,瓶颈特征在连续语音识别中取得了很大的成功。然而训练瓶颈结构的深层神经网络时,瓶颈层的存在会降低网络输出层的帧准确率,进而反过来影响该特征的性能。针对这一问题,本文基于非负矩阵分解算法,提出一种利用不包含瓶颈层的深层神经网络提取低维特征的方法。该方法利用半非负矩阵分解和凸非负矩阵分解算法对隐含层权值矩阵分解得到基矩阵,将其作为新的特征层权值矩阵,然后在该层不设置偏移向量的情况下,通过数据前向传播提取新型特征。实验表明,该特征具有较为稳定的规律,且适用于不同的识别任务和网络结构。当使用训练数据充足的语料进行实验时,该特征表现出同瓶颈特征几乎相同的识别性能;而在低资源环境下,基于该特征识别系统的识别率明显优于深层神经网络混合识别系统和瓶颈特征识别系统。
[Abstract]:As a low-dimensional feature based on deep neural network, bottleneck feature has been successfully used in continuous speech recognition. However, when training the deep neural network with the bottleneck structure, the existence of the bottleneck layer will reduce the frame accuracy of the network output layer, which in turn will affect the performance of the feature. In order to solve this problem, based on the non-negative matrix decomposition algorithm, this paper proposes a method to extract low-dimensional features by using deep-seated neural networks without bottleneck layer. The method uses semi-nonnegative matrix decomposition and convex non-negative matrix decomposition algorithm to decompose the hidden layer weight matrix to obtain the base matrix, which is regarded as a new characteristic layer weight matrix. New features are extracted by data forward propagation. The experimental results show that this feature has relatively stable rules and is suitable for different recognition tasks and network structures. When experimenting with language data with sufficient training data, the feature exhibits almost the same recognition performance as the bottleneck feature, while in low-resource environments, the performance of the feature is similar to that of the bottleneck feature. The recognition rate of the system based on this feature is obviously better than that of the hybrid recognition system based on deep neural network and the bottleneck feature recognition system.
【作者单位】: 解放军信息工程大学信息系统工程学院;
【基金】:国家自然科学基金(61175017,61403415)资助项目
【分类号】:TN912.34;TP183
【相似文献】
相关期刊论文 前10条
1 姜伟;李宏;余震国;杨炳儒;;稀疏约束图正则非负矩阵分解[J];计算机科学;2013年01期
2 靳庆贵;梁国龙;;非负矩阵分解的分层最小二乘快速算法研究[J];计算机仿真;2012年11期
3 李兵;徐榕;贾春宁;郭清晨;;基于自适应形态提升小波与改进非负矩阵分解的发动机故障诊断方法[J];兵工学报;2013年03期
4 孙健;张雄伟;曹铁勇;杨吉斌;孙新建;;基于卷积非负矩阵分解的语音转换方法[J];数据采集与处理;2013年02期
5 李宏坤;陈禹臻;张志新;周帅;;基于非负矩阵分解与主元分析的时频图像识别方法研究[J];振动与冲击;2012年18期
6 仵博;吴敏;;基于广义逆非负矩阵分解的无线传感器网络节能通信[J];中南大学学报(自然科学版);2013年04期
7 许然;李亚超;邢孟道;;利用稀疏非负矩阵分解的大转角SAR成像方法[J];西安电子科技大学学报;2014年03期
8 高茜;李广侠;胡婧;;基于非负矩阵分解的IP流量预测[J];计算机科学;2012年01期
9 龙泓琳;皮亦鸣;曹宗杰;;基于非负矩阵分解的SAR图像目标识别[J];电子学报;2010年06期
10 邓晓政;焦李成;卢山;;基于非负矩阵分解的谱聚类集成SAR图像分割[J];电子学报;2011年12期
相关会议论文 前4条
1 徐利民;龚珊;余再军;;奇异值分解与非负矩阵分解色在数据降维方面的特性分析[A];2010年通信理论与信号处理学术年会论文集[C];2010年
2 蒋霈霖;;KL散度下的非负矩阵分解[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
3 钱乐乐;高隽;徐小红;;非负性约束的图像稀疏编码[A];第七届全国信息获取与处理学术会议论文集[C];2009年
4 郑能恒;蔡毅;李霞;Tan Lee;;基于非负矩阵分解和向量相似测度的语音与音乐分离算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
相关硕士学位论文 前8条
1 王丹;基于非负矩阵分解的脑电信号特征提取算法研究[D];燕山大学;2015年
2 师萌;基于非负矩阵分解的SAR图像目标配置识别[D];西安电子科技大学;2014年
3 张倩敏;非负矩阵分解算法及在语音转换中的应用[D];安徽大学;2016年
4 陈静;钢琴音乐的多基频估计研究[D];电子科技大学;2016年
5 Ullah Rizwan;语音信号中敲击按键声音的检测和抑制[D];中国科学技术大学;2017年
6 孔令城;基于非负矩阵分解的音频事件检测研究[D];华南理工大学;2014年
7 张敏;基于非负矩阵分解的脑电信号特征提取[D];燕山大学;2014年
8 宁丽娜;通信信号调制体制识别算法研究[D];北京邮电大学;2014年
,本文编号:1993852
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1993852.html