基于神经网络的语音频带扩展方法研究
本文关键词:基于神经网络的语音频带扩展方法研究 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 语音频带扩展 深度神经网络 循环神经网络 扩张卷积神经网络 统计参数语音合成
【摘要】:语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号。在当前的语音通信系统中,由于受到语音采集设备以及信道条件的限制,传输的语音信号的带宽往往小于4kHz。高频部分的缺失会导致语音音质下降、自然度受损等问题。因此语音频带扩展技术的研究具有重要的应用价值。传统基于统计声学模型的语音频带扩展方法采用高斯混合模型来描述低频声学特征到高频声学特征的映射关系,存在建模精度不足、重建高频频谱过平滑等问题。近年来,具有深层结构的神经网络模型在语音合成、说话人转换、语音增强等语音信号生成任务中得到了成功应用。神经网络相对传统高斯混合模型,对于特征间的非线性关系有着更好的建模能力。因此本文围绕基于神经网络的语音频带扩展方法开展研究工作,具体包括:首先,本文研究了基于深度神经网络的语音频带扩展方法。设计实现了多种面向频带扩展任务的深度神经网络预训练和训练策略,取得了相对传统高斯混合模型的主客观性能提升;进一步研究了频带扩展深度神经网络的多任务学习方法,将窄带语音的音素分类作为次要分类引入模型训练准则,增强了模型对于文本相关信息的提取与处理能力,提升了高频频谱特征的预测精度。其次,本文研究了基于循环神经网络的语音频带扩展方法。针对深度神经网络在时序建模能力上的不足,使用深层循环神经网络与长短时记忆单元对高低频声学特征序列间的相关性进行建模,取得了优于高斯混合模型和深度神经网络模型的频带扩展性能;进一步提出了结合深瓶颈特征的语音频带扩展方法,针对传统方法中仅针对声学信息进行建模而忽略文本信息的问题,在模型输入中加入了从窄带语音状态分类网络中提取的深瓶颈特征,进一步提升了频带扩展的性能。再次,本文提出了基于深层扩张卷积神经网络与波形建模的语音频带扩展方法。该方法融合了声学特征提取与转换步骤,采用深层扩张卷积神经网络直接在波形与采样点层面进行语音信号的建模与预测,相对使用帧级特征、参数合成器与循环神经网络建模的频带扩展方法,取得了更好的生成语音主观质量;在基于深层扩张卷积神经网络的波形建模框架下,进一步研究了深瓶颈特征等辅助信息的使用方法,以及模型存储量的优化方法。最后,本文研究了结合频带扩展的统计参数语音合成方法。针对语音合成系统输出语音质量受限于训练音库采样率的问题,提出了利用频带扩展技术和低采样率音库进行高采样率语音合成系统的构建;实验结果表明该方法可以取得与直接使用高采样率音库构建合成系统相当的合成语音质量。
[Abstract]:Speech band expansion aims to recover wideband speech signals from narrowband speech signals that are limited in frequency band.; in current voice communication systems, due to limitations of voice acquisition devices and channel conditions. The bandwidth of the transmitted speech signal is usually less than 4 kHz. The loss of the high frequency part will lead to the decline of the speech quality. Therefore, the research of speech frequency band expansion technology has important application value. The traditional speech frequency band expansion method based on statistical acoustic model uses Gaussian mixture model to describe the low frequency acoustic characteristics to high. Mapping relation of frequency acoustic features. In recent years, the neural network model with deep structure in speech synthesis, speaker conversion. Speech enhancement and other speech signal generation tasks have been successfully applied. The neural network compared with the traditional Gao Si hybrid model. The nonlinear relationship between features has a better modeling capability. Therefore, this paper focuses on the neural network-based speech frequency band expansion method research, including: first of all. In this paper, the method of speech frequency band expansion based on depth neural network is studied, and a variety of pre-training and training strategies for deep neural network are designed and implemented. Compared with the traditional Gaussian mixture model, the subjective and objective performance of the model is improved. The multitasking learning method of the extended depth neural network is further studied, and the phoneme classification of narrowband speech is introduced into the model training criterion as the secondary classification. Enhanced the model for text related information extraction and processing capabilities, improve the prediction accuracy of high-frequency spectrum features. Secondly. In this paper, the method of speech frequency band expansion based on cyclic neural network is studied. The correlation between high and low frequency acoustic characteristic sequences is modeled by deep cyclic neural network and long and short time memory unit, and the band expansion performance is better than that of Gao Si mixed model and depth neural network model. Furthermore, a speech band expansion method based on deep bottleneck features is proposed to solve the problem of modeling only acoustic information and ignoring text information in traditional methods. The deep bottleneck feature extracted from the narrowband speech state classification network is added to the model input, which further improves the performance of band expansion. In this paper, a speech band expansion method based on deep expanded convolution neural network and waveform modeling is proposed, which combines the steps of acoustic feature extraction and conversion. The deep expanded convolution neural network is used to model and predict the speech signal directly at the waveform and sample level, and the band expansion method is used to model the speech signal by using the frame level feature, the parameter synthesizer and the cyclic neural network. A better subjective quality of generated speech is obtained. In the framework of waveform modeling based on deep extended convolution neural network, the use of auxiliary information, such as deep bottleneck features, and the optimization method of model storage are further studied. Finally. In this paper, the statistical parameter speech synthesis method combined with band expansion is studied, aiming at the problem that the output speech quality of the speech synthesis system is limited by the sampling rate of the training sound library. A high sampling rate speech synthesis system based on band expansion and low sampling rate sound database is proposed. The experimental results show that the proposed method can achieve the same quality of speech synthesis as the direct use of a high sampling rate sound library to construct a synthesis system.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3;TP183
【相似文献】
相关期刊论文 前10条
1 杨晓帅 ,付玫;神经网络技术让管理更轻松[J];软件世界;2000年11期
2 云中客;新的神经网络来自于仿生学[J];物理;2001年10期
3 唐春明,高协平;进化神经网络的研究进展[J];系统工程与电子技术;2001年10期
4 李智;一种基于神经网络的煤炭调运优化方法[J];长沙铁道学院学报;2003年02期
5 程科,王士同,杨静宇;新型模糊形态神经网络及其应用研究[J];计算机工程与应用;2004年21期
6 王凡,孟立凡;关于使用神经网络推定操作者疲劳的研究[J];人类工效学;2004年03期
7 周丽晖;从统计角度看神经网络[J];统计教育;2005年06期
8 赵奇 ,刘开第 ,庞彦军;灰色补偿神经网络及其应用研究[J];微计算机信息;2005年14期
9 袁婷;;神经网络在股票市场预测中的应用[J];软件导刊;2006年05期
10 尚晋;杨有;;从神经网络的过去谈科学发展观[J];重庆三峡学院学报;2006年03期
相关会议论文 前10条
1 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年
2 周树德;王岩;孙增圻;孙富春;;量子神经网络[A];2003年中国智能自动化会议论文集(上册)[C];2003年
3 罗山;张琳;范文新;;基于神经网络和简单规划的识别融合算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
4 郭爱克;马尽文;丁康;;序言(二)[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
5 钟义信;;知识论:神经网络的新机遇——纪念中国神经网络10周年[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
6 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
7 金龙;朱诗武;赵成志;陈宁;;数值预报产品的神经网络释用预报应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 田金亭;;神经网络在中学生创造力评估中的应用[A];第十二届全国心理学学术大会论文摘要集[C];2009年
9 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
10 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年
2 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年
3 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年
4 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年
5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
6 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年
7 健康时报特约记者 张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
8 刘力;我半导体神经网络技术及应用研究达国际先进水平[N];中国电子报;2001年
9 ;神经网络和模糊逻辑[N];世界金属导报;2002年
10 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
相关博士学位论文 前10条
1 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
2 李素芳;基于神经网络的无线通信算法研究[D];山东大学;2015年
3 石艳超;忆阻神经网络的混沌性及几类时滞神经网络的同步研究[D];电子科技大学;2014年
4 王新迎;基于随机映射神经网络的多元时间序列预测方法研究[D];大连理工大学;2015年
5 付爱民;极速学习机的训练残差、稳定性及泛化能力研究[D];中国农业大学;2015年
6 李辉;基于粒计算的神经网络及集成方法研究[D];中国矿业大学;2015年
7 王卫苹;复杂网络几类同步控制策略研究及稳定性分析[D];北京邮电大学;2015年
8 张海军;基于云计算的神经网络并行实现及其学习方法研究[D];华南理工大学;2015年
9 李艳晴;风速时间序列预测算法研究[D];北京科技大学;2016年
10 陈辉;多维超精密定位系统建模与控制关键技术研究[D];东南大学;2015年
相关硕士学位论文 前10条
1 章颖;混合不确定性模块化神经网络与高校效益预测的研究[D];华南理工大学;2015年
2 贾文静;基于改进型神经网络的风力发电系统预测及控制研究[D];燕山大学;2015年
3 李慧芳;基于忆阻器的涡卷混沌系统及其电路仿真[D];西南大学;2015年
4 陈彦至;神经网络降维算法研究与应用[D];华南理工大学;2015年
5 董哲康;基于忆阻器的组合电路及神经网络研究[D];西南大学;2015年
6 武创举;基于神经网络的遥感图像分类研究[D];昆明理工大学;2015年
7 李志杰;基于神经网络的上证指数预测研究[D];华南理工大学;2015年
8 陈少吉;基于神经网络血压预测研究与系统实现[D];华南理工大学;2015年
9 张韬;几类时滞神经网络稳定性分析[D];渤海大学;2015年
10 邵雪莹;几类时滞不确定神经网络的稳定性分析[D];渤海大学;2015年
,本文编号:1406777
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1406777.html