基于深度学习的小尺度单元拼接语音合成方法研究

发布时间:2018-01-02 19:31

  本文关键词:基于深度学习的小尺度单元拼接语音合成方法研究 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 语音合成 参数合成 单元挑选 深度神经网络 递归神经网络


【摘要】:语音合成技术旨在实现文本等输入信息到语音波形的转换。统计参数语音合成方法以及单元挑选与波形拼接方法是现阶段实现语音合成的两类主流方法。前者具有系统自动构建、合成语音平滑流畅等优点。但是受制于参数合成器等因素,其合成语音的自然度仍不够理想。在统计声学模型指导下使用帧级长度的小尺度单元进行单元挑选和波形拼接,是一种改进统计参数方法合成语音自然度的有效途径。传统小尺度单元挑选方法使用隐马尔科夫模型(hidden Markov model,HMM)进行声学建模和代价函数计算。而近年来,以深度神经网络为代表的深度学习方法已经在统计参数语音合成的声学建模中体现出了相对HMM的性能优势。因此,本文围绕基于深度学习的小尺度单元拼接语音合成方法开展研究工作。一方面,研究了用于指导小尺度单元挑选的神经网络声学建模方法,通过使用深度神经网络与递归神经网络等模型结构,提升了传统HMM模型的建模精度与合成语音质量;另一方面,提出了一种结合单元挑选和参数生成的语音合成方法,利用帧拼接方法实现了激励特征波形的生成,改善了传统统计参数合成方法中对于相位等激励信息建模能力的不足,提高了合成语音自然度。本文的研究工作具体如下:首先,本文提出了基于深度神经网络的帧拼接语音合成方法。该方法使用深度神经网络构建声学模型用于帧挑选中的目标代价与连接代价的计算,相对传统HMM模型提高了模型的预测精度与合成语音的主观质量。其次,本文研究了基于递归神经网络的小尺度单元挑选与波形拼接合成方法。该方法一方面采用结合长短时记忆单元的递归神经网络进行声学建模以改善深度神经网络的时序建模能力,另一方面引入多帧挑选策略以减少拼接点,取得了比基于深度神经网络的帧拼接方法更好的合成语音自然度。最后,本文设计实现了结合单元挑选激励生成的参数合成方法。该方法对提取的激励特征波形进行参数表征和声学建模,在合成阶段使用帧拼接方法生成激励特征波形的高频成分,同时使用参数生成方法预测滤波器特征,最终通过滤波合成语音波形。实验结果表明了该方法在改善统计参数方法合成语音自然度上的有效性。
[Abstract]:Speech synthesis technology aims to realize the conversion of input information such as text to speech waveform. Statistical parameter speech synthesis method, unit selection and waveform splicing method are two main methods to realize speech synthesis at present. System built automatically. Synthesis speech smooth and smooth and other advantages, but limited by the parameter synthesizer and other factors. The naturalness of the synthesized speech is still not ideal. Under the guidance of the statistical acoustic model, small scale units of frame length are used for unit selection and waveform stitching. It is an effective way to improve the statistical parameter method for speech naturality synthesis. Traditional small scale unit selection method uses hidden Markov model. HMMs are used for acoustic modeling and cost function calculation. The depth learning method represented by depth neural network has shown the performance advantage of HMM in the acoustic modeling of statistical parameter speech synthesis. On the one hand, the neural network acoustic modeling method used to guide the selection of small scale units is studied. By using depth neural network and recurrent neural network, the modeling accuracy and synthetic speech quality of traditional HMM model are improved. On the other hand, a speech synthesis method combining unit selection and parameter generation is proposed, and the excitation feature waveform is generated by frame splicing. Improve the traditional statistical parameter synthesis method for phase and other excitation information modeling ability, improve the synthesis speech naturalness. The research work in this paper is as follows: first. In this paper, a method of frame mosaic speech synthesis based on depth neural network is proposed, which uses depth neural network to construct acoustic model to calculate target cost and connection cost in frame selection. Compared with the traditional HMM model, the prediction accuracy of the model and the subjective quality of synthesized speech are improved. Secondly. In this paper, the method of small scale unit selection and waveform splicing synthesis based on recurrent neural network is studied. On the one hand, the acoustic modeling based on recurrent neural network combined with long and short memory unit is used to improve the depth neural network. The temporal modeling capability of. On the other hand, the multi-frame selection strategy is introduced to reduce the stitching points, and better synthetic speech naturalness is obtained than the frame stitching method based on depth neural network. Finally. In this paper, we design and implement the method of parameter synthesis based on unit selection excitation, which is used for parameter representation and acoustic modeling of the extracted excitation waveform. In the synthesis phase, frame splicing method is used to generate the high-frequency components of the excitation characteristic waveform, and the parameter generation method is used to predict the filter features. Finally, the speech waveform is synthesized by filtering. The experimental results show that the proposed method is effective in improving the speech naturalness of the statistical parameter method.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 郑骐;情感语音合成——研究现状与发展[J];宁波广播电视大学学报;2005年03期

2 周海涛;;语音合成中多音字识别的实现[J];科技资讯;2008年11期

3 彭腾;孙萍;;基于C#语音合成的实现[J];电脑编程技巧与维护;2010年12期

4 张世平;;会说四种话的语音合成卡——声威一号[J];今日电子;1993年01期

5 赵建洋;;一种高效语音合成方法[J];电子技术;1993年08期

6 马义德,,张新国,罗长印;语音合成电路在我国的应用前景[J];电子技术;1994年12期

7 郝杰;语音合成:引领“耳朵经济”[J];中国电子商务;2001年Z2期

8 罗三定,贾建华,沙莎;基于波形音频段处理的中文语音合成研究[J];电脑与信息技术;2002年01期

9 ;国内语音合成领域专利技术发展趋势[J];电子知识产权;2003年10期

10 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期

相关会议论文 前10条

1 杨静;孙金城;;关于录制语音合成数据库的几个问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

2 徐俊;蔡莲红;吴志勇;;多语种语音合成平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

3 陈益强;高文;王兆其;杨长水;姜大龙;;多模式语音合成[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 陶建华;董宏辉;许晓颖;;情感语音合成的关键技术分析[A];第六届全国现代语音学学术会议论文集(下)[C];2003年

5 刘东华;冯静;力梅;;深圳市新一代“12121”语音合成业务系统[A];中国气象学会2007年年会气象软科学论坛分会场论文集[C];2007年

6 黄小明;熊子瑜;;基于古音系统的汉语方言语音合成研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

7 邹煜;何伟;侯敏;滕永林;朱维彬;;面向语音合成的新闻播报语音库构建及其特殊韵律结构[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 贺琳;张蕊;俞舸;;大规模语音合成语料库的录制及常见问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

9 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

10 吴志勇;蔡莲红;蒙美玲;;可视语音合成中基于音视频关联模型的视位参数优化[A];第八届全国人机语音通讯学术会议论文集[C];2005年

相关重要报纸文章 前10条

1 记者 桂运安;中科大11项语音合成指标世界第一[N];安徽日报;2014年

2 本报记者 何进伟;语音合成露峥嵘[N];网络世界;2001年

3 李羚;多语种语音合成助力数字奥运[N];中国计算机报;2003年

4 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年

5 ;嵌入式语音合成平台[N];计算机世界;2002年

6 孙晓闻;语音合成 让机器“像人一样说话”[N];中国劳动保障报;2005年

7 ;新型语音合成软件面世[N];人民邮电;2008年

8 炎黄新星公司供稿;炎黄之声SinoSonic[N];计算机世界;2002年

9 刘权;语音合成融入证券客服[N];中国计算机报;2003年

10 ;语音产品走向开放式架构[N];中国计算机报;2004年

相关博士学位论文 前10条

1 高莹莹;面向情感语音合成的言语情感建模研究[D];北京交通大学;2016年

2 高裴裴;人眼驱动语音合成的若干关键技术研究[D];南开大学;2012年

3 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年

4 苏庄銮;情感语音合成[D];中国科学技术大学;2006年

5 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年

6 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年

7 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年

8 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年

9 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年

10 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年

相关硕士学位论文 前10条

1 王泽勋;多层次韵律和短时谱同步变换的情感语音合成[D];苏州大学;2015年

2 熊林云;基于ARM Cortex-M3的语音合成软件系统设计与实现[D];电子科技大学;2014年

3 章琴;基于HMM的中文情感语音合成的研究[D];合肥工业大学;2014年

4 冯欢;基于HMM的歌词到歌声转换的研究[D];西北师范大学;2015年

5 王海燕;汉藏双语跨语言统计参数语音合成的研究[D];西北师范大学;2015年

6 孙晓辉;结合听感度量的语音合成方法研究[D];中国科学技术大学;2016年

7 李翔凰;基于HMM-RBM的蒙古语语音合成研究[D];内蒙古大学;2016年

8 王雨蒙;英语文语转换系统中的ToBl韵律自动标注方法与实现[D];云南大学;2016年

9 戈永侃;改进语音合成自然度的研究[D];江南大学;2016年

10 韩云飞;汉、维语音合成在新疆农村信息推送系统中的应用研究[D];新疆农业大学;2016年



本文编号:1370641

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1370641.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2be42***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com