基于HMM的歌词到歌声转换的研究

发布时间：2017-09-24 09:01

本文关键词：基于HMM的歌词到歌声转换的研究

【摘要】：语音合成技术在人机交互领域是一个重要研究内容,有着广泛的应用,歌声合成是语音合成的研究热点。本研究利用了文语转换(Text-To-Speech,TTS)技术,通过HTS(HMM-based Speech Synthesis System)实现歌声的合成。利用训练语料建立说话人相关的声学模型。通过MIDI(Musical Instrument Digital Interface)乐谱,获得歌声的音乐信息。通过分析对比说话语音和歌声信号在声学特征方面的差异,建立歌声的旋律控制模型。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用训练得到的说话人相关模型,获得说话人相关的声学参数。通过旋律控制模型对声学参数进行修改。最后,利用STRAIGHT(Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram)算法实现了基于HMM(Hidden Markov Model,HMM)的歌词到歌声的转换。论文的主要工作与创新如下:1.建立了面向歌曲合成的基于HMM的说话人相关的声学模型。利用多说话人的语音语料,分析语音,得到基频(F0)、时长、频谱(SP)以及非周期索引(AP)等声学参数,并利用说话人自适应训练技术,训练获得平均音模型。在此基础上,利用目标说话人的语音,通过说话人自适应变换技术,得到目标说话人的声学模型。2.建立了旋律控制模型。从MIDI文件提取乐谱信息,分析乐谱文件结构,获得通道标号、音符音高、键的速度、音符起始时间、音符持续时间等音乐信息。分析语音和歌声在声学特征的差异,建立了歌声的旋律控制模型,包括基频控制模型和时长控制模型。利用基频控制模型将乐谱中的离散音高转换为连续的基频曲线,并利用时长控制模型获得歌唱音符的发音时长。3.实现了歌词到歌曲的转换。对输入的歌词文本进行文本分析,获得上下文相关的标注,并利用说话人相关的模型,生成频谱、非周期索引2个声学参数。同时根据MIDI文件,获得歌词中每个音符的音高和音长,并通过旋律控制模型获得相应的基频和时长,并根据音符时长获得音节的频谱、非周期索引和基频的时长。最后,利用STRAIGHT算法实现歌声的合成,并加入音乐伴奏。对转换的歌声进行了主、客观评测,结果表明,转换的歌声音质较好。
【关键词】：歌声合成 旋律控制模型 基于HMM的语音合成 MIDI STRAIGHT算法
【学位授予单位】：西北师范大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TN912.33
【目录】：

摘要4-5
Abstract5-9
第1章引言9-13
1.1 选题背景9-11
1.1.1 歌声合成研究现状9-11
1.1.2 研究目的及意义11
1.2 论文结构安排11-13
第2章歌声合成相关语音知识13-25
2.1 语音合成分类13-15
2.2 文-语转换系统15
2.3 基于隐马尔可夫模型的参数语音合成15-18
2.3.1 隐马尔可夫模型简介15-16
2.3.2 基于隐马尔可夫模型语音合成系统16-18
2.4 说话人的自适应训练18-21
2.5 STRAIGHT算法21-24
2.6 本章小结24-25
第3章歌声合成相关音乐知识25-32
3.1 MIDI技术介绍25-27
3.1.1 MIDI系统25-26
3.1.2 标准MIDI文件格式结构26-27
3.2 乐理知识介绍27-29
3.3 语音与歌声信号特征分析29-31
3.3.1 语音信号的分析29
3.3.2 语音与歌声信号特征对比分析29-31
3.4 歌声旋律转换31
3.5 本章小结31-32
第4章歌词到歌声转换的实现32-42
4.1 HMM自适应训练33-35
4.1.1 HMM训练准备33-34
4.1.2 说话人自适应训练的实现34-35
4.2 MIDI乐谱信息提取35-36
4.3 旋律控制模型36-39
4.4 STRAIGHT算法的歌声合成39-41
4.5 本章小结41-42
第5章实验及评测42-45
5.1 实验数据准备42
5.2 系统评测42-44
5.2.1 评测方法42-43
5.2.2 评测结果43-44
5.3 本章小结44-45
第6章总结与展望45-47
6.1 论文工作总结45
6.2 工作展望45-47
参考文献47-50
攻读学位期间的研究成果50-51
致谢51

【相似文献】

中国期刊全文数据库前10条

1 周海涛;;语音合成中多音字识别的实现[J];科技资讯;2008年11期

2 彭腾;孙萍;;基于C#语音合成的实现[J];电脑编程技巧与维护;2010年12期

3 张世平;;会说四种话的语音合成卡——声威一号[J];今日电子;1993年01期

4 赵建洋;;一种高效语音合成方法[J];电子技术;1993年08期

5 马义德，张新国，，罗长印;语音合成电路在我国的应用前景[J];电子技术;1994年12期

6 郝杰;语音合成:引领“耳朵经济”[J];中国电子商务;2001年Z2期

7 罗三定,贾建华,沙莎;基于波形音频段处理的中文语音合成研究[J];电脑与信息技术;2002年01期

8 ;国内语音合成领域专利技术发展趋势[J];电子知识产权;2003年10期

9 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期

10 王永生;柴佩琪;曾令平;;英语语音合成中基于约束树的音节切分算法[J];微型电脑应用;2005年11期

中国重要会议论文全文数据库前10条

1 杨静;孙金城;;关于录制语音合成数据库的几个问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

2 徐俊;蔡莲红;吴志勇;;多语种语音合成平台的设计与实现[A];第一届建立和谐人机环境联合学术会议（HHME2005）论文集[C];2005年

3 陈益强;高文;王兆其;杨长水;姜大龙;;多模式语音合成[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 陶建华;董宏辉;许晓颖;;情感语音合成的关键技术分析[A];第六届全国现代语音学学术会议论文集（下）[C];2003年

5 刘东华;冯静;力梅;;深圳市新一代“12121”语音合成业务系统[A];中国气象学会2007年年会气象软科学论坛分会场论文集[C];2007年

6 黄小明;熊子瑜;;基于古音系统的汉语方言语音合成研究[A];第十二届全国人机语音通讯学术会议（NCMMSC'2013）论文集[C];2013年

7 邹煜;何伟;侯敏;滕永林;朱维彬;;面向语音合成的新闻播报语音库构建及其特殊韵律结构[A];中国计算机语言学研究前沿进展（2007-2009）[C];2009年

8 贺琳;张蕊;俞舸;;大规模语音合成语料库的录制及常见问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

9 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议（NCMMSC7）论文集[C];2003年

10 吴志勇;蔡莲红;蒙美玲;;可视语音合成中基于音视频关联模型的视位参数优化[A];第八届全国人机语音通讯学术会议论文集[C];2005年

中国重要报纸全文数据库前10条

1 记者桂运安;中科大11项语音合成指标世界第一[N];安徽日报;2014年

2 本报记者何进伟;语音合成露峥嵘[N];网络世界;2001年

3 李羚;多语种语音合成助力数字奥运[N];中国计算机报;2003年

4 清华大学计算机系人机交互与媒体集成研究所陶建华蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年

5 ;嵌入式语音合成平台[N];计算机世界;2002年

6 孙晓闻;语音合成让机器“像人一样说话”[N];中国劳动保障报;2005年

7 ;新型语音合成软件面世[N];人民邮电;2008年

8 炎黄新星公司供稿;炎黄之声SinoSonic[N];计算机世界;2002年

9 刘权;语音合成融入证券客服[N];中国计算机报;2003年

10 ;语音产品走向开放式架构[N];中国计算机报;2004年

中国博士学位论文全文数据库前10条

1 高莹莹;面向情感语音合成的言语情感建模研究[D];北京交通大学;2016年

2 高裴裴;人眼驱动语音合成的若干关键技术研究[D];南开大学;2012年

3 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年

4 苏庄銮;情感语音合成[D];中国科学技术大学;2006年

5 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年

6 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年

7 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年

8 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年

9 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年

10 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年

中国硕士学位论文全文数据库前10条

1 李冰洁;基于声韵母的嵌入式语音合成[D];北京交通大学;2016年

2 李焕君;个性化语音合成在船舶导航系统中应用研究[D];大连海事大学;2016年

3 冯欢;基于HMM的歌词到歌声转换的研究[D];西北师范大学;2015年

4 王海燕;汉藏双语跨语言统计参数语音合成的研究[D];西北师范大学;2015年

5 孙晓辉;结合听感度量的语音合成方法研究[D];中国科学技术大学;2016年

6 李翔凰;基于HMM-RBM的蒙古语语音合成研究[D];内蒙古大学;2016年

7 王雨蒙;英语文语转换系统中的ToBl韵律自动标注方法与实现[D];云南大学;2016年

8 戈永侃;改进语音合成自然度的研究[D];江南大学;2016年

9 聂军;基于HMM可训练的汉语语音合成系统[D];吉林大学;2010年

10 曾一鸣;情感语音合成的研究和系统实现[D];上海交通大学;2010年

本文编号：910498

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/910498.html

上一篇：论基于FMS框架搭建下的网络直播系统
下一篇：基于混沌映射组播技术的无线移动自组织网络路由研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|