基于统计模型的汉语歌声合成研究
本文关键词:基于统计模型的汉语歌声合成研究,,由笔耕文化传播整理发布。
【摘要】:所谓歌声是指人类有意识地通过控制自身声带的振动和口腔、鼻腔等发音器官的形变而发出的有乐感的声音,而歌声合成则是指利用语音合成相关技术让计算机合成出模拟人的歌唱声。随着基于统计模型的语音合成技术的快速发展和逐渐成熟,尤其基于隐马尔科夫模型的方法取得了最多的关注和最为充分的进展。2006年左右上述基于统计模型的语音合成技术开始被用于歌声合成,并取得了不错的结果。由于所述方法具有所需语料数据少、语料标注的自动化程度高等诸多优点,使其的可用性大大增加,引起了众多学者的广泛关注。本文以歌声合成为主要研究目标,重点研究基于统计模型的歌声合成算法,并在此基础上构建一个可以从输入乐谱、歌词和歌唱人的个性化歌唱特征直接输出个性化歌声的歌声合成系统。本文的主要贡献和创新点如下:1.为了给个性化歌声合成提供充分和优质的歌声数据,自主设计了歌声录制方案,并依据该方案录制了包含210张乐谱,共132分钟的歌声数据库,为构建歌唱合成系统奠定了可靠的数据基础。2.以上述歌声数据库为基础,利用基于统计模型的语音合成相关技术构建了一套完整的歌声合成系统。所构建的系统能够合成出适度音强、精准音高和节奏以及个性化音色的歌唱声。对比实验结果表明,利用本文方法所合成的歌声在质量和表现力上均取得了与目前世界上公认最好的参数合成法(日语)相当的结果。3.结合歌声的基频的特点,提出了一系列的改进的基频模型。·针对歌声基频存在的数据稀疏问题,提出了参考乐谱的基频引导方法。该方法将乐谱中包含的基频信息引入到歌声基频的生成算法中,避免了因数据稀疏而造成的合成音高在时间和频谱结构上出现偏差的问题,可以合成出与乐谱相一致的具有精准音高的基频。·对真实基频和乐谱基频之间可能存在差异的问题进行了研究,提出了在训练中也考虑乐谱基频因素从而准确得到两者之间的差值的方法。利用该方法可以得到相比乐谱基频引导方法更加准确和真实的基频估计。上述方法也可用于连音符的合成。·提出了结合两个不同时间尺度的统计模型来合成歌唱基频的方法。该方法结合了状态与音节两个不同时间尺度的模型以克服合成歌唱基频时存在的过平滑现象,从而合成出表现力更强的基频。·提出了将挑选出的真实单元进行拼接的基频合成方法。该方法将基频的形状曲线和颤音曲线分开处理。其中,颤音以音符为单位进行建模,大大提高了所合成颤音的正确性。实验结果表明,基于真实单元的拼接方法可显著提高所合成基频的真实感和表现力。4.提出了基于统计模型的情感韵律转换方法。该方法可以利用一个较小的情感语音数据库,生成具备情感表达能力的语音。5.提出了一个利用帧间相关性实现音质转换的方法,并将其用于歌者转换。所述帧间相关性使用混合高斯模型框架下的自回归模型进行度量。该方法适用于具有低延时的应用场合。
【关键词】:歌声 歌声合成 音乐四要素 歌声数据库 隐马尔科夫模型 混合高斯模型
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
- 摘要5-7
- ABSTRACT7-15
- 第一章 绪论15-27
- 1.1 歌声合成的研究背景15-18
- 1.1.1 概述15-16
- 1.1.2 歌声合成的原理16-18
- 1.2 歌声合成的研究历史和现状18-23
- 1.2.1 歌声合成模型18-20
- 1.2.2 早期的歌声合成系统20
- 1.2.3 歌声合成研究现状20-23
- 1.3 本文研究内容和论文结构23-27
- 第二章 基于统计模型的歌声合成研究概述27-41
- 2.1 隐马尔科夫模型27-28
- 2.1.1 马尔科夫链27
- 2.1.2 隐马尔科夫模型27-28
- 2.2 基于隐马尔科夫模型的声音合成框架28-32
- 2.2.1 建模尺度28
- 2.2.2 模型结构28-29
- 2.2.3 特征提取29
- 2.2.4 模型训练阶段29-31
- 2.2.5 声音合成阶段31-32
- 2.3 歌声合成的特点32-34
- 2.3.1 歌声的时长与乐谱的关系32-33
- 2.3.2 歌声的基频与乐谱的关系33-34
- 2.4 时间模型34
- 2.5 基频稀疏问题34-36
- 2.5.1 伪基频训练34-35
- 2.5.2 实际基频与乐谱差值建模35-36
- 2.6 颤音建模36-37
- 2.7 歌声合成的评价方式37-38
- 2.8 本章小结38-41
- 第三章 歌声库的建立41-53
- 3.1 歌声库设计与录制41-46
- 3.1.1 曲目选择41-42
- 3.1.2 乐谱文件格式42-46
- 3.1.3 歌声库信息总览46
- 3.2 乐谱分析46-50
- 3.3 基线系统搭建50-51
- 3.4 本章小结51-53
- 第四章 歌声基频生成方法53-73
- 4.1 本章概述53-54
- 4.2 基于乐谱基频引导的基频生成方法54-59
- 4.2.1 调名归一化54-55
- 4.2.2 乐谱基频引导55
- 4.2.3 实验结果55-59
- 4.3 联合音节和状态层次模型的基频生成59-70
- 4.3.1 存在的问题59-60
- 4.3.2 系统框架60
- 4.3.3 DF0模型60-62
- 4.3.4 音节层模型62-63
- 4.3.5 联合两个层次的基频生成63-65
- 4.3.6 实验65-70
- 4.4 本章小结70-73
- 第五章 有表现力的歌声及语音合成73-93
- 5.1 有表现力的歌声合成73-81
- 5.1.1 相关工作73-74
- 5.1.2 基频分解74
- 5.1.3 特征参数74-76
- 5.1.4 建模76-77
- 5.1.5 单元挑选及拼接77-78
- 5.1.6 实验78-79
- 5.1.7 小结79-81
- 5.2 具备情感表达能力的语音转换81-93
- 5.2.1 引言81-82
- 5.2.2 韵律转换框架82-83
- 5.2.3 基频参数化83-85
- 5.2.4 基频转换85-87
- 5.2.5 时长转换87-88
- 5.2.6 实验设计与结果88-92
- 5.2.7 小结92-93
- 第六章 歌者转换93-105
- 6.1 概述93
- 6.2 基于GMM的音质转换93-95
- 6.3 GMM-AR95-98
- 6.3.1 模型细节95-96
- 6.3.2 模型参数估计96-97
- 6.3.3 最大似然转换方法97-98
- 6.4 实验98-100
- 6.4.1 实验条件98
- 6.4.2 客观准则98-99
- 6.4.3 实验结果99-100
- 6.5 改进模型100-101
- 6.6 实验101-102
- 6.7 小结102-105
- 第七章 总结与展望105-109
- 参考文献109-117
- 致谢117-119
- 在读期间发表的学术论文119
【相似文献】
中国期刊全文数据库 前10条
1 夏新华,潘志庚;基于统计模型的海水运动仿真[J];计算机仿真;2005年01期
2 赵培东;谢剑英;;图像小波域局部统计模型的拟合优度检验[J];应用概率统计;2008年06期
3 朱青;;Mathematica软件在工业统计模型中的应用研究[J];电子技术;2012年06期
4 曾建军;统计模型的计算机模拟教学系统[J];安徽大学学报(自然科学版);1997年02期
5 董军;徐淼;潘云鹤;;基于统计模型的书法创作模拟[J];计算机学报;2008年07期
6 骆桢轩;;组合统计模型在程序错误定位中的应用[J];计算机工程与设计;2010年19期
7 朱忠林;丁辉;王广志;;利用可变形统计模型进行膝关节建模与运动测量[J];清华大学学报(自然科学版);2013年01期
8 彭嘉雄;张天序;;随机离散图象的统计模型研究[J];自动化学报;1984年01期
9 许小剑,黄培康;一种新的雷达目标散射截面统计模型[J];系统工程与电子技术;1990年02期
10 季玲玲;陈浩;张晔;;基于统计模型预测截断的码率控制算法[J];计算机工程;2008年18期
中国重要会议论文全文数据库 前10条
1 阳德青;肖仰华;汪卫;;基于统计模型的社会网络群体关注度的分析与预测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 蒋丹宁;秦勇;刘文;刘义;;基于统计模型的哼唱旋律识别算法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
3 陈永胜;刘小明;任福田;张黔芳;;道路安全设计支持平台之统计模型的研究[A];第七次城市道路与交通工程学术会议论文集[C];2002年
4 严力蛟;全为民;赵晓慧;;千岛湖浮游植物统计模型及其预测[A];浙江省第二届生物多样性保护与可持续发展研讨会论文摘要集[C];2004年
5 刘晶晶;卫水爱;孙俊君;胡海云;邢修三;;生物材料的非平衡统计模型[A];中国力学学会学术大会'2005论文摘要集(上)[C];2005年
6 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 彭T3忠谋;;训练用汉语语音资料之音素标示[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 信飞;孙国武;陈伯民;;自回归统计模型在延伸期预报中的应用[A];第六届长三角气象科技论坛论文集[C];2009年
9 胡振涛;刘先省;;机动目标跟踪的一种改进多传感器数据融合算法[A];第二十四届中国控制会议论文集(下册)[C];2005年
10 张本爱;莫俊永;张玉兰;刘海燕;;任意自旋粒子的一种改进光学统计模型[A];第八届全国核物理会议文摘集(上册)[C];1991年
中国重要报纸全文数据库 前5条
1 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
2 李传金;设计新的统计模型[N];经济视点报;2006年
3 沈
本文编号:377446
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/377446.html