基于声韵母的嵌入式语音合成
本文关键词:基于声韵母的嵌入式语音合成,由笔耕文化传播整理发布。
【摘要】:随着人工智能的发展,嵌入式语音合成成为最自然的人机交互方式,拥有广泛的应用前景。目前,由于大规模的语音合成对运算速度和存储容量的要求较高,嵌入式设备在进行语音合成时,一部分采用网络和云计算的方式,在离线状态下不能使用,还有一部分自带一个语音芯片,在离线状态下可以进行一些简单的语音合成,但使用环境比较受限。此外,由于构建大规模语料库的工作量较为庞大,导致定制个性化语料库成为了一个难题。鉴于大规模语料库进行语音合成时所带来的种种问题,本文舍弃了大规模语料库的主流思想,采用声韵母作为合成基元,对连续语音段内声韵母进行分割和筛选,最后语料库中只保留适量的声韵母样本。这样的处理方式在存储空间、匹配调用以及定制个性化语料库上都有很大的优势。本文基于声韵母的语音合成主要完成了以下三方面的工作:(1)连续语音段内声韵母的分割:提出一种基于损失函数和听觉谱边界特征参数的连续语音段内声韵母分割的方法。首先建立自相关函数和代价损失函数,采用动态规划方法进行浊音的检测,然后根据统计规律,在声母段时长范围内检测听觉谱边界特征参数参数的特征突变点,进行声韵母分割。仿真实验结果表明,该分割方法减小了由于声母发音方式、音变和噪声对分割结果的影响,提高了声韵母分割的准确性。(2)建立声韵母语料库:设计语料库中需要包含的声母和韵母的样本模型。首先针对不同声韵母组合的协同发音规律,将声韵母进行分类,依此对语料库中需要包含的内容进行设计。然后从连续语音段中提取这些声韵母基元,进行人工校对和修正。最后统一编辑命名,完成声韵母语料库的建立。(3)基于声韵母的语音合成:改进了时域基音同步叠加(Time Domain Pitch Synchronous Overlap Add, TD-PSOLA)的语音合成方法,使其适用在基于声韵母的语音合成中。首先引入合成的韵律修改参数,然后建立了字和词的韵律模型,最后针对复杂的发音情况设计了一套韵律符号。仿真实验结果表明,该方法具有较高的准确度和自然度。
【关键词】:语音合成 TD-PSOLA 词韵律模型 声韵母分割 语料库建立
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.33
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-16
- 1.1 本文的研究背景11-12
- 1.2 国内外研究现状12-13
- 1.3 本文的研究内容13-14
- 1.4 本文的研究意义14
- 1.5 本文的组织结构14-16
- 2 连续语音段内声韵母的分割16-30
- 2.1 声韵母的频谱分析16-17
- 2.2 声母的检测范围17-19
- 2.3 声韵母分割的总体流程19-20
- 2.4 引入损失函数的浊音段检测20-21
- 2.5 基于听觉谱边界特征参数的声韵母分割21-25
- 2.5.1 听觉感知模型21-24
- 2.5.2 声韵母边界特征参数的选取24
- 2.5.3 特征参数突变点的确定24-25
- 2.6 实验结果及分析25-29
- 2.6.1 各方法分割结果的对比25-27
- 2.6.2 噪声的影响27-28
- 2.6.3 分割结果的修正28-29
- 2.7 小结29-30
- 3 声韵母语料库的建立30-36
- 3.1 语料库内容的设计30-32
- 3.2 语音单元的后期处理32-35
- 3.3 小结35-36
- 4 基于声韵母的语音合成36-59
- 4.1 语音合成算法的研究36-43
- 4.1.1 共振峰合成法(Formant Synthesis)36-38
- 4.1.2 线性预测参数合成法(Linear Predictive Coding Synthesis)38-40
- 4.1.3 隐马尔可夫模型合成法(HMM Synthesis)40-42
- 4.1.4 基音同步波形叠加法(Pitch Synchronous Over Lap Add)42-43
- 4.2 基于TD-PSOLA算法的声韵母语音合成43-47
- 4.2.1 基音同步分析和标注44
- 4.2.2 基音同步修改44-45
- 4.2.3 基音同步叠加45
- 4.2.4 韵律参数修改45-47
- 4.3 词韵律模型的设计47-52
- 4.3.1 音高模型47-49
- 4.3.2 音长模型49-50
- 4.3.3 韵律符号模型50-52
- 4.4 实验结果及分析52-58
- 4.4.1 波形分析和谱分析52-57
- 4.4.2 主观印象测试(Mean Opinion Score)57-58
- 4.5 小结58-59
- 5 总结与展望59-61
- 5.1 工作总结59-60
- 5.2 工作展望60-61
- 参考文献61-64
- 作者简历及攻读硕士学位期间取得的研究成果64-66
- 学位论文数据集66
【相似文献】
中国期刊全文数据库 前10条
1 周海涛;;语音合成中多音字识别的实现[J];科技资讯;2008年11期
2 彭腾;孙萍;;基于C#语音合成的实现[J];电脑编程技巧与维护;2010年12期
3 张世平;;会说四种话的语音合成卡——声威一号[J];今日电子;1993年01期
4 赵建洋;;一种高效语音合成方法[J];电子技术;1993年08期
5 马义德,,张新国,罗长印;语音合成电路在我国的应用前景[J];电子技术;1994年12期
6 郝杰;语音合成:引领“耳朵经济”[J];中国电子商务;2001年Z2期
7 罗三定,贾建华,沙莎;基于波形音频段处理的中文语音合成研究[J];电脑与信息技术;2002年01期
8 ;国内语音合成领域专利技术发展趋势[J];电子知识产权;2003年10期
9 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期
10 王永生;柴佩琪;曾令平;;英语语音合成中基于约束树的音节切分算法[J];微型电脑应用;2005年11期
中国重要会议论文全文数据库 前10条
1 杨静;孙金城;;关于录制语音合成数据库的几个问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
2 徐俊;蔡莲红;吴志勇;;多语种语音合成平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 陈益强;高文;王兆其;杨长水;姜大龙;;多模式语音合成[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 陶建华;董宏辉;许晓颖;;情感语音合成的关键技术分析[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
5 刘东华;冯静;力梅;;深圳市新一代“12121”语音合成业务系统[A];中国气象学会2007年年会气象软科学论坛分会场论文集[C];2007年
6 黄小明;熊子瑜;;基于古音系统的汉语方言语音合成研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
7 邹煜;何伟;侯敏;滕永林;朱维彬;;面向语音合成的新闻播报语音库构建及其特殊韵律结构[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 贺琳;张蕊;俞舸;;大规模语音合成语料库的录制及常见问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 吴志勇;蔡莲红;蒙美玲;;可视语音合成中基于音视频关联模型的视位参数优化[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 桂运安;中科大11项语音合成指标世界第一[N];安徽日报;2014年
2 本报记者 何进伟;语音合成露峥嵘[N];网络世界;2001年
3 李羚;多语种语音合成助力数字奥运[N];中国计算机报;2003年
4 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年
5 ;嵌入式语音合成平台[N];计算机世界;2002年
6 孙晓闻;语音合成 让机器“像人一样说话”[N];中国劳动保障报;2005年
7 ;新型语音合成软件面世[N];人民邮电;2008年
8 炎黄新星公司供稿;炎黄之声SinoSonic[N];计算机世界;2002年
9 刘权;语音合成融入证券客服[N];中国计算机报;2003年
10 ;语音产品走向开放式架构[N];中国计算机报;2004年
中国博士学位论文全文数据库 前9条
1 高裴裴;人眼驱动语音合成的若干关键技术研究[D];南开大学;2012年
2 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
3 苏庄銮;情感语音合成[D];中国科学技术大学;2006年
4 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年
5 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年
6 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年
7 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年
8 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年
9 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年
中国硕士学位论文全文数据库 前10条
1 王泽勋;多层次韵律和短时谱同步变换的情感语音合成[D];苏州大学;2015年
2 熊林云;基于ARM Cortex-M3的语音合成软件系统设计与实现[D];电子科技大学;2014年
3 章琴;基于HMM的中文情感语音合成的研究[D];合肥工业大学;2014年
4 李冰洁;基于声韵母的嵌入式语音合成[D];北京交通大学;2016年
5 聂军;基于HMM可训练的汉语语音合成系统[D];吉林大学;2010年
6 曾一鸣;情感语音合成的研究和系统实现[D];上海交通大学;2010年
7 刘航;基于隐马尔可夫模型的跨语种语音合成方法研究[D];中国科学技术大学;2011年
8 张桂香;个性化语音合成的研究与实现[D];哈尔滨工程大学;2007年
9 胡琼;基于隐马尔科夫模型的天津方言语音合成[D];上海交通大学;2011年
10 刘博;藏语拉萨方言的统计参数语音合成的研究[D];西北师范大学;2012年
本文关键词:基于声韵母的嵌入式语音合成,由笔耕文化传播整理发布。
本文编号:276387
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/276387.html