基于发音动作特征的中文语音合成系统研究与实现
发布时间:2021-02-17 04:19
语音合成技术也叫文语转换技术,能够将文字转换成语音的形式输出,是人机交互中必不可少的一部分。在当今的智能音箱、智能家居、车载导航等许多人工智能应用场景中都离不开语音合成技术。基于语料库的波形拼接语音合成方法目前已有较高的可懂度和自然度,但在进一步提高听感质量上仍有待加强,尤其是基元的拼接产生的声音突变现象需要进一步改善,造成声音突变的主要原因是传统的语音合成系统不能使前后基元之间具有足够的协同发音的音联性。因为协同发音是源自于人体发声器官的自然连续运动,所以本文从发音动作的角度进行波形拼接语音合成,所做的工作如下:首先,为了使语料库的基元能充分地涵盖汉语不同协同发音情况下的声音变体,本文基于对汉语协同发音类型的总结,设计并建立了满足变体覆盖率的语料库,并基于研究的协同发音标注方法,使用电磁发音仪(Electro magnetic articulography,EMA)数据对语料库中每一个基元进行发音动作的标注。高质量的语料库也是语音合成的基础。然后,为了得到输入文本对应的体现协同发音特征的发音动作参数,本文构建了隐马尔科夫模型(Hide Markov Model,HMM),使模型输出的...
【文章来源】:重庆邮电大学重庆市
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
发音器官构造图
(a) 提高基频 (b) 降低基频图 2.2 基频修改示意图当标记点之间的距离变小,则基音周期变小,频率加快,音调变高。调节标记之间的距离主要是通过基频修改音子 β ,当 β 1时基频增大,当 β 1时基频减小,如图 2.2 所示。(2) 对音长的修改原始轴合成轴(a) 音长延长的映射原始轴
重庆邮电大学硕士学位论文 第 3 章 汉语协同发音语料库的建立的 EMA 语料库,包含了 1380 句话,每句话的内容不仅包括.wav 格式的音频文件、文本文件,还有与之对应的发音动作 EMA 参数文件,并且经过规整处理。有了音频来源后,要进行基元的截取。由于本文选取声韵母作为语料库的基本单位,因此要将原始的语句切割成声韵母,另外基元切分的准确性也会影响语音合成的质量,因此声韵母的截取是一个十分耗时且需要耐心细致的工作。截取应该保留其音联过渡段,以充分体现基元的协同发音现象。例如切割“海明威”中的“明”,从图 3.3 可以看出,由于受到其他声韵母的影响,“m”切割出来之后包含了一部分后面韵母段,而“ing”包含了一部分后面的声母段。音频的截取使用Praat,通过 Praat 中波形与所截单元的对齐,可以提高截取的精确度。
【参考文献】:
期刊论文
[1]语言发音模型研究综述[J]. 张金光. 计算机工程与应用. 2018(12)
[2]大规模英汉平行语料库的检索与应用:大数据视角[J]. 王克非,刘鼎甲. 外语电化教学. 2017(06)
[3]维吾尔语韵律建模[J]. 古力米热·依玛木,姑丽加玛丽·麦麦提艾力,玛依努尔·阿吾力提甫,艾斯卡尔·艾木都拉. 清华大学学报(自然科学版). 2017(12)
[4]Adobe Audition在声波和拍实验中的仿真与优化[J]. 张雪华,戚辉,郭春轶,郭鹏,李梦. 中原工学院学报. 2017(03)
[5]播音学习札记——播音播得板、僵[J]. 张焕秋. 语文世界(中学生之窗). 2016(12)
[6]基于深度神经网络的语音驱动发音器官的运动合成[J]. 唐郅,侯进. 自动化学报. 2016(06)
[7]语音同一性鉴定中口音韵母、鼻化韵母、鼻韵母的语图判别法探究[J]. 王晓婷,杨俊杰. 中国司法鉴定. 2016(02)
[8]语音合成方法和发展综述[J]. 张斌,全昌勤,任福继. 小型微型计算机系统. 2016(01)
[9]协同发音与同化的概念分析(英文)[J]. 刘妲. 语文学刊(外语教育教学). 2015(10)
[10]藏语语音合成单元选择[J]. 才让卓玛,李永明,才智杰. 软件学报. 2015(06)
硕士论文
[1]基于HMM的单元挑选语音合成方法研究[D]. 何鑫.西安工业大学 2017
[2]基于声韵母的嵌入式语音合成[D]. 李冰洁.北京交通大学 2016
[3]中文话费文语转换系统的研究与实现[D]. 景娟.中南大学 2011
[4]基于EPG的汉语普通话辅音的发音研究[D]. 李俭.浙江大学 2004
本文编号:3037423
【文章来源】:重庆邮电大学重庆市
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
发音器官构造图
(a) 提高基频 (b) 降低基频图 2.2 基频修改示意图当标记点之间的距离变小,则基音周期变小,频率加快,音调变高。调节标记之间的距离主要是通过基频修改音子 β ,当 β 1时基频增大,当 β 1时基频减小,如图 2.2 所示。(2) 对音长的修改原始轴合成轴(a) 音长延长的映射原始轴
重庆邮电大学硕士学位论文 第 3 章 汉语协同发音语料库的建立的 EMA 语料库,包含了 1380 句话,每句话的内容不仅包括.wav 格式的音频文件、文本文件,还有与之对应的发音动作 EMA 参数文件,并且经过规整处理。有了音频来源后,要进行基元的截取。由于本文选取声韵母作为语料库的基本单位,因此要将原始的语句切割成声韵母,另外基元切分的准确性也会影响语音合成的质量,因此声韵母的截取是一个十分耗时且需要耐心细致的工作。截取应该保留其音联过渡段,以充分体现基元的协同发音现象。例如切割“海明威”中的“明”,从图 3.3 可以看出,由于受到其他声韵母的影响,“m”切割出来之后包含了一部分后面韵母段,而“ing”包含了一部分后面的声母段。音频的截取使用Praat,通过 Praat 中波形与所截单元的对齐,可以提高截取的精确度。
【参考文献】:
期刊论文
[1]语言发音模型研究综述[J]. 张金光. 计算机工程与应用. 2018(12)
[2]大规模英汉平行语料库的检索与应用:大数据视角[J]. 王克非,刘鼎甲. 外语电化教学. 2017(06)
[3]维吾尔语韵律建模[J]. 古力米热·依玛木,姑丽加玛丽·麦麦提艾力,玛依努尔·阿吾力提甫,艾斯卡尔·艾木都拉. 清华大学学报(自然科学版). 2017(12)
[4]Adobe Audition在声波和拍实验中的仿真与优化[J]. 张雪华,戚辉,郭春轶,郭鹏,李梦. 中原工学院学报. 2017(03)
[5]播音学习札记——播音播得板、僵[J]. 张焕秋. 语文世界(中学生之窗). 2016(12)
[6]基于深度神经网络的语音驱动发音器官的运动合成[J]. 唐郅,侯进. 自动化学报. 2016(06)
[7]语音同一性鉴定中口音韵母、鼻化韵母、鼻韵母的语图判别法探究[J]. 王晓婷,杨俊杰. 中国司法鉴定. 2016(02)
[8]语音合成方法和发展综述[J]. 张斌,全昌勤,任福继. 小型微型计算机系统. 2016(01)
[9]协同发音与同化的概念分析(英文)[J]. 刘妲. 语文学刊(外语教育教学). 2015(10)
[10]藏语语音合成单元选择[J]. 才让卓玛,李永明,才智杰. 软件学报. 2015(06)
硕士论文
[1]基于HMM的单元挑选语音合成方法研究[D]. 何鑫.西安工业大学 2017
[2]基于声韵母的嵌入式语音合成[D]. 李冰洁.北京交通大学 2016
[3]中文话费文语转换系统的研究与实现[D]. 景娟.中南大学 2011
[4]基于EPG的汉语普通话辅音的发音研究[D]. 李俭.浙江大学 2004
本文编号:3037423
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3037423.html