当前位置:主页 > 文艺论文 > 汉语言论文 >

端到端闽南语合成系统的设计与实现

发布时间:2021-08-28 04:54
  为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案. 

【文章来源】:厦门大学学报(自然科学版). 2020,59(06)北大核心CSCD

【文章页数】:7 页

【部分图文】:

端到端闽南语合成系统的设计与实现


融合框架结构

注意力,机制,位置,解码器


解码器采用Tacotron2中加入了位置信息的位置敏感注意力机制的解码器(图2).位置敏感注意力机制对基于内容的注意力机制进行了扩展,能量计算公式为[12]:其中:si为第i时刻解码器循环神经网络(RNN)的隐状态;hj为第j个编码器输出;b为偏置值,初始为0;va、W、V、U表示不同网络层的权重矩阵;fij为位置特征,由i时刻前的所有时刻的注意力权重αj累加并求卷积后得到,即

框架图,框架,音素,文本特征


框架对比实验分别采用Tacotron框架、融合框架和Tacotron2框架.采用字符嵌入的建模方式时,Tacotron框架没有很好地学习到编码解码对齐信息和生成有效的梅尔谱;融合框架和Tacotron2框架对应的编码解码对齐图和梅尔谱如图3所示.同样使用字符嵌入时,从编码解码对齐图的曲线连贯性上可以看出Tacotron2框架在连续性和稳定性上优于融合框架,曲线的像素点也表明对齐准确率优于融合框架;从梅尔谱中可以看出Tacotron2框架合成的语音在能量强度上明显优于融合框架.由此可看出Tacotron框架之所以效果不佳是因为使用的基于内容的注意力机制鲁棒性不佳,不能很好地处理部分训练数据标注存在不准确的问题,所以没有很好地学习到编码解码对齐信息;Tacotron2框架之所以比Tacotron框架效果更佳,也不仅仅是对注意力机制进行了升级和加入了停止令牌模块,它在编码器和解码器的结构上进行的调整也给模型带来了更佳的学习和表达能力.嵌入方式的对比实验中,在Tacotron2框架下采用不同的嵌入方式进行建模,实验结果如图4所示.可以看出:使用音素嵌入方式在发音稳定性和连续性上不如字符嵌入,但其曲线的像素点表明其对齐准确率要优于字符嵌入;而不同嵌入方式生成的梅尔谱在能量强度方面相差不大.出现这种现象的原因主要是因为端到端的语音合成是不等长的序列到序列的建模过程,而文本特征相比声学特征在序列长度上相差更大,增大文本特征序列有助于模型更好地学习到对齐信息.以字符嵌入方式建模,可以扩大文本特征序列,并且根据音素组成和发音时长动态地提取不同长度的文本特征序列;音素嵌入方式则是一种静态的文本特征提取方式,序列长度不会随着音素组成和发音时长而发生改变.因为音素嵌入对音素发音时长信息的表征不如字符嵌入鲁棒,所以在发音的稳定性和连续性上音素嵌入不如字符嵌入.但是由于音素嵌入对音素整体性的表征更佳,故在对齐准确率上稍优于字符嵌入.


本文编号:3367836

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3367836.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1bdff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com