当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的彝语语音合成的研究

发布时间:2024-05-20 03:16
  人工智能发展态势迅猛,深度学习应用前景广阔。目前的语音合成(Speech Synthesis)发展更加成熟,在合成高质量、高可懂度以及高自然度语音的基础上,不再拘泥于使用单一的参数化方法,而是更加倾向使用深度学习的方法。主流语言如汉语、英语等借助易获取庞大的数据资源等优势,利用神经网络甚至深度学习的方法,使得主流语言的合成语音更加自然,合成技术被应用至各个领域。但是少数民族语言、地方特色语言以及低资源语言的系统性的语音合成研究相对较少,用于少数民族语言语音合成的方法较为稀缺。彝族作为中国这个多民族国家的第六大少数民族,有着自己独特的人文政治和风俗文化,彝语具有重要的研究价值。本文以少数民族语言语音合成为研究目标,以彝语作为研究对象,对彝语语音合成用的文本分析进行了研究。在此基础上,利用深度神经网络(Deep Neural Network,DNN)以及端到端(End-to-end,E2E)的方法实现了彝语语音合成,并对E2E的方法提出了改进,有效地减少了合成高品质语音时所需要的语料数量。论文的主要工作和创新如下:1.设计并建立了一个彝语的语料库,收集、整理、建立了用于彝语文本分析的字音转...

【文章页数】:47 页

【学位级别】:硕士

【部分图文】:

图4.2基线E2E模型在使用实验数据A时的损失收敛图

图4.2基线E2E模型在使用实验数据A时的损失收敛图

第4章彝语语音合成的实验23为0.5,在进行到40k步时进行衰减。训练均进行100k步,训练过程中进行观察,每5k步进行一次验证集的验证,保证训练的模型不会有太大偏差。没训练好的模型在预测时,G&L算法的能量参数设置为1.2,而其迭代上限为60次。4.2.3实验评测本文对基于E2....


图4.4带有文本分析的E2E模型在使用实验数据A时的损失收敛图

图4.4带有文本分析的E2E模型在使用实验数据A时的损失收敛图

第4章彝语语音合成的实验24对于带有文本分析的E2E模型框架,由于加入了专家知识,网络结构多出一部分,参数训练相对变多。当实验数据仅为A时,在35k步左右才趋于平缓,也在70k步左右基本收敛,而使用全部数据时,收敛仍在35k不左右趋于平缓,而在70k步左右基本收敛。总得来说,当实....


图4.3基线E2E模型在使用实验数据A、B时的损失收敛图

图4.3基线E2E模型在使用实验数据A、B时的损失收敛图

第4章彝语语音合成的实验24对于带有文本分析的E2E模型框架,由于加入了专家知识,网络结构多出一部分,参数训练相对变多。当实验数据仅为A时,在35k步左右才趋于平缓,也在70k步左右基本收敛,而使用全部数据时,收敛仍在35k不左右趋于平缓,而在70k步左右基本收敛。总得来说,当实....


图4.5带有文本分析的E2E模型在使用实验数据A、B时的损失收敛图

图4.5带有文本分析的E2E模型在使用实验数据A、B时的损失收敛图

第4章彝语语音合成的实验25表4.4为针对两个实验在不同实验数据下,产生不同结果后计算所得的MCD,表中结果分为在验证集上的结果和在测试集中的结果。由表4.4可以看出实验语料数量的增多可以有效地降低MCD,即有效地提高合成语音和原始语音的相似度,同时还可以观察出带有文本分析的E2....



本文编号:3978876

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3978876.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户412e6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com