当前位置:主页 > 科技论文 > 信息工程论文 >

面向语音合成的印尼语文本分析与处理

发布时间:2020-10-11 13:09
   让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向。语音合成在导航、通信等领域都有广泛运用。目前,文语转换依旧是语音合成的主要方法,即运用计算机实现从给定文本到相应语音的转换。目前,对语音合成的研究较集中于英语、汉语等语言中,对于印尼语的研究相对较少。印尼语属马来-波利尼西亚语系西印度尼西亚语支,是一种由拉丁字母构成的、有明显词边界的语言。本文主要针对印尼语语音合成系统,研究并实现印尼语前端文本分析中的语音语料库构建、文本归一化、音节化以及音子的划分。本文的主要工作包括:(1)印尼语发音语料库的构建。从印尼语网站中收集了印尼语文本,对文本进行去重和去非法字符处理,并将其用作构建印尼语发音语料库的初始文本语料库。在该语料库的基础上,综合考虑句子长度和高频词挑选得到印尼语的发音语料库,并用客观的评价标准对其进行评价。(2)印尼语文本中非标准“词”的归一化。研究了常出现在印尼语文本中的非标准“词”及其歧义种类,并提出印尼语文本非标准“词”的归一化方法和实现流程。用正则表达式与关键词相结合的方法对文本中的数字串、与数字连用的特殊字符的进行归一化处理,用字符匹配的方法对文本中的缩写词进行归一化处理。对实验结果统计得到文本归一化正确率达96.2%。(3)面向语音合成的印尼语的音节化。研究了印尼语的音节构成,在此基础上提出适用于语音合成的印尼语音节化方案,并对其进行实现。采用基于音节列表的逆向最大匹配的方法,并在此基础上添加零声母规则实现音节划分。经统计得该次实验集内测试的正确率为98.2%,集外测试的正确率为97.1%。(4)印尼语音子的划分。针对印尼语语音合成,提出并实现了基于印尼语特性的音子划分方案。采用基于声韵母结构的方法和音素的结构的方法分别确定了音子列表,并运用字典匹配的方法实现印尼语语音语料库文本的音子划分,得到韵律文本。
【学位单位】:云南大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.33;TP391.1
【部分图文】:

过程图,语料库,过程


由于句子的长度会影响录音人话音质量进而影响合成的语音质量,故统计了??文本语料库中的句子长度,即统计每个句子中所含的单词的个数,其句长的分布??如图2-2所示。该直方图直观地给出了文本语料库中不同长度句子的分布情况,且??为发音语料库的选取提供了可行性依据,并作为评判发音语料库质量的标准之一。??10??

句子长度,语料库,文本,分布直方图


??图2-1:语料库挑选过程??本次实验构建的发音语料库由4400个陈述句,200个感叹句,400个疑问句,??共计5000个句子组成,其中疑问句包括一般疑问句和特殊疑问句各200句。??由于句子的长度会影响录音人话音质量进而影响合成的语音质量,故统计了??文本语料库中的句子长度,即统计每个句子中所含的单词的个数,其句长的分布??如图2-2所示。该直方图直观地给出了文本语料库中不同长度句子的分布情况,且??为发音语料库的选取提供了可行性依据,并作为评判发音语料库质量的标准之一。??10??

曲线,词汇,覆盖率,出现次数


pada?1455413??根据所创建的高频词词典及文本语料库所含有的总词数,可以得到词汇的覆??盖率曲线如图2-3所示。该图的绘制思想为:从词频数最高的词为起始,累加计算??每个词的出现次数占文本词汇总出现次数的比值,将比值作为绘图点进行连接。??12??
【参考文献】

相关期刊论文 前10条

1 李广伟;戈玲玲;;标识语汉英双语平行语料库的设计与创建[J];南华大学学报(社会科学版);2015年01期

2 刘豫军;夏聪;;计算机语音合成技术研究及发展方向[J];网络安全技术与应用;2014年12期

3 纪正飚;王吉林;赵力;;基于HMM的中英文语音合成技术研究[J];科学技术与工程;2014年32期

4 于延锁;朱风云;李先刚;刘翼;吴玺宏;;面向大语料库的语音合成方法研究[J];北京大学学报(自然科学版);2014年05期

5 马立东;;英语语音合成系统超前端文本分析知识库的构建[J];电脑与信息技术;2013年05期

6 高璐;陈琪;李永宏;于洪志;;藏语语音合成中文本分析的若干问题研究[J];西北民族大学学报(自然科学版);2010年02期

7 赵晖;林成龙;唐朝京;;基于视频三音子的汉语双模态语料库的建立[J];中文信息学报;2009年05期

8 贾玉祥;黄德智;刘武;俞士汶;;中文语音合成中的文本正则化研究[J];中文信息学报;2008年05期

9 陈静;李薇;崔忠伟;刘霞;;语音合成技术的研究及其发展[J];中国科技信息;2007年14期

10 吴义坚;王仁华;;基于HMM的可训练中文语音合成[J];中文信息学报;2006年04期


相关博士学位论文 前2条

1 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年

2 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年


相关硕士学位论文 前4条

1 王昱;傣语中的汉语借词发音规则及其语音合成方法研究[D];云南大学;2016年

2 侯亭武;基于语料库的中文语音合成技术研究[D];华中科技大学;2015年

3 叶林沿;基于依存关系树的复句句法特征自动选取[D];华中师范大学;2014年

4 梁怡佳;印尼语与汉语语音对比研究[D];湖南师范大学;2014年



本文编号:2836634

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2836634.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4fe60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com