面向语音合成的马来语文本分析
发布时间:2021-05-11 20:13
近年来随着人工智能的飞速发展,语音合成技术也日趋成熟。语音合成技术应用在我们生活的方方面面,如朗读软件、语音播报等领域。现阶段,语音合成的主要实现方式为文语转换,即通过计算机实现从文本到语音的转换。但语音合成的研究主要集中在比较通用的语言上,而对马来语的研究相对较少。本文以开发马来语语音合成系统为目的,研究并实现了马来语前端文本分析中的语料库的构建、文本归一化和音节的自动划分。本论文的主要工作包括:(1)马来语语料库的构建。借助现有软件从马来语网站和电子书上下载马来语的文本,并去除文本中的非法字符和重复语料,作为本文研究的马来语文本语料库。基于该文本语料库,采用句型、高频词和句子长度相结合的原则选取用于录音的发音语料。最后用优劣评判的标准来验证发音语料库的合理性和代表性。(2)马来语文本中数字字符的归一化。研究了马来语文本中常出现的特殊字符及其歧义类型。设计了马来语的归一化方案和算法流程。采用正则表达和关键字相结合的方法,对句子中的数字及与数字连用的特殊字符进行文本归一化处理。实验结果表明,本次实验的马来语归一化正确率达95.13%。(3)马来语音节的自动划分。学习和研究了现有的马来语...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 引言
1.2 马来语简介
1.3 语音合成概述
1.4 论文研究思路及作者的工作
1.5 论文的组织结构
第二章 马来语语料库的构建
2.1 原始语料的获取
2.2 文本语料的整理
2.3 发音语料库的构建
2.4 语音语料库的录制
2.5 本章小结
第三章 马来语文本归一化
3.1 文本归一化简介
3.2 数字字符的识别
3.3 数字字符歧义判断
3.3.1 数字歧义判断
3.3.2 字符歧义判断
3.4 数字字符消歧处理
3.4.1 数字消歧
3.4.2 字符消歧
3.5 数字字符转化为标准词
3.5.1 数字转化为标准词
3.5.2 字符转化为标准词
3.6 本章小结
第四章 马来语音节的自动划分
4.1 马来语音节结构
4.2 基于音节列表的音节化方案
4.3 音节化方案的改进
4.4 本章小结
第五章 实验结果与分析
5.1 实验平台
5.2 实验结果与分析
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
参加的项目和发表的论文
致谢
【参考文献】:
期刊论文
[1]人工智能识别技术及其应用[J]. 熊晓倩. 信息通信. 2018(01)
[2]智能语音产品现状及展望[J]. 甘玉珏,苏军根,林健,洪博宇,鲁维. 广东通信技术. 2017(12)
[3]“欧盟口译语料库”项目分析与启示[J]. 邓军涛,古煜奎. 现代教育技术. 2017(12)
[4]浅析人工智能技术及其在智能机器人领域的应用[J]. 李柏阳. 数字通信世界. 2017(12)
[5]人工智能+ 共创美好新世界——访科大讯飞副总裁赵志伟[J]. 黄晓艳. 高科技与产业化. 2017(08)
[6]基于双语句对覆盖度的维汉机器翻译语料选取技术[J]. 朱少林,杨雅婷,米成刚,李晓,王磊. 中国科学技术大学学报. 2017(04)
[7]标识语汉英双语平行语料库的设计与创建[J]. 李广伟,戈玲玲. 南华大学学报(社会科学版). 2015(01)
[8]基于HMM的中英文语音合成技术研究[J]. 纪正飚,王吉林,赵力. 科学技术与工程. 2014(32)
[9]英语语音合成系统超前端文本分析知识库的构建[J]. 马立东. 电脑与信息技术. 2013(05)
[10]可训练语音合成在越南语合成中的应用[J]. 奎丽萍,杨鉴,胡恩星,何彬. 计算机工程与应用. 2012(35)
硕士论文
[1]基于HMM的可训练傣语语音合成系统[D]. 陈志琼.云南大学 2016
[2]面向文语转换的傣语文本归一化和罗马化[D]. 胡湘兴.云南大学 2015
本文编号:3182036
【文章来源】:云南大学云南省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 引言
1.2 马来语简介
1.3 语音合成概述
1.4 论文研究思路及作者的工作
1.5 论文的组织结构
第二章 马来语语料库的构建
2.1 原始语料的获取
2.2 文本语料的整理
2.3 发音语料库的构建
2.4 语音语料库的录制
2.5 本章小结
第三章 马来语文本归一化
3.1 文本归一化简介
3.2 数字字符的识别
3.3 数字字符歧义判断
3.3.1 数字歧义判断
3.3.2 字符歧义判断
3.4 数字字符消歧处理
3.4.1 数字消歧
3.4.2 字符消歧
3.5 数字字符转化为标准词
3.5.1 数字转化为标准词
3.5.2 字符转化为标准词
3.6 本章小结
第四章 马来语音节的自动划分
4.1 马来语音节结构
4.2 基于音节列表的音节化方案
4.3 音节化方案的改进
4.4 本章小结
第五章 实验结果与分析
5.1 实验平台
5.2 实验结果与分析
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
参加的项目和发表的论文
致谢
【参考文献】:
期刊论文
[1]人工智能识别技术及其应用[J]. 熊晓倩. 信息通信. 2018(01)
[2]智能语音产品现状及展望[J]. 甘玉珏,苏军根,林健,洪博宇,鲁维. 广东通信技术. 2017(12)
[3]“欧盟口译语料库”项目分析与启示[J]. 邓军涛,古煜奎. 现代教育技术. 2017(12)
[4]浅析人工智能技术及其在智能机器人领域的应用[J]. 李柏阳. 数字通信世界. 2017(12)
[5]人工智能+ 共创美好新世界——访科大讯飞副总裁赵志伟[J]. 黄晓艳. 高科技与产业化. 2017(08)
[6]基于双语句对覆盖度的维汉机器翻译语料选取技术[J]. 朱少林,杨雅婷,米成刚,李晓,王磊. 中国科学技术大学学报. 2017(04)
[7]标识语汉英双语平行语料库的设计与创建[J]. 李广伟,戈玲玲. 南华大学学报(社会科学版). 2015(01)
[8]基于HMM的中英文语音合成技术研究[J]. 纪正飚,王吉林,赵力. 科学技术与工程. 2014(32)
[9]英语语音合成系统超前端文本分析知识库的构建[J]. 马立东. 电脑与信息技术. 2013(05)
[10]可训练语音合成在越南语合成中的应用[J]. 奎丽萍,杨鉴,胡恩星,何彬. 计算机工程与应用. 2012(35)
硕士论文
[1]基于HMM的可训练傣语语音合成系统[D]. 陈志琼.云南大学 2016
[2]面向文语转换的傣语文本归一化和罗马化[D]. 胡湘兴.云南大学 2015
本文编号:3182036
本文链接:https://www.wllwen.com/kejilunwen/wltx/3182036.html