当前位置:主页 > 科技论文 > 软件论文 >

维吾尔语语音语料库管理平台的研究与实现

发布时间:2020-08-15 15:01
【摘要】:随着自然语言处理技术的发展,语音合成、语音识别、语音翻译、说话人识别也得到了快速的发展。而这些技术都离不开语音语料,它们都需要大规模、高质量的语音语料来进行训练和测试。要得到高质量的语料就需要对语料进行很好的管理,这就需要设计一个维吾尔语语音语料库管理平台。可以集录音、标注、管理为一体的语音语料平台,而且可以让研究维吾尔语相关技术的学者能够播放、查看、查询、统计相关的语音语料,以及对维吾尔语应用工具的下载。为解决维吾尔语语音语料库管理平台方面的设计空缺以及传统的应用软件C/S架构的问题,提出了一种基于在线的维吾尔语语音语料库管理平台。主要研究内容和成果如下:1、结合语音学、声学方面知识,对维吾尔语的音素、编码、音系结构、音节结构、韵律特征、协同发音做了研究。维吾尔语一共有32个音素,采用Unicode编码,得出了音系结构、音节结构、重音韵律、长度韵律、协同发音的规律。2、从发音人规范、数据采集规范、数据存储规范、语料筛选规范、语料标注规范、法律声明6个方面对语料库进行了规范。对发音文本进行了设计,包括文本的获取、文本归正、文种转换、语料筛选。对语音录制进行了设计,包括发音人的确定、语音采集。语音库的标注采用praat软件。其中对文本的获取采用了爬虫技术。3、通过Microsoft Visual Studio 2012开发工具、Asp.net web开发、C#语言、Microsoft SQL Server 2012数据库,以及GridView控件与SqlDataSource的数据绑定把语料显示在页面上、chart控件来显示统计对比分析图、config配置数据连接、audio控件来播放,这些技术来实现语音语料库管理平台的增加、删除、编辑、查询、播放、导出Excel表、查看、下载、上传、用户权限、统计分析等功能。该管理平台已应用到新疆多语种实验室。语音合成12000条语音语料,合成标注6000条。语音识别15000条语音语料,其中电话语音语料3000条、情感语音语料6000条、方言语音语料3000条、其它ASR语音语料3000条,识别标注3000条。4、共同实现了维吾尔语标注平台,主要功能有分配任务、单个上传任务、批量上传任务、留言管理、内容审核、维文和拉丁文转换、播放语音语料。主要技术采用JetBrains PhpStorm 10.0.1编辑器、XAMPP服务器软件、php语言、mysql数据库、CI框架。对密码进行了md5算法加密处理。该平台已应用到新疆多语种实验室,在线标注了18000条句子,其中60个人(30男30女),每人300条。5、共同实现了维吾尔语录音软件,主要功能有录音,音频文件查看、播放、重命名、删除、查询录音数量、查看帮助、任务下载。主要技术采用Eclipse开发软件、java语言、SQLite数据库、Android平台。该录音软件已应用到新疆多语种实验室,20个人(10男10女)都录音了陈述句105条,感叹句137条,问句100条。本文对维吾尔语语音语料库管理平台分别从功能、性能、页面、安全性进行了测试,其中在性能测试中使用了谷歌浏览器的开发者模式对访问平台的5个特征requests、transferred、Finish、DOMContentLoaded、Load进行了测试。与传统的C/S架构的语料库平台相比,此平台界面友好,功能齐全,语音语料的质量有了很大的提高。通过平台测试和运行结果表明,此平台效果更为显著。将收集到的语音识别语音语料在Kaldi上使用各种模型进行训练和测试,得到DNN模型的WER为8.24%,语音识别效果最好。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.52
【图文】:

对比图,维吾尔语,元音,音节


果) al:ma(不要拿)(长音在”:”的前面)。所以音位的长度不同意思就不同,长度影响到词语的韵律变化。而且,在说话时读音的长短不同,从另一方面来说是破坏韵律,所表达的意思有差异,而且可能完全听不懂。例如,shija: t(勇气)的长音在第二音节。如果第一个元音和第二个元音都念短音,那么就变成 shija: t,这些词是听不懂的词。2.3 协同发音研究协同发音在语音研究中,不仅是难点,而且也是重点。它是指在发音时一个音素对另一个音素的影响,单个音素不存在这种情况。在发音时,发音器官为了便于发音,不自觉的条件反射,做出一些变化,这种变化就包括两个音素可能都会和单音素发音不同。这种影响叫做协同发音(coarticulation)效应。如图 2-1所示,对于语音学来说,一般会在音子之间的共振峰的过度中显示。对于此语音单元的连接和分界,叫做“音联”。有 4 种音联,如下表 2-6 所示。

框架图,框架图


图 3-1 VS 界面图.NET FramworkNET Framwork 是一个开发平台,又称.NET,由微软公司开发,集做网站或者应用软件时需要选择版本,本开发用到的是.NET Fr。此版本支持 chart 图表插件。NET Framwork,又可以是框架,框架包含很多内容例如:言: VB, C++, C#, Ruby, Python ...库: 图像处理,网络通讯,安全,IO,数据链接访问 ...面技术:Asp.net(针对网站),Winform(针对桌面应用)层运行环境:内存管理,资源回收,异常处理 ...ET Framwork 框架图如图 3-2 所示。

界面图,界面图


图 3-1 VS 界面图3.3 .NET Framwork.NET Framwork 是一个开发平台,又称.NET,由微软公司开发,集成在 VS中,在做网站或者应用软件时需要选择版本,本开发用到的是.NET Framwork4.6.1。此版本支持 chart 图表插件。.NET Framwork,又可以是框架,框架包含很多内容例如:语言: VB, C++, C#, Ruby, Python ...类库: 图像处理,网络通讯,安全,IO,数据链接访问 ...界面技术:Asp.net(针对网站),Winform(针对桌面应用)底层运行环境:内存管理,资源回收,异常处理 ....NET Framwork 框架图如图 3-2 所示。

【参考文献】

相关期刊论文 前10条

1 赵薇;王楠;苏欣;张波云;;基于深度信念网络的Android恶意应用检测方法[J];计算机工程与应用;2018年18期

2 丁花阳;;基于ASP.NET的在线运动课程编排系统设计[J];现代电子技术;2018年06期

3 刘宇轩;;软件测试方法研究[J];科技风;2018年04期

4 努尔麦麦提·尤鲁瓦斯;刘俊华;吾守尔·斯拉木;热依曼·吐尔逊;达吾勒·阿布都哈依尔;;跨语言声学模型在维吾尔语语音识别中的应用[J];清华大学学报(自然科学版);2018年04期

5 童莹萍;;基于Codeigniter的面向对象程序设计网络教学平台设计与研究[J];工业控制计算机;2017年12期

6 高伟;范青;高文强;王利鹤;黄修梅;;基于PHP+MySQL的高校教师工作量管理系统的研究与实现[J];内蒙古农业大学学报(自然科学版);2017年05期

7 古力米热·依玛木;姑丽加玛丽·麦麦提艾力;玛依努尔·阿吾力提甫;艾斯卡尔·艾木都拉;;维吾尔语韵律建模[J];清华大学学报(自然科学版);2017年12期

8 艾山江·亚生;阿里甫·库尔班;;基于短语结构树的维吾尔语义角色标注的设计与实现[J];电脑知识与技术;2017年18期

9 帕丽旦·木合塔尔;热依曼·吐尔逊;吾守尔·斯拉木;买买提阿依甫;;维吾尔文本转换国际音标系统设计与实现[J];信息通信;2017年05期

10 杨龙;;Web服务器的IIS架构解析[J];电脑知识与技术;2017年14期

相关会议论文 前4条

1 郑雷雷;付义荣;郭锐;张建成;;B/S架构软件的安全性测试研究[A];大数据环境下安防系统安全等级保护研讨会论文集[C];2018年

2 热依曼·吐尔逊;艾力·海如拉;吾守尔·斯拉木;努尔麦麦提·尤鲁瓦斯;;维吾尔语方言口音资源库的建设及研究[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年

3 艾斯卡尔·肉孜;殷实;张之勇;王东;郑方;艾斯卡尔·艾木都拉;;THUYG-20:一个免费的维吾尔语语音数据库[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年

4 季民;;渗透测试在网站安全维护中的实践[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(广电篇)[C];2013年

相关硕士学位论文 前8条

1 于娜娜;基于B/S架构的语料库管理系统[D];哈尔滨理工大学;2017年

2 付丽媛;网站测试管理系统的设计与实现[D];西安电子科技大学;2017年

3 热合曼·吾拉音;基于在线的维吾尔语语音语料库的建立及应用[D];新疆大学;2017年

4 李华明;基于PHP和MySQL的网上购物系统设计与实现[D];电子科技大学;2014年

5 金国锋;基于Codelgniter的高度可配置的实验室网站的构建与开发[D];吉林大学;2013年

6 孔平;用LoadRunner对网站进行性能测试[D];北京交通大学;2011年

7 夏知渊;一种适用于网站测试的自动化测试系统[D];吉林大学;2010年

8 麦麦提艾力·吐尔逊;基于语料库的维吾尔语语音合成系统的研究与实现[D];新疆大学;2007年



本文编号:2794273

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2794273.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户62264***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com