汉语方言资源数据库管理系统
发布时间:2020-08-09 02:57
【摘要】:随着社会发展节奏的不断加快,普通话的大力推广,方言现在面临了许多前所未有的困境。出于对方言的保护,许多专家和学者纷纷研究如何保护并研究汉语方言。在此大背景下,方言资料的数字化、语言资源数据库的建设以及大量的方言处理软件的问世,给人们带来了许多新的思想和方法。本论文在此基础上,研究了现在国内外的许多技术,并参考了大量的文献资料下,以《汉语方言字汇》收入的20个汉语方言点的字音材料为基本数据库,并在此基础上完成了汉语方言数据库管理系统。本文首先对汉语方言处理软件的背景和国内外研究现状做了综述,结合实际的情况,对整个系统的研究目的和意义做了分析,提出本系统应该达到的目标和功能。根据实际需求,本系统分为基本功能模块和计算功能模块。基本功能模块包括音节声韵调切分模块、音位频次统计模块、属性自动标注模块、检索模块和音频视频的显示与播放。计算功能模块包括音位结构负担量计算和方言距离计算。本文将一一介绍每个模块的具体功能和实现的方法以及系统的基本框架,通过本系统的研究,可以大大减轻有关人员的负担,并对汉语方言的研究提供了许多便利。最后,对本系统的不足和未来发展的趋势做了总结和展望,为以后研究方言的工作者提供了一些参考,通过本系统的开发与研究,对以后方言的研究与保护,起了重要的意义。
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H17;TP311.13
【图文】:
西北民族大学硕士学位论文2音节声韵调切分模块此模块是将现有的音节与声母、韵母的国际音标比较,从而得出自己的声韵母和声调。一个汉字就是一个音节,按照音韵学的分类方法,一个音节是声母、韵母和声调三个部分组成的。声母就是等于一个辅音,它可以缺省,做零声母(表示有效位置)。韵母可包括三个音素:介音、主要元音、尾音。介和尾音是可以缺省的。普通话的声调一般有 5种:阴平,阳平,上声、去声、声。普通话的音节结构可概括如图 2.1。在音节字符串中,要准确的找到声、韵母和声调,主要是要找到音节的边界字符,因为汉藏语言绝大部分都是调语言,它的音节可以分析出这三种构成成分。汉语音节包括 24个声母,6单韵母和 30个复韵母,还有 4种声调(阴平、阳平、上声、去声)。本模块主要任务是将音节的声母、韵母还有声调分离开,例如:巴(pa阴平)分解,声母为 p,韵母为 a,声调是阴平;他(t a阴平)分解后,声母为 t ,韵母为调为阴平。本模块分解后的表如 2.2 所示。
容易学习又容易使用,函数名和表达更接近于书写计算公式的表达方强大而智能化的图形功能;开放性好,易于扩充等等。这也是 MAT深入到科学研究及工程计算各个领域,如此受欢迎的重要原因。3.2 系统总体设计及界面实现系统打算分为以下几个模块:语音选择区、检索区、音位统计区区、功能区和结果显示区等。语言选择区包括 20个方言点,如北京沙、成都等;检索区包括汉字、拼音、声母、韵母、声调;音位统计母、韵母和声调三大部分,声母分为两个部分:发音部位(双唇音)法(塞音),韵母也分为两个部分,结构(鼻化元音)和韵头(开口调分为:阴平、阳平、阴上、阳上、阴去、阳去、阴入、阴入等等;区包括音位负担计算和方言距离的计算;功能区包括音韵调切分、属注和频次;音频视频的显示与播放可以在结果显示区点击单字显示,的结果可保存为 excel 表。图 3.1和图 3.2是系统总体的设计图和系统体界面图。
图 3.2 系统总体界面图3.3 系统功能实现3.3.1音节声韵调切分模块实现本模块的核心思想是最大正向匹配算法,其基本思路为:假设 a为声母库中最大声母的字符数,那么匹配字段为被处理数据的当前字串中的前 i个字,在声母库中查找。如果这样的一个 a在声母库中被查找到,那么匹配成功,匹配字段就被作为这个音节的声母而切分出来。如果声母中没有找到这样的一个a字符,那么匹配失败,接着去掉匹配字段 a 中的最后一个字符,重新匹配剩下的子串,如此循环下去,直到匹配到声母成功为止,也就是直到最后切分出一个声母,这样的话,声母就会被寻找出来,由于声母找到,韵母就是声母留下的部分,而声调就是 a 这个音节的最后两个。一个音节被分开成声母、韵母和声调后,就会然后再匹配处理下一个 a,直到扫描完整个数据库为止。数据库中的音节储存形式为(以北京话为例)这样的,巴(pa阴平)、宿( iou去
本文编号:2786501
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H17;TP311.13
【图文】:
西北民族大学硕士学位论文2音节声韵调切分模块此模块是将现有的音节与声母、韵母的国际音标比较,从而得出自己的声韵母和声调。一个汉字就是一个音节,按照音韵学的分类方法,一个音节是声母、韵母和声调三个部分组成的。声母就是等于一个辅音,它可以缺省,做零声母(表示有效位置)。韵母可包括三个音素:介音、主要元音、尾音。介和尾音是可以缺省的。普通话的声调一般有 5种:阴平,阳平,上声、去声、声。普通话的音节结构可概括如图 2.1。在音节字符串中,要准确的找到声、韵母和声调,主要是要找到音节的边界字符,因为汉藏语言绝大部分都是调语言,它的音节可以分析出这三种构成成分。汉语音节包括 24个声母,6单韵母和 30个复韵母,还有 4种声调(阴平、阳平、上声、去声)。本模块主要任务是将音节的声母、韵母还有声调分离开,例如:巴(pa阴平)分解,声母为 p,韵母为 a,声调是阴平;他(t a阴平)分解后,声母为 t ,韵母为调为阴平。本模块分解后的表如 2.2 所示。
容易学习又容易使用,函数名和表达更接近于书写计算公式的表达方强大而智能化的图形功能;开放性好,易于扩充等等。这也是 MAT深入到科学研究及工程计算各个领域,如此受欢迎的重要原因。3.2 系统总体设计及界面实现系统打算分为以下几个模块:语音选择区、检索区、音位统计区区、功能区和结果显示区等。语言选择区包括 20个方言点,如北京沙、成都等;检索区包括汉字、拼音、声母、韵母、声调;音位统计母、韵母和声调三大部分,声母分为两个部分:发音部位(双唇音)法(塞音),韵母也分为两个部分,结构(鼻化元音)和韵头(开口调分为:阴平、阳平、阴上、阳上、阴去、阳去、阴入、阴入等等;区包括音位负担计算和方言距离的计算;功能区包括音韵调切分、属注和频次;音频视频的显示与播放可以在结果显示区点击单字显示,的结果可保存为 excel 表。图 3.1和图 3.2是系统总体的设计图和系统体界面图。
图 3.2 系统总体界面图3.3 系统功能实现3.3.1音节声韵调切分模块实现本模块的核心思想是最大正向匹配算法,其基本思路为:假设 a为声母库中最大声母的字符数,那么匹配字段为被处理数据的当前字串中的前 i个字,在声母库中查找。如果这样的一个 a在声母库中被查找到,那么匹配成功,匹配字段就被作为这个音节的声母而切分出来。如果声母中没有找到这样的一个a字符,那么匹配失败,接着去掉匹配字段 a 中的最后一个字符,重新匹配剩下的子串,如此循环下去,直到匹配到声母成功为止,也就是直到最后切分出一个声母,这样的话,声母就会被寻找出来,由于声母找到,韵母就是声母留下的部分,而声调就是 a 这个音节的最后两个。一个音节被分开成声母、韵母和声调后,就会然后再匹配处理下一个 a,直到扫描完整个数据库为止。数据库中的音节储存形式为(以北京话为例)这样的,巴(pa阴平)、宿( iou去
【参考文献】
相关期刊论文 前10条
1 富林;;国家社会科学基金重大项目“汉语方言音系汇纂及方音对照处理系统研究”启动[J];陕西师范大学学报(哲学社会科学版);2015年04期
2 曹志耘;;方言濒危、文化碎片和方言学者的使命[J];中国语言学报;2014年00期
3 韩夏;李龙;潘悟云;;计算机田野调查及处理系统[J];清华大学学报(自然科学版);2013年06期
4 范俊军;;汉语方言自然口语语料库建设的几个基本问题[J];学术研究;2013年02期
5 解林清;方华萍;金雅声;;汉语普通话常用字、音节和音位的统计分析[J];西北民族大学学报(自然科学版);2012年03期
6 范俊军;;基于调查字表词表注音的汉藏语言音系处理系统[J];语言文字应用;2012年02期
7 安见才让;;面向汉语教学的汉藏语料库系统设计和实现[J];微处理机;2012年02期
8 李宇明;;论中国语言资源有声数据库的建设[J];中国语文;2010年04期
9 洪拓夷;;汉语方言语音数据库建设构想[J];图书情报工作;2009年05期
10 金慧敏;廖燕莎;史菁;陈琪;;藏语方言计算机辅助系统的研究[J];科技信息;2009年01期
相关硕士学位论文 前2条
1 顾宇杰;面向微博评论的中文文本情感分类研究[D];云南财经大学;2018年
2 张义;基于MAPGIS的中国历史方言地理信息系统(CHDGIS)设计与实现[D];华中科技大学;2006年
本文编号:2786501
本文链接:https://www.wllwen.com/guanlilunwen/glzh/2786501.html