基于深度神经网络的蒙古文形态素解析研究
发布时间:2020-07-21 14:10
【摘要】:蒙古文与属于孤立语系的汉语不同,它属于黏着语系,蒙古文词由词根、词干和词缀构成。通常把汉语的单词分割称为汉语分词,而蒙古文则需要做形态素分析,即不仅要做构词的形态素识别,还需要对形态素进行词性标注,即蒙古文形态素解析。蒙古文字大体可分为胡都木蒙文和拉丁蒙文两种,即老蒙文和新蒙文,由于彼此之间有不同的书写规则和语言特点,所以转换起来十分困难。蒙古文的词和词之间有天然的空格,因此不必像汉语一样进行分词。但是,蒙古文具有非常丰富的体、态、式的变化,蒙古文词的构成是通过在词根和词干后面缀接不同的词尾来实现的。所以,从形态素粒度出发,需要对蒙古文中构词的成分,即形态素进行切分,识别出每个词的词根、词干和词缀。蒙古文的词性种类繁多,需要根据粒度对句子中的形态素进行不同级别的词性标注,而蒙古文的很多形态素存在同一形态但词性不同的歧义问题,这使得蒙古文的词性标注任务具有相当高的复杂度。传统的蒙古文形态素切分和词性标注方法主要是基于规则、基于统计、规则和统计相结合等方法。这些方法具有特征工程难度大、切分和词性标注精度低下等问题。为了解决这些问题,本文提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法不需要人工制定规则或特征模板。本文的主要研究内容和创新点包括:(1)编制并构建了一份完整的传统蒙古文与拉丁新蒙文相互转换的对照表,包括字符转换对照表、标点符号转换对照表及特殊词语转换对照表。(2)融合蒙古文语言知识的数据前后处理,包括对蒙古文特殊控制符进行特殊处理、对词缀进行词频排序并反切原始语料、人工校正、词边界恢复、命名实体恢复、词性词典还原等。(3)提出了一种基于深度神经网络的蒙古文形态素解析方法。该方法设计了一套新的六字标注方式用于蒙古文形态素的数据标注,形态素切分和词性标注系统采用Bi-LSTM+CRF框架。实验结果证明了提出方法的有效性。(4)提出了一种基于神经网络语言模型的蒙古文词性标注方法。实验结果证明,该方法通过融合预训练ELMO语言模型以及字符级别的基于Bi-LSTM的语言模型,可有效提升蒙古文形态素级别的词性标注的精度。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H212;TP391.1;TP183
【图文】:
图4-3邋Bi-LSTM+CRF网络结构图逡逑Figure4-3邋Bi-LSTM+CRF邋network邋structure逡逑
图4-4邋Bi-LSTM+CRF词性标注网络结构逡逑Figure4-4邋Bi-LSTM+CRF邋POS邋tagging邋network邋structure逡逑34逡逑
图4-5神经网络语言模型框架图逡逑Figure4-5邋Neural邋network邋language邋model邋framework逡逑
本文编号:2764522
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H212;TP391.1;TP183
【图文】:
图4-3邋Bi-LSTM+CRF网络结构图逡逑Figure4-3邋Bi-LSTM+CRF邋network邋structure逡逑
图4-4邋Bi-LSTM+CRF词性标注网络结构逡逑Figure4-4邋Bi-LSTM+CRF邋POS邋tagging邋network邋structure逡逑34逡逑
图4-5神经网络语言模型框架图逡逑Figure4-5邋Neural邋network邋language邋model邋framework逡逑
【参考文献】
相关期刊论文 前10条
1 郭艺华;;试析文化安全战略框架下蒙古国回鹘式蒙古文的复兴[J];东北亚学刊;2014年06期
2 曲辰;;语言形态类型学的分析和综合概念[J];语文学刊;2014年12期
3 白喜文;金良;;中国蒙古文信息处理技术发展历程[J];山西大同大学学报(自然科学版);2012年04期
4 张贯虹;斯·劳格劳;乌达巴拉;;融合形态特征的最大熵蒙古文词性标注模型[J];计算机研究与发展;2011年12期
5 孟和吉雅;山丹;;蒙古文编码向拉丁转写转换和分音节算法实现[J];中文信息学报;2011年04期
6 赵伟;侯宏旭;从伟;宋美娜;;基于条件随机场的蒙古语词切分研究[J];中文信息学报;2010年05期
7 应玉龙;李淼;乌达巴拉;朱海;;基于条件随机场的蒙古语词性标注方法[J];计算机应用;2010年08期
8 侯宏旭;刘群;那顺乌日图;牧仁高娃;李锦涛;;基于统计语言模型的蒙古文词切分[J];模式识别与人工智能;2009年01期
9 道布;;语言活力、语言态度与语文政策——少数民族语文问题研究[J];学术探索;2005年06期
10 贾f^儒;蒙古文字与蒙古族历史[J];西北民族研究;2003年02期
相关硕士学位论文 前1条
1 孙妮;小学生标点符号使用错误类型解析及归因研究[D];上海师范大学;2017年
本文编号:2764522
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2764522.html