当前位置:主页 > 科技论文 > 航空航天论文 >

面向航天领域的中文分词算法研究与实现

发布时间:2020-03-23 08:44
【摘要】:自上世纪六十年代以来,我国航天事业飞速发展,积累了海量的航天信息资源。在对航天信息进行检索和分析时,传统的人工方式费时费力,已经无法胜任航天信息检索任务,必须依靠搜索引擎技术。中文分词作为搜索引擎技术的关键性步骤,分词的效果会极大的影响检索的准确性。我国的中文分词技术虽然位居世界前列,但是大部分中文分词的研究集中在通用领域,很少有面向航天领域的中文分词研究,因此,一个性能优良的航天领域中文分词算法对于航天信息检索任务意义重大。本文主要是面向航天领域的中文分词算法研究,首先研究了目前常见的三种中文分词算法,分析并总结了传统中文分词方法存在的问题,针对航天领域术语的特点,在传统中文分词算法的基础上提出了多策略融合中文分词算法。本文提出的多策略融合中文分词算法由三个模块组成,分别是基于词典的初分词模块、歧义消解模块以及航天领域术语抽取模块。在基于词典的初分词模块,针对最大匹配算法存在的不足,本文提出了一种改进的最大匹配算法(DF-MM),同时基于中文词语二字词居多的特点,设计了一种带词长词频的双哈希词典构造机制。在歧义消解模块,为了保证歧义消解的准确性和高效性,提出了一种统计和规则相结合的歧义消解方法:待切分语料经过正向最大匹配算法和逆向最大匹配算法切分后,如果切分出的词语数量不一致,根据“最少切分”原则,保留词数少的切分形式作为最终的歧义消解结果,如果切分出的词语数量相同,则采用Bi-Gram模型,分别计算两种切分形式的概率,保留概率大的切分形式作为最终的歧义消解结果。在航天领域术语抽取模块,采用目前流行的条件随机场模型,将航天领域术语抽取任务转化为序列标注问题,通过总结航天领域术语的特点,采用5-tag标记法、提取5种特征建立特征模板来完成航天领域术语抽取任务。多策略融合中文分词算法结合了几种传统中文分词算法的优势,其分词主模块选取基于词典的中文分词方法,保证了算法整体的高效性,为了克服中文分词领域的歧义问题和未登录词问题,添加了歧义消解模块和术语抽取模块。通过实验验证,本文提出的多策略融合中文分词算法以及各个子模块的性能相比于传统的方法均有所提升。最后,将多策略融合中文分词算法应用到“航天智库检索系统”中,提高了系统分词的准确性,为用户提供更加精确的检索结果。
【图文】:

特征模板,中文分词,多策略


西安电子科技大学硕士学位论文32图3.5 特征模板3.5 本章小结本章是多策略融合中文分词算法的设计。首先介绍了多策略融合中文分词算法的整体流程,接下来介绍了基于词典的初分词模块,在该模块分析了最大匹配的缺点,在最大匹配算法的基础上提出了 DF-MM 算法,,然后是歧义消解模块,最后介绍了航天领域术语抽取的流程。

面向航天领域的中文分词算法研究与实现


standard分词结果
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:V41;TP391.1

【相似文献】

相关期刊论文 前10条

1 江华丽;;中文分词算法研究与分析[J];物联网技术;2016年01期

2 吴亮;;一种改进的最大匹配分词算法研究[J];现代商贸工业;2010年09期

3 姚兴山;;基于哈希算法的中文分词算法的改进[J];图书情报工作;2008年06期

4 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期

5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

6 林浩;韩冰;杨乐华;;一种基于改进最大匹配快速中文分词算法[J];科技创新导报;2009年09期

7 宋国柱;陈俊杰;;基于双字词的动态最大匹配分词算法的研究[J];太原科技大学学报;2009年03期

8 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期

9 韩如冰;叶得学;;问答系统的汉语分词算法研究[J];数字技术与应用;2012年05期

10 张彩琴;袁健;;改进的正向最大匹配分词算法[J];计算机工程与设计;2010年11期

相关会议论文 前9条

1 张秋亮;方凯;;基于中文分词算法的铁路客规查询系统研究[A];第八届中国智能交通年会论文集[C];2013年

2 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年

3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年

4 才智杰;索南仁欠;;藏文分词算法研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

6 刘善峰;李雅;陶建华;;基于词位信息的HMM中文分词算法[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

7 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

9 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关硕士学位论文 前10条

1 郑国兴;面向航天领域的中文分词算法研究与实现[D];西安电子科技大学;2019年

2 赵恒淼;基于深度学习的中文分词算法研究[D];山东科技大学;2018年

3 林叶川;基于互信息的壮文分词算法研究及实现[D];中南民族大学;2018年

4 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年

5 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年

6 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年

7 李良洁;基于统计和语义信息的中文分词算法研究[D];青岛科技大学;2015年

8 赵颖;基于文本类别的层次中文分词算法研究[D];广西大学;2012年

9 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年

10 彭璐;基于拼音标注的中文分词算法研究[D];华中科技大学;2010年



本文编号:2596485

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/2596485.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ba072***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com