中文分词技术在搜索引擎中的研究与应用
本文关键词:中文分词技术在搜索引擎中的研究与应用
更多相关文章: 中文分词 搜索引擎 Lucene 最大匹配算法 双字哈希 歧义处理
【摘要】:中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度是目前的研究重点和热点。基于字符串匹配的分词算法是当前使用最为广泛的中文分词算法,而最大匹配算法是最常用的基于字符串匹配的分词算法。本文通过分析最大匹配算法的不足,结合高效的双字哈希词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法,分词性能明显提高;然后借用匹配过程进行歧义处理,减少错误切分;之后使用改进算法思想重新设计Lucene中的中文文本分析模块,优化搜索引擎系统。实验表明本文提出的基于双字哈希词长分组词典结构的正向最大匹配改进算法比最大匹配算法有较大性能提升。本文所做工作总结如下:1.通过对最大匹配算法的研究,分析最大匹配算法存在的3个问题,并针对每个问题提出解决办法。2.根据最大匹配算法不足改进算法流程,提高分词性能,并针对改进算法的需求设计双字哈希词长分组的词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法。该算法对于每一次匹配都能动态选择合适匹配初始位置和匹配长度,并能快速的对词典进行查找,减少不必要的匹配消耗,无论从分词速度还是精确度上都较传统算法有了一定提升。3.根据改进算法的匹配过程,结合最大匹配算法+回退一字法算法思想,有效消除部分交集型歧义,使分词结果更加准确。4.通过对搜索引擎知识和Lucene开发包的学习,基于Lucene搭建简单的搜索引擎系统。根据改进算法重新设计Lucene中文分析模块,提高了基于Lucene的搜索引擎系统应用性能。5.对基于双字哈希词长分组词典结构的正向最大匹配改进算法进行实验评估。首先使用不同词典机制对相同语料进行分词,验证本文选取的双字哈希词典性能;然后通过使用本文改进算法及正向最大匹配算法对相同语料分别进行分词,比较结果。实验结果表明,本文提出算法在分词速度及分词精度上都优于正向最大匹配算法,达到了改进目的。
【关键词】:中文分词 搜索引擎 Lucene 最大匹配算法 双字哈希 歧义处理
【学位授予单位】:青岛科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 1 绪论8-15
- 1.1 研究背景与意义8-9
- 1.2 中文分词研究现状9-10
- 1.3 搜索引擎概述10-13
- 1.3.1 搜索引擎简介10-11
- 1.3.2 搜索引擎发展历史及现状11-13
- 1.4 本文研究内容13-14
- 1.5 论文结构安排14-15
- 2 中文分词概述15-28
- 2.1 中文分词词典机制15-19
- 2.1.1 基于整词二分词典机制15-16
- 2.1.2 基于Trie索引树词典机制16-17
- 2.1.3 基于逐字二分词典机制17-18
- 2.1.4 基于双字哈希的词典机制18-19
- 2.2 中文分词主要方法19-22
- 2.2.1 基于字符串匹配的分词算法20-21
- 2.2.2 基于统计的分词算法21-22
- 2.2.3 基于理解的分词算法22
- 2.3 中文分词难点22-27
- 2.3.1 分词歧义22-24
- 2.3.2 新词识别24
- 2.3.3 分词规范24-25
- 2.3.4 歧义采集方法25-27
- 2.4 本章小结27-28
- 3 最大匹配算法改进及词典优化28-42
- 3.1 最大匹配算法分析及改进28-34
- 3.1.1 最大匹配算法分析29-30
- 3.1.2 最大匹配算法改进思路30-32
- 3.1.3 改进后的正向最大匹配算法32-34
- 3.2 双字哈希词长分组词典机制设计34-36
- 3.3 基于双字哈希词长分组词典结构的最大匹配改进算法36-39
- 3.4 分词歧义处理39-41
- 3.5 本章小结41-42
- 4 改进算法在Lucene中的应用实现42-55
- 4.1 搜索引擎开发平台Lucene42-44
- 4.2 Lucene系统结构44-46
- 4.3 Lucene索引和检索实现46-47
- 4.3.1 Lucene索引实现46-47
- 4.3.2 Lucene检索实现47
- 4.4 中文分词模块框架设计47-49
- 4.5 构造GaiJinAnalyzer分词器49-52
- 4.6 优化的词典机制实现52-53
- 4.6.1 词典的结构52
- 4.6.2 词典的建立52-53
- 4.7 基于改进算法的分词工具53-54
- 4.8 本章小结54-55
- 5 实验结果及性能测试55-61
- 5.1 算法测试环境及衡量标准55
- 5.2 实验结果及性能比较55-60
- 5.2.1 验证词典性能57-58
- 5.2.2 分词算法比较58-60
- 5.3 实验结果总结60-61
- 总结与展望61-63
- 参考文献63-66
- 致谢66-67
- 攻读学位期间发表的学术论文67-69
【参考文献】
中国期刊全文数据库 前10条
1 张贤坤;李亚南;田雪;;基于双哈希结构的整词二分词典机制[J];计算机工程与设计;2014年11期
2 莫建文;郑阳;首照宇;张顺岚;;改进的基于词典的中文分词方法[J];计算机工程与设计;2013年05期
3 彭焕峰;丁宋涛;;一种基于全Hash的整词二分词典机制[J];计算机工程;2011年21期
4 叶继平;张桂珠;;中文分词词典结构的研究与改进[J];计算机工程与应用;2012年23期
5 王瑞雷;栾静;潘晓花;卢修配;;一种改进的中文分词正向最大匹配算法[J];计算机应用与软件;2011年03期
6 张庆扬;柴胜;;使用二级索引的中文分词词典[J];计算机工程与应用;2009年19期
7 谭骏珊;吴惠雄;;一种改进整词二分法的中文分词词典设计[J];信息技术;2009年05期
8 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
9 高文利;高元先;;基于三数组Trie索引树词典查询机制的分词系统[J];情报杂志;2009年02期
10 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
中国硕士学位论文全文数据库 前5条
1 陈建英;面向中文地址的分词引擎设计及实现[D];中国科学院大学(工程管理与信息技术学院);2015年
2 纪晓阳;基于Nutch搜索引擎系统数据处理的中文分词技术的研究[D];成都理工大学;2014年
3 康晨阳;基于避免交集型歧义的最大匹配算法改进的研究与实现[D];西安电子科技大学;2012年
4 刘延吉;基于词典的中文分词歧义算法研究[D];东北师范大学;2009年
5 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
,本文编号:1081919
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1081919.html