基于Lucene的中文分词技术研究与实现
发布时间:2017-08-19 02:21
本文关键词:基于Lucene的中文分词技术研究与实现
【摘要】:信息技术的快速发展推动了互联网的信息的不断丰富和搜索引擎技术的加速发展,作为信息检索之一的中文分词技术显得尤为重要,中文分词技术促进了全文检索技术的发展。Lucene便是随着这一过程而产生发展的。Lucene是由apache公司开发的一个开源工具包,其目的是为了实现全文检索。但在具体的实现上,它仍有很多改进的地方,尤其是在对中文信息的处理上。所以本文的研究重点是Lucene的中文分词技术。 在对Lucene进行深入研究后,本文提出Lucene的字符串匹配的改进算法——正向最大增字匹配算法,该算法分词结果更加准确,在此基础上,下文构造一种Lucene的分析器MyChAnalzyer,该分析器的核心模块是基于词前缀的哈希逐字匹配算法的中文分词器,通过多种方法测试该分析器的分词性能,主要考察分词速度和分词精度两个方面,其中,分词精度方面又通过两种测试方案来测试。从实验的结果来看准确率比lucene自带的分析器有较大的提高。本文最后一章提出改进的排序结果算法,该算法是将Lucene自带的排序结果算法与PageRank算法结合并改进的,通过测试10个用户对三个算法的平均满意度来说明改进算法的优越性。 最后,总结全文,对未来要进行的工作提出了展望。
【关键词】:中文分词 Lucene 哈希 排序算法
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要2-4
- ABSTRACT4-8
- 第1章 绪论8-15
- 1.1 中文分词8
- 1.2 中文分词的研究背景8-9
- 1.3 中文分词的研究现状及意义9-11
- 1.3.1 中文分词的处理方法9-10
- 1.3.2 中文分词中的难题10-11
- 1.4 中文分词的研究现状及意义11-12
- 1.5 中文分词应用的当前主流搜索引擎简介12-14
- 1.6 本文主要工作和思路14-15
- 第2章 Lucene分析与设计15-34
- 2.1 Lucene简介15
- 2.2 Lucene的主要功能及特点15-16
- 2.3 Lucene包结构16-17
- 2.4 Lucene的系统结构图17-19
- 2.5 Lucene的索引结构19-26
- 2.5.1 Lucene的索引分析19-23
- 2.5.2 使用Lucene进行索引的核心算法23-24
- 2.5.3 使用Lucene实现检索的核心算法24-25
- 2.5.4 Lucene索引文件格式25
- 2.5.5 倒排索引原理25-26
- 2.6 Lucene的分析器26-30
- 2.6.1 Lucene自带的中文分词算法26-27
- 2.6.2 改进的中文分词算法27-30
- 2.7 实验结果30-33
- 2.7.1 准备工作30
- 2.7.2 运行环境30-33
- 2.7.3 结果比较33
- 2.8 本章小结33-34
- 第3章 中文分词模块的设计34-50
- 3.1 MyChAnalyzer的构造过程34-36
- 3.2 分词词典的构造与维护36-39
- 3.3 分词算法详述39-43
- 3.3.1 变量说明39
- 3.3.2 算法主要核心思想39-40
- 3.3.3 算法实现40-43
- 3.4 实验结果43-49
- 3.4.1 分词器速度测试43-44
- 3.4.2 精度测试44-48
- 3.4.3 分词系统比较48-49
- 3.5 本章小结49-50
- 第4章 Lucene的结果排序算法改进50-58
- 4.1 以页面内容为基础的算法50-51
- 4.2 PageRank算法的提出51-52
- 4.3 PageRank基本原理52-54
- 4.4 Direct Hit算法54-55
- 4.5 Lucene排序结果的改进算法55-56
- 4.6 算法分析56-58
- 第5章 总结与展望58-59
- 5.1 总结58
- 5.2 展望58-59
- 参考文献59-62
- 附录A:中文分词程序62-66
- 本文作者硕士期间的科研成果66-67
- 致谢67-68
【参考文献】
中国期刊全文数据库 前10条
1 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
2 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
3 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
4 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
5 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
6 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
7 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
8 韩艳;林煜熙;姚建民;;基于统计信息的未登录词的扩展识别方法[J];中文信息学报;2009年03期
9 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
10 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
,本文编号:698123
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/698123.html