基于Lucene的分布式全文检索技术的研究与应用
发布时间:2017-03-24 18:14
本文关键词:基于Lucene的分布式全文检索技术的研究与应用,由笔耕文化传播整理发布。
【摘要】:随着互联网信息技术的快速发展,电子设备承载的数据越来越多,越来越丰富,甚至已经悄然进入大数据时代。伴随着企业数据量的不断增长和积累,企业需要解决在数据海洋中快速定位所需资料以及如何从大量文本资料中快速找到关键信息等问题。 传统的方法主要是数据库直接检索,但利用数据库检索技术进行全文检索时效率很低,更无法和百度、Google等搜索引擎相媲美。同时,关系型数据库检索不能有效的处理非结构化数据。为提高全文检索的效率,本文在研究全文检索技术的基础上,对索引构建和检索过程进行优化,改进匹配算法,并结合分布式技术开发一个分布式全文检索系统,能有效处理非结构化数据,显著提高检索效率以及系统的可扩展性与可维护性。 本文的具体内容主要包括: 1)首先介绍了全文检索和分布式相关技术,包括Lucene的系统结构和工作流程、倒排索引机制、排序算法、分词技术以及分布式计算和分布式集群。 2)分析了倒排索引底层结构及原理,并使用混合倒排索引以及不同域使用各自简化的分词器的方法进行了改进;深入剖析了全文检索过程与检索模型,提出了利用缓存和索引合并进行优化的建议;研究了Lucene的排序算法和分词技术并对现有的分词匹配算法进行改进,很好地支持了最大词匹配问题,并提出了实时更新词典的方法。 3)设计了一个信息安全全文检索系统,包括索引构建、检索模块以及分词和字典的设计。通过分析Solr与Lucene的关系,使用Solr设计和实现了分布式全文检索服务器,提高了系统的可扩展性和可维护性。 4)通过对原型系统的测试分析,对比使用Solr搜索服务器前后相关性能的测试结果,表明了索引创建的优化取得良好的效果,,用户检索效率高,能有效检索各种非结构化数据,满足了企业内部全文检索的日常工作需要。
【关键词】:搜索引擎 全文检索 Lucene 分布式 Solr
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 绪论11-15
- 1.1 引言11
- 1.2 研究背景及意义11-12
- 1.3 国内外研究现状12
- 1.4 研究内容及组织结构12-14
- 1.4.1 研究内容12-13
- 1.4.2 论文组织结构13-14
- 1.5 本章小结14-15
- 第二章 分布式与全文检索技术15-24
- 2.1 全文检索技术15-17
- 2.1.1 检索15
- 2.1.2 全文检索技术15
- 2.1.3 全文检索系统15-17
- 2.2 Lucene17-20
- 2.2.1 Lucene 简介17
- 2.2.2 Lucene 优点17
- 2.2.3 Lucene 系统结构17-18
- 2.2.4 Lucene 工作流程18-20
- 2.3 Lucene 与全文检索系统20
- 2.4 分布式系统20-22
- 2.4.1 分布式系统简介20-21
- 2.4.2 分布式系统优点21-22
- 2.5 分布式全文检索系统22-23
- 2.6 本章小结23-24
- 第三章 全文检索技术研究24-48
- 3.1 传统索引技术24-32
- 3.1.1 索引简介24-25
- 3.1.2 索引优点与不足25
- 3.1.3 索引原理剖析25-26
- 3.1.4 常见索引数据结构分析及优缺点26-32
- 3.2 倒排索引技术32-37
- 3.2.1 倒排索引简介32-35
- 3.2.2 改进的混合倒排索引35-37
- 3.2.3 Lucene 索引构建优化37
- 3.3 检索技术37-42
- 3.3.1 检索技术简介37-38
- 3.3.2 检索模型38-40
- 3.3.3 检索过程深入剖析40-41
- 3.3.4 检索过程优化41-42
- 3.4 排序算法42-43
- 3.4.1 基于页面内容的排序算法42-43
- 3.4.2 Lucene 排序算法研究43
- 3.5 分词技术43-47
- 3.5.1 分词技术简介43-44
- 3.5.2 词典分词44-46
- 3.5.3 改进的匹配算法46-47
- 3.6 本章小结47-48
- 第四章 信息安全全文检索系统的设计48-58
- 4.1 需求分析48-49
- 4.2 总体设计49
- 4.3 索引构建设计49-50
- 4.4 检索模块设计50-53
- 4.4.1 检索模块的封装50-51
- 4.4.2 Solr 与 Lucene51
- 4.4.3 Solr 系统结构51-53
- 4.5 分词和字典设计53-57
- 4.5.1 分词方法设计53-54
- 4.5.2 分词设计优化前后对比54-55
- 4.5.3 实时更新词典55
- 4.5.4 在词典中匹配词段55-57
- 4.6 本章小结57-58
- 第五章 信息安全全文检索系统的实现58-71
- 5.1 索引创建实现58-59
- 5.2 全文检索实现59-66
- 5.2.1 Solr 下载与安装60
- 5.2.2 Solr 搭建开发环境60-63
- 5.2.3 Lucene 分页查询实现63-64
- 5.2.4 Lucene 常见查询实现64-66
- 5.3 分词和词典实现66-67
- 5.4 系统运行测试67-70
- 5.4.3 系统运行截图67-69
- 5.4.4 索引优化前后对比69
- 5.4.5 检索优化前后对比69-70
- 5.5 本章小结70-71
- 第六章 总结与展望71-73
- 6.1 总结71
- 6.2 展望71-73
- 参考文献73-76
- 攻读硕士学位期间发表的学术论文76-77
- 致谢77
【参考文献】
中国期刊全文数据库 前7条
1 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
2 栾静;李军锋;;基于Lucene全文检索引擎的应用研究[J];计算机与数字工程;2010年12期
3 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期
4 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期
5 岳绍敏;李万龙;王璐;光顺利;;基于Lucene索引的数据库全文检索[J];吉林大学学报(理学版);2014年05期
6 黄少林;王华;张玉红;蒋一峰;;基于Lucene的索引系统的设计与实现[J];现代情报;2009年07期
7 胡_g;封俊;;Hadoop下的分布式搜索引擎[J];计算机系统应用;2010年07期
本文关键词:基于Lucene的分布式全文检索技术的研究与应用,由笔耕文化传播整理发布。
本文编号:265989
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/265989.html