基于SolrCloud平台的分布式全文检索系统的设计与实现
发布时间:2017-08-31 18:35
本文关键词:基于SolrCloud平台的分布式全文检索系统的设计与实现
更多相关文章: 分布式 全文检索 倒排索引 SolrCloud ZooKeeper
【摘要】:随着大数据时代的到来,海量数据不断涌入人们的日常生活、学习和工作中,如何存储和管理这些飞速增长的数据?如何从已有的这些海量数据中将对自己有用的信息准确高效地提取?面对这些日益严峻的挑战和经济突飞猛进地发展,各类政府机构也对业务信息化有了越来越高的需求,专项网络信息平台的建立已经成为当务之急。从最初的政务信息化到今天,政府机构已经积累了大量的结构化数据和非结构化数据,对于审计厅来说,各种报表和法律法规文档等全文数据更是数不胜数,这些数据都需要记录在案,当进行审计业务和审计法律法规重新修订等工作时,工作人员不得不大量翻阅这些历史文件。这种情况下仅仅利用原有的数据库查询功能,或者人工查阅实体文本资料将会严重影响工作效率,由此我们想到可以利用全文检索技术来满足政府机构的以上需求。通过对审计厅资料库内的各种数据进行全文索引,工作人员在需要某项信息时,,可以检索到各种类型的数据。由于审计工作都是分季度进行的,所以在某个时段工作人员需要集中进行操作。综合以上分析,我们决定构建一个分布式的全文检索系统来满足审计厅的需求。本文利用基于Solr和ZooKeeper的分布式搜索方案,搭建Solr服务器集群,构成SolrCloud平台,在SolrCloud上创建、存储和管理大型资料库文档和数据库信息的索引,以此为基础,构建一个分布式的全文检索系统。用户可登陆系统,普通用户可以对企业内部大量文档进行检索、预览和下载等操作,除此之外,管理员还能上传、存储和管理这些文档,从而达到机构内部资料共享的目的。 文中首先探讨了全文检索和分布式搜索引擎的发展背景和研究现状,详细介绍了SolrCloud的架构和特点,以及全文检索的机理。接下来我们根据审计厅的具体要求,对分布式全文检索系统在四个层面上进行了需求分析,并对系统进行了开发环境设计,总体设计和详细设计,详细设计中给出了SolrCloud服务器集群、分布式索引、分布式检索的设计方案,随后介绍了以上设计方案的具体实现方法,并对索引的创建和检索响应进行了性能测试。文章最后对本文所做的全部工作进行了简单的总结,并且提出了可进一步研究的内容。
【关键词】:分布式 全文检索 倒排索引 SolrCloud ZooKeeper
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 目录4-6
- 摘要6-7
- Abstract7-8
- 第一章 绪论8-14
- 1.1 研究背景与意义8-9
- 1.2 相关研究现状9-11
- 1.2.1 全文搜索引擎的研究现状9-10
- 1.2.2 分布式搜索引擎的研究现状10-11
- 1.3 本文主要工作11
- 1.4 论文组织结构11-12
- 1.5 本章小结12-14
- 第二章 系统关键技术研究14-20
- 2.1 分布式14
- 2.2 全文检索14-17
- 2.2.1 基本原理15-17
- 2.2.2 框架17
- 2.3 Lucene 的概述17-19
- 2.3.1 系统结构17-18
- 2.3.2 索引结构18-19
- 2.4 本章小结19-20
- 第三章 SolrCloud 平台的分析与研究20-30
- 3.1 Solr 的概述20
- 3.2 Solr 的架构与特点20-22
- 3.2.1 架构20-21
- 3.2.2 特点21-22
- 3.3 SolrCloud 概述22-24
- 3.3.1 ZooKeeper22-23
- 3.3.2 SolrCoud23-24
- 3.4 SolrCloud 相关概念24-25
- 3.5 SolrCloud 逻辑结构及工作原理25-29
- 3.5.1 逻辑结构25-26
- 3.5.2 工作原理26-29
- 3.6 本章小结29-30
- 第四章 系统需求分析与设计30-44
- 4.1 系统需求分析30-38
- 4.1.1 业务需求分析30-31
- 4.1.2 用户需求分析31-33
- 4.1.3 功能性需求分析33-37
- 4.1.4 非功能性需求分析37-38
- 4.2 系统设计38-42
- 4.2.1 系统开发环境设计38-39
- 4.2.2 系统总体设计39
- 4.2.3 系统详细设计39-42
- 4.3 本章小结42-44
- 第五章 系统实现与性能测试44-58
- 5.1 系统实现44-55
- 5.1.1 SolrCloud 服务器集群实现44-48
- 5.1.2 数据库访问实现48
- 5.1.3 分布式创建索引实现48-51
- 5.1.4 分布式检索实现51-52
- 5.1.5 用户模块实现及系统运行截图52-55
- 5.2 系统性能测试55-56
- 5.2.1 索引吞吐量测试55-56
- 5.2.2 检索时延测试56
- 5.3 本章小结56-58
- 第六章 总结和展望58-60
- 6.1 总结58
- 6.2 展望58-60
- 参考文献60-62
- 致谢62
【参考文献】
中国期刊全文数据库 前8条
1 霍林;潘英花;王力;黄俊文;;分布式密文全文检索系统设计及安全性研究[J];广西大学学报(自然科学版);2010年06期
2 朱友文;黄刘生;陈国良;杨威;;分布式计算环境下的动态可信度评估模型[J];计算机学报;2011年01期
3 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期
4 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
5 钱迎进;肖侬;金士尧;;大规模集群中一种自适应可扩展的RPC超时机制[J];软件学报;2010年12期
6 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期
7 李胜华;;搜索引擎的现状及发展趋势探讨[J];现代商贸工业;2010年12期
8 姚晓娜;祝忠明;;基于分面搜索引擎Solr的机构知识库访问统计[J];现代图书情报技术;2011年Z1期
本文编号:767245
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/767245.html