基于NoSQL存储的海量文档全文检索系统的研究与实现
发布时间:2017-06-13 04:09
本文关键词:基于NoSQL存储的海量文档全文检索系统的研究与实现,由笔耕文化传播整理发布。
【摘要】:基于NoSQL存储的海量文档全文检索系统是一种结合了分布式全文检索和分布式存储的新型文档管理系统。它提供了文档管理系统升级的一种方案,使文档存储满足海量存储要求,使文档检索更加准确高效。传统的文档管理系统大多使用文档外部特征作为文档查询关键字,通过这些关键字和文档内容建立关联并保存到关系型数据库,文档内容直接保存到操作系统文件系统中。这种方式一般会造成两个问题,一个是文档都保存在一台服务器上,造成系统存储容量有限,扩展性不好。另一个是使用外部特征搜索文档内容,搜索的准确性很低。为解决这两个问题,本文把业界两种新兴技术NoSQL和分布式全文检索引擎引入到文档管理系统中。MongoDB在NoSQL领域非常有名,在DB Engines的排行榜中己进入前5,在行业中的应用非常普遍。本文分析了MongoDB的特点、功能和适合场景,并重点研究了MongoDB实现分片和复制的原理,为学习分布式存储提供了很好的案例。ElasticSearch是一个基于Lucene构建的开源引擎,包涵有分布式、RESTful等功能。虽然是一个新兴的分布式搜索引擎,但在性能、扩展性、成熟度多方面都表现很优秀。本文重点深入ElasticSearch源码,分析了其实现分布式搜索的原理。本文主要研究工作是基于NoSQL存储的海量文档全文检索系统的研究与实现。根据功能需要,本文设计了基于OSGi的模块化插件结构的系统架构,并把业务功能分为文件处理、文本提取、全文索引和查询四个主要模块。系统应用插件结构保证了系统的扩展性,能够支持新出现的文档格式;应用Mongo-DB解决了文档海量存储的问题;应用ElasticSearch搜索引擎解决了全文检索准确性和查询效率问题。
【关键词】:NoSQL MongoDB ElasticSearch 分布式 搜索引擎
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第1章 绪论9-14
- 1.1 课题背景及研究的目的和意义9-10
- 1.2 NoSQL数据库的发展现状10-11
- 1.3 全文检索技术发展现状11-12
- 1.4 本文的研究内容及论文章节安排12-14
- 第2章 关键技术14-24
- 2.1 引言14
- 2.2 MONGODB主要特点14-20
- 2.2.1 功能和适用场景14-16
- 2.2.2 集群和分片16-19
- 2.2.3 GridFS简介19-20
- 2.3 ELASTICSEARCH的基本原理20-23
- 2.3.1 Lucene核心概念20-21
- 2.3.2 构建分布式搜索引擎原理21-22
- 2.3.3 复制22-23
- 2.3.4 管理工具23
- 2.4 本章小结23-24
- 第3章 海量文档全文检索系统的设计24-38
- 3.1 引言24
- 3.2 问题分析及解决方案24-25
- 3.3 总体架构设计25-27
- 3.3.1 基于OSGi的J2EE企业级模块化框架26-27
- 3.3.2 面向服务架构27
- 3.4 模块设计27-37
- 3.4.1 文件处理模块设计29-32
- 3.4.2 文本提取模块设计32-34
- 3.4.3 全文索引模块设计34-36
- 3.4.4 查询模块设计36-37
- 3.5 本章小结37-38
- 第4章 海量文档全文检索系统的实现38-52
- 4.1 引言38
- 4.2 基于OSGI的J2EE企业级模块化框架的实现38-39
- 4.3 系统处理流程39-41
- 4.4 文件处理模块的实现41-45
- 4.4.1 用户界面41-43
- 4.4.2 文件上传下载43-44
- 4.4.3 文件保存读取44-45
- 4.5 文本提取模块的实现45-49
- 4.5.1 文本提取主框架45-48
- 4.5.2 文本提取插件48-49
- 4.6 全文索引模块的实现49-51
- 4.6.1 分布式索引库配置49-50
- 4.6.2 索引管理实现50-51
- 4.7 查询模块的实现51
- 4.8 本章小结51-52
- 第5章 结论与展望52-54
- 5.1 结论52
- 5.2 展望52-54
- 参考文献54-57
- 致谢57-58
- 作者简介58
【参考文献】
中国期刊全文数据库 前3条
1 徐辉,何克抗,孙波;书面汉语自动分词专家系统的实现[J];中文信息学报;1991年03期
2 张琳;陶振凯;;基于Lucene的全文检索系统的改进方法[J];沈阳理工大学学报;2008年04期
3 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
中国硕士学位论文全文数据库 前1条
1 史伟;中文自动分词关键技术研究与实现[D];电子科技大学;2008年
本文关键词:基于NoSQL存储的海量文档全文检索系统的研究与实现,,由笔耕文化传播整理发布。
本文编号:445679
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/445679.html