基于Solr的海量数据并行索引及搜索缓存研究
发布时间:2017-12-20 23:25
本文关键词:基于Solr的海量数据并行索引及搜索缓存研究 出处:《华中师范大学》2016年硕士论文 论文类型:学位论文
更多相关文章: 搜索引擎 Solr 并行索引 分级缓存 词语相似度
【摘要】:随着互联网信息技术的快速发展,企业信息化程度不断提高,各个行业内的数据信息急剧增长,而且信息的存在形式也越来越多样。这也使得如何使用户能够快速、精确的从企业的海量数据中找出所需要的关键信息变得越来越重要,而解决这一个问题的关键就是搜索引擎技术。随着开源企业级搜索应用服务器Solr的出现,越来越多的企业开始构建以此为基础的海量数据搜索服务系统。传统的搜索方式是使用文本数据库,虽然文本数据库和搜索引擎的技术基础都是全文检索技术,但是文本数据库在处理海量数据方面的能力无法跟搜索引擎相媲美。搜索引擎采用服务器集群和分布式计算的策略,能够处理较大的数据量。在海量数据的背景下,如何更好地利用开源Solr搜索引擎服务器搭建起快速高效的搜索引擎也成为重要的研究课题之一本文针对这种需求,在基于Solr搜索引擎服务器的基础上,进行海量数据搜索服务的研究。本文首先分析搜索引擎服务器集群的运行特点,运用随机过程中的排队模型对集群系统的可用性进行分析。接着在可用性的基础上深入研究搜索引擎的索引构建和搜索索引两个关键过程。索引构建的过程是将文本转化为能够被搜索引擎搜索的索引文件。本文在分析的基础上提出并行索引的方式,将文档构建索引过程中的部分串行操作并行化,并通过性能负载均衡的策略提高各节点的资源利用率,以应对海量数据构建索引的场景,加速索引的构建。对于搜索的过程,本文首先分析Solr的搜索过程,提出分级缓存模型。模型将频繁搜索的热点数据放置在缓存中,并对缓存数据进行分级,同时提出热相关数据的概念,通过词语相似度计算出与热点数据相似的数据,加载至缓存模型并进行分级操作。本文同时针对分级缓存模型提出了维护策略,充分利用缓存空间,最后改进传统的缓存预热算法,提高系统运行初期的缓存命中率。本文通过搭建搜索引擎服务器集群,对海量数据的索引构建和搜索过程进行实验研究。实验结果表明,本文提出的并行索引和分级缓存模型能够有效提升搜索引擎的索引构建速度和请求响应速度。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP391.3
【参考文献】
中国期刊全文数据库 前6条
1 付剑生;徐林龙;林文斌;;分布式全网职位搜索引擎的研究与实现[J];计算机技术与发展;2015年05期
2 郭永利;卢颖颖;;网络搜索引擎的设计与实现[J];微型电脑应用;2014年04期
3 祝官文;王念滨;王红滨;;基于主题和表单属性的深层网络数据源分类方法[J];电子学报;2013年02期
4 游彬;严岳松;孙英阁;刘靖;;基于HowNet的信息量计算语义相似度算法[J];计算机系统应用;2013年01期
5 何咏梅;毛云舸;;搜索引擎的发展现状与趋势研究[J];吉林省经济管理干部学院学报;2007年04期
6 秦春秀;赵捧未;刘怀亮;;词语相似度计算研究[J];情报理论与实践;2007年01期
,本文编号:1313810
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1313810.html