基于Lucene的分布式搜索引擎集群研究与设计
发布时间:2020-11-15 19:21
随着社会信息化程度的不断提高,传统的基于单机系统的集中式信息检索技术已无法满足以大规模数据集为基础的并发多用户并行信息检索的需求。利用高速网络环境,搭建一个分布式搜索引擎集群系统,进行分布式并行信息检索,已成为搜索引擎新的发展趋势。 信息集合的增大使得系统维护开销和检索响应时间越来越大。为了适应现代检索环境的越来越高的要求,检索体系设计和算法优化仍然是一个信息检索效率优化的重要研究方向。 本文对信息检索系统中涉及的两个重大领域:索引和检索,分别提出了两种优化算法,并在此基础上衍生出了满足并行和分布式需求的几个不同技术。在索引方面,针对单一的RAM索引和FSD索引存在的缺点,采用RAM-FSD协同索引技术,并在此基础上衍生出了RAM-FSD协同并行索引和RAM-FSD协同分布式并行索引技术。在检索方面,针对现有线程池的不足,提出了一种新的线程池实现方式。在此基础上,提出了线程池优化检索技术,并衍生出了并行检索线程池优化和分布式并行检索线程池优化技术。 在分布式搜索引擎集群设计中,本文针对一般分布式搜索引擎系统存在的问题,并吸取了GFS的优点,提出了一种安全、高效、容易扩充、资源共享、成本较低的分布式集群系统。
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2012
【中图分类】:TP391.3
【部分图文】:
第三章 RAM-FSD 协同分布式并行索引技术设计与实现 表:表 3.2 三种索引技术用时对比文件数 FSD 索引 RAM 索引 RAM_FSD 协同100 0.641 0.406 0.7501000 3.047 2.438 3.12510000 25.084 溢出错误 25.50020000 50.156 溢出错误 48.016100000 515.437 溢出错误 411.969用时单如果不考虑 RAM 的溢出错误,可将上述统计表用曲线图 3.3 表示,为了便的呈现将用时单位由 s 换算成 ms 后绘制如下:
Workstation)额外虚拟了多台 PC。表 5.5 软件环境配置开发工具 MyEclipse8.6、Macromedia Dreamweaver 8、Style Master 4.6Web 服务器 Apache 2.2.14、Apache Tomcat 6.5负载均衡 mod_jk-apache-2.0.55.so集群监控 MC4J 1.2 Beta 9开发环境JDK6.0、Apache Ant1.8.2、Xfire-1.2.6、Lucene3.5.0、HTML Parser1.6、paoding_analyzer3.0、heritrix-1.14.4其它工具 Apache jakarta-jmeter-2.4、soapUI3.6.15.6.2 平台效果演示RAM-FSD 协同索引技术、协同分布式并行索引技术和分布式并行检索线程池优化技术在分布式搜索引擎集群系统项目《一度搜索》中已得到了充分的运用和试验验证,运行效果如图 5.8 和 5.9 所示。
图 5.9 查询结果显示界面5.6.3 系统性能评估实验 1:设定 20 个模拟用户,对集群系统施加过量请求时,在 1~3 个节点服务器下对集群的平均响应速度、响应时间和数据传输速度进行测试。测试结果如下表 5.6 所示:表 5.6 测试结果节点数 响应速度(个响应/s) 响应时间(ms) 数据传输(KB/sec)1 450 109.71 68.82 436 109.98 69.23 442 109.76 69.0从表中可以发现:当节点数增加的时候,系统响应速度、传输速度先减少后增加,响应时间先增加后减少。实验 2:设定 3 个节点服务器下,5、15、20 个模拟用户,对集群系统施加过
【参考文献】
本文编号:2885109
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2012
【中图分类】:TP391.3
【部分图文】:
第三章 RAM-FSD 协同分布式并行索引技术设计与实现 表:表 3.2 三种索引技术用时对比文件数 FSD 索引 RAM 索引 RAM_FSD 协同100 0.641 0.406 0.7501000 3.047 2.438 3.12510000 25.084 溢出错误 25.50020000 50.156 溢出错误 48.016100000 515.437 溢出错误 411.969用时单如果不考虑 RAM 的溢出错误,可将上述统计表用曲线图 3.3 表示,为了便的呈现将用时单位由 s 换算成 ms 后绘制如下:
Workstation)额外虚拟了多台 PC。表 5.5 软件环境配置开发工具 MyEclipse8.6、Macromedia Dreamweaver 8、Style Master 4.6Web 服务器 Apache 2.2.14、Apache Tomcat 6.5负载均衡 mod_jk-apache-2.0.55.so集群监控 MC4J 1.2 Beta 9开发环境JDK6.0、Apache Ant1.8.2、Xfire-1.2.6、Lucene3.5.0、HTML Parser1.6、paoding_analyzer3.0、heritrix-1.14.4其它工具 Apache jakarta-jmeter-2.4、soapUI3.6.15.6.2 平台效果演示RAM-FSD 协同索引技术、协同分布式并行索引技术和分布式并行检索线程池优化技术在分布式搜索引擎集群系统项目《一度搜索》中已得到了充分的运用和试验验证,运行效果如图 5.8 和 5.9 所示。
图 5.9 查询结果显示界面5.6.3 系统性能评估实验 1:设定 20 个模拟用户,对集群系统施加过量请求时,在 1~3 个节点服务器下对集群的平均响应速度、响应时间和数据传输速度进行测试。测试结果如下表 5.6 所示:表 5.6 测试结果节点数 响应速度(个响应/s) 响应时间(ms) 数据传输(KB/sec)1 450 109.71 68.82 436 109.98 69.23 442 109.76 69.0从表中可以发现:当节点数增加的时候,系统响应速度、传输速度先减少后增加,响应时间先增加后减少。实验 2:设定 3 个节点服务器下,5、15、20 个模拟用户,对集群系统施加过
【参考文献】
相关期刊论文 前10条
1 李晓明;刘建国;;搜索引擎技术及趋势[J];电脑与电信;2008年05期
2 樊景超;周国民;;基于Lucene的“农搜”并行索引技术研究[J];农业网络信息;2009年08期
3 王华,马亮,顾明;线程池技术研究与应用[J];计算机应用研究;2005年11期
4 张敏,耿骞;并行信息检索及其控制过程[J];情报科学;2004年08期
5 李建中;并行数据库的查询处理并行化技术和物理设计方法[J];软件学报;1994年10期
6 赵海,李志蜀,韩学为,叶浩;线程池的优化设计[J];四川大学学报(自然科学版);2005年01期
7 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
8 唐华姣;何友全;徐小乐;徐澄;;基于Lucene的分布式并行索引[J];计算机技术与发展;2011年02期
9 李昊,刘志镜;线程池技术的研究[J];现代电子技术;2004年03期
10 田俊华;杨晓江;;分布式并行信息检索系统的设计与实现——基础教育资源搜索引擎个案研究[J];现代图书情报技术;2007年08期
本文编号:2885109
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2885109.html