基于Nutch的分布式搜索引擎的研究与实现
发布时间:2019-09-25 02:56
【摘要】:随着互联网的迅猛发展,人们已经越来越依赖网络来获取信息,搜搜引擎的出现在人们与海量网络信息之间架起了一座桥梁。然而,随着互联网用户的激增和网络信息呈指数级的增长,网络流量也激增,传统的集中式搜索引擎遇到了瓶颈。目前,分布式计算技术由于其更强大的数据处理能力,在一定程度上缓解了这个矛盾。本文基于优秀的开源分布式网络爬虫Nutch,以及优秀的分布式全文搜索服务器Elasticsearch,实现了一个简单的分布式搜索引擎系统。本文首先介绍了搜索引擎的原理及其一般体系结构,然后介绍了实现分布式搜索引擎的相关开源技术:Nutch技术,Lucene技术,Elasticsearch技术,以及Apache Hadoop。在基于这些技术的基础之上,提出了集成Nutch和Elasticsearch的分布式搜索引擎的总体架构。在本系统中,Nutch主要负责网页数据的抓取,Elasticsearch则作为全文检索服务器,索引由Nutch抓取的网页数据,并对外提供搜索服务。在系统的实现过程中,引入了IKanalyzer来增强搜索引擎系统对中文搜索的支持,并实现了搜索引擎的前端Web程序。最后通过实验测试,证明本系统可以较快速的实现网页抓取,实现高质量的搜索,并对中文搜索具有较好的支持。
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 严春来;;基于Nutch的个性化搜索引擎的研究与探讨[J];电脑编程技巧与维护;2014年04期
2 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期
3 李村合;吕克强;;Nutch搜索引擎的页面排序修改方法研究[J];计算机工程与设计;2009年06期
4 顾s,
本文编号:2541196
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2541196.html