分布式垂直搜索引擎的研究与设计
本文关键词:分布式垂直搜索引擎的研究与设计 出处:《电子科技大学》2016年硕士论文 论文类型:学位论文
更多相关文章: 海量数据 爬虫 索引 Hadoop Noaql Hbase
【摘要】:面对如今互联网的海量数据,如何快速准确的获取自己想要的信息成为一个亟待解决的问题。百度, Google等全网搜索引擎通过全网爬虫获取网页信息,根据用户不同查询需求返回结果以满足用户的广度查询需求。而对于某些垂直网站的深度查询,需了解具体网站结构,才能对其进行特殊解析以获取其中数据,这方面全网爬虫往往“无能为力”。所以针对客户需求,高效获取垂直网站里的数据信息的研究就变得很有必要。为解决上述问题,本文设计并实现了一个分布式垂直搜索引擎,以满足用户对垂直网站信息的深度需求,并对该搜索引擎中建立索引和检索过程的性能进行了详细的测试。并对检索中的中文分词算法进行了研究和优化,中文分词算法的优劣,是影响一个搜索引擎查询效率的最重要因素之一。对搜索引擎进行功能测试表明,本系统能够每天定时通过基于Hadoop的分布式多线程爬虫采集数据,并通过redis这一基于内存的数据库存储需要解析的URL数据,然后存储详细商品数据到Hbase数据库中。当数据存储到Hbase后,SolrCloud集群对Hbase中存储的商品数据的指定属性建立索引,用户请求查询时,SolrCloud通过分布式检索返回结果。此外,对于搜索出的商品提供了商品比较及商品来源追踪,所有结点上的爬虫进程均能使用zookeeper进行监控,提高系统的安全性。对索引检索模块的性能测试可以得出不同分片的SolrCloud集群对索引检索性能的影响,进而能够根据不同的业务应用场景确定其分片数。此外,对中文分词算法的性能测试表明,改进后中文分词算法在准确率和召回率上都有一定提高。
[Abstract]:Facing the massive data of Internet nowadays, how to get the information we want quickly and accurately becomes a problem to be solved urgently. Baidu. The whole web search engine such as Google obtains the web page information through the whole web crawler, returns the result according to the user's different query demand to satisfy the user's breadth query demand, and the depth query for some vertical websites. Need to know specific website structure, can undertake special parse to it in order to obtain data, this respect whole web crawler is often "powerless". In order to solve the above problems, this paper designs and implements a distributed vertical search engine. In order to meet the users' demand for the depth of vertical website information, the performance of the indexing and retrieval process in the search engine is tested in detail, and the Chinese word segmentation algorithm in the search engine is studied and optimized. The advantages and disadvantages of Chinese word segmentation algorithm is one of the most important factors that affect the query efficiency of a search engine. This system can collect data every day through distributed multithread crawler based on Hadoop, and store URL data which need to be parsed through redis, which is a memory-based database. The detailed commodity data is then stored into the Hbase database. When the data is stored in the Hbase, the Solr Cloud cluster indexes the specified attributes of the commodity data stored in the Hbase. When the user requests the query, SolrCloud returns the results through distributed retrieval. In addition, it provides commodity comparison and commodity source tracking for the items searched. All crawler processes on all nodes can be monitored using zookeeper. Improve the security of the system. The performance test of index retrieval module can find out the impact of different sliced SolrCloud cluster on index retrieval performance. In addition, the performance test of Chinese word segmentation algorithm shows that the improved Chinese word segmentation algorithm has higher accuracy and recall rate.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
3 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
4 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
5 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
6 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
7 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
9 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
10 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
相关会议论文 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
相关重要报纸文章 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
相关博士学位论文 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
相关硕士学位论文 前10条
1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 黄兴财;大学生职位垂直c\索引擎的设计与实现[D];电子科技大学;2015年
5 陈龙飞;垂直搜索引擎在烟草行业的研究与应用[D];浙江理工大学;2016年
6 林祖新;视频垂直搜索引擎中信息抽取与存储系统的设计与实现[D];北京邮电大学;2013年
7 张亚凤;垂直搜索引擎中关键技术的研究[D];长春工业大学;2016年
8 桂佳;招聘信息垂直搜索引擎系统设计与实现[D];华中科技大学;2014年
9 韩志强;基于Hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现[D];中央民族大学;2016年
10 吴昊;垂直搜索引擎关键技术研究及分布式实现[D];东南大学;2016年
,本文编号:1358970
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1358970.html