基于手机产品信息的个性化搜索引擎的研究与实现
本文选题:Heritrix爬虫 切入点:Lucene搜索 出处:《湖北工业大学》2012年硕士论文
【摘要】:随着互联网的迅速发展,搜索引擎成为了人们获取信息的一个重要途径。人们不仅希望搜索引擎能够提供完整的信息资源,也对搜索引擎的服务提出了更高的要求。与传统的通用搜索引擎相比,,个性化搜索引擎因其能够为用户提供特定领域的主题搜索和个性化服务,而日益受到了研究者的重视。基于这样的背景,本论文设计了基于个性化服务的手机信息搜索引擎系统,它结合当前流行的Heritrix爬虫技术和Lucene搜索引擎框架,对本地手机信息资源搜索进行了很好地实现。 本论文首先概述了搜索引擎的研究背景和工作原理,接着对Heritrix爬虫技术进行了深入的研究和进一步优化。Heritrix爬虫是目前实现Web信息抽取的主要技术之一,具有开源、可扩展的优点,同时也存在爬取信息时速度较慢的问题。本论文运用ELFHash算法对Heritrix爬虫进行了多线程优化,实现了指定网页精确的爬取,较好地提高了爬取网页的速度。 本论文采用Lucene搜索技术作为个性化搜索引擎系统的搜索框架,对其索引和排序技术进行了深入的研究,并且对其排序算法进行了优化。Lucene原排序算法是根据文档中查询的关键词出现的次数,与文档中包含此关键词次数的比例进行结果排序,在检索结果页面与主题的相关度方面不够准确,不能很好地体现出页面的重要性程度。本论文采用了PageRank算法对Lucene的排序算法进行改进,通过计算用户兴趣与页面重要性的相关度,使得排序结果更加优化。 在此研究基础上,本论文设计并实现了提供个性化手机信息服务的搜索引擎系统。根据用户的需求分析,本论文将系统分为页面爬取模块、页面解析模块、信息索引和信息检索模块等四个模块。其中,详细阐述了各个模块的设计思想和具体实现过程。通过对系统测试结果的分析,验证了系统功能,证明了系统的功能和性能达到了设计的要求。 最后,本论文对全文进行了总结和展望。总结了本人在硕士研究生期间的工作和成果,并指出了系统存在的不足和进一步工作。
[Abstract]:With the rapid development of the Internet, search engine has become an important way for people to obtain information. Compared with the traditional universal search engine, personalized search engine can provide users with specific subject search and personalized services. Based on this background, this paper designs a mobile phone information search engine system based on personalized service, which combines the current popular Heritrix crawler technology and Lucene search engine framework. The local mobile phone information resource search is well realized. This paper first summarizes the research background and working principle of the search engine, and then makes a deep research on the Heritrix crawler technology and further optimizes the .Heritrix crawler, which is one of the main technologies to realize Web information extraction, which is open source. At the same time, there is the problem of slow crawling speed. In this paper, the ELFHash algorithm is used to optimize the Heritrix crawler, which realizes the precise crawling of specified web pages, and improves the speed of crawling web pages. In this paper, the Lucene search technology is used as the search framework of the personalized search engine system, and the indexing and sorting techniques are deeply studied. The original sort algorithm of Lucene is sorted according to the number of times the keywords appear in the document and the proportion of the number of times the keywords are included in the document. The relevance between the search result page and the topic is not accurate enough to reflect the importance of the page. In this paper, the PageRank algorithm is used to improve the sorting algorithm of Lucene. By calculating the correlation between user interest and page importance, the sorting results are optimized. On the basis of this research, this paper designs and implements the search engine system which provides the personalized mobile phone information service. According to the user's demand analysis, this paper divides the system into the page crawling module and the page analysis module. Information index and information retrieval module are four modules. Among them, the design idea and implementation process of each module are described in detail. The system function is verified by analyzing the test results of the system. It is proved that the function and performance of the system meet the requirements of the design. Finally, this paper summarizes and prospects the full text, summarizes my work and achievements during the period of master's degree, and points out the shortcomings and further work of the system.
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 王非;吴庆波;杨沙洲;;Web2.0社区搜索模块排序算法的设计与实现[J];计算机工程;2009年21期
2 贾丽柯;;基于校园网的搜索引擎排序算法研究[J];商丘职业技术学院学报;2008年02期
3 郝金隆;王成良;;原创优先的搜索引擎排序算法[J];计算机工程;2008年18期
4 金祖旭;李敏波;;基于用户反馈的搜索引擎排名算法[J];计算机系统应用;2010年11期
5 潘大胜;黄小龙;;基于校园网的信息资源搜索引擎系统的设计[J];贵州工业大学学报(自然科学版);2008年05期
6 韩红芳;陈其勇;;小世界网络在搜索引擎算法中的应用[J];天津农学院学报;2006年02期
7 陈恩红;李梁;;一种对象级搜索中的多查询合并算法[J];中国科学技术大学学报;2008年10期
8 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
9 方志坚;张瑞林;童小素;;搜索引擎综合分析[J];计算机工程与设计;2007年16期
10 张玉宝;;中文搜索引擎的原理及相关技术分析[J];福建电脑;2008年01期
相关会议论文 前10条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
4 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
6 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
相关重要报纸文章 前10条
1 王立群;搜索新生代[N];中国计算机报;2005年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
相关博士学位论文 前10条
1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
相关硕士学位论文 前10条
1 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
2 程建;一种网页搜索引擎原型系统的设计与实现[D];北京邮电大学;2009年
3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
4 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
5 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年
8 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
9 金祖旭;基于用户反馈的搜索引擎排名算法研究[D];复旦大学;2010年
10 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
本文编号:1654461
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1654461.html