基于兴趣推送的主题爬虫研究
本文关键词: 数码产品 主题相关度预测 兴趣推送 主题爬虫 主题漂移 出处:《昆明理工大学》2012年硕士论文 论文类型:学位论文
【摘要】:Internet发展速度迅猛,互联网上的信息量越来越大,通用网络爬虫的局限性随之显现出来,用户对其查全率和查准率的需求已得不到满足,特别是对某一领域内的搜索结果不能令用户满意。针对此问题,研究人员在通用爬虫的基础上发明了主题网络爬虫,它在一定程度上改善了通用网络爬虫查准率不足的缺点。 本文对Google的PageRank算法进行了详细地分析,并对其作了基于链接结构和网页内容的主题相关性改进,提出了结合网页链接和文本内容的主题爬虫算法,对搜索结果进行主题相关度排序,提高了通用网络爬虫的查准率。且针对目前的主题爬虫还存在每次需要点击许多相关网页才能找到感兴趣的内容的问题,本文提出一种基于兴趣推送的主题网络爬虫,通过用户点击行为来发现用户兴趣的兴趣推送算法,并将其与前面的主题相关性结合,使用户使用搜索引擎时不仅能在互联网巨大的信息量中快速找到行业相关网页,而且通过分析和记录用户兴趣,将用户最感兴趣的网页推送到搜索结果前面。 本文以Eclipse为开发环境,开发了一套数码产品搜索引擎系统来验证改进后的算法的优越性,作者将改进后的算法应用于此系统中。通过对系统的分析和测试,本文设计和实现的基于兴趣推送的数码产品主题爬虫的方案是切实可行的,提高了搜索引擎查询的效率和准确度,且在较大程度上为用户提供了更加便利的搜索服务。
[Abstract]:With the rapid development of Internet and the increasing amount of information on the Internet, the limitations of common web crawlers appear, and users' demand for recall and precision has not been met. In particular, the search results in a certain field can not satisfy the users. In order to solve this problem, the researchers have invented the topic web crawler based on the general crawler, which to some extent improves the shortcomings of the common web crawler precision rate. In this paper, the PageRank algorithm of Google is analyzed in detail, and the topic correlation improvement based on link structure and web content is made, and a topic crawler algorithm combining web link and text content is proposed. The search results are ranked by the correlation degree of the topic, which improves the accuracy of the common web crawler, and the problem of the current topic crawler still needs to click on many relevant pages each time to find the content of interest. In this paper, a topic crawler based on interest push is proposed, which can discover the interest push algorithm of user interest by user click behavior, and combine it with the previous topic correlation. When users use search engines, they can not only quickly find relevant pages in the huge amount of information on the Internet, but also push the most interesting web pages to the front of search results by analyzing and recording users' interests. In this paper, a set of digital product search engine system is developed to verify the superiority of the improved algorithm based on Eclipse. The author applies the improved algorithm to the system. The scheme designed and implemented in this paper is feasible, improves the efficiency and accuracy of search engine query, and provides a more convenient search service for users.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 杨超;李杰;李浩宇;;基于PageRank的页面排序算法研究[J];电脑编程技巧与维护;2011年16期
2 吴涛;;PAGERANK算法下的网站链接优化策略研究[J];电子商务;2009年07期
3 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
4 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
5 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
6 潘昊;谭龙远;;领域相关自适应的PageRank算法搜索策略[J];计算机应用;2008年09期
7 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期
8 马亮,陈群秀,王俊,徐国伟;智能Web中文主题信息收集系统IRobot的设计[J];中文信息学报;2002年05期
9 王继明;杨国林;;基于Lucene的中文文本分词[J];内蒙古工业大学学报(自然科学版);2007年03期
10 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
相关博士学位论文 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
相关硕士学位论文 前10条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
2 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
3 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
4 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
5 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年
6 李京京;主题爬虫的关键技术研究[D];吉林大学;2008年
7 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年
8 李晗;面向石油的主题搜索引擎研究[D];中国石油大学;2008年
9 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
10 王小君;法院内网搜索引擎的设计与实现[D];内蒙古大学;2010年
,本文编号:1497560
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1497560.html