基于网页分块的主题爬虫技术研究
本文关键词: 网页分块 视觉信息 标签属性 主题链接块 Shark-Search算法 出处:《山东师范大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着Web信息的多元化发展以及信息量的膨胀速度日益加快,不仅存储成本提高,信息采集也变得越来越难。通用爬虫在工作过程中会消耗大量的网络带宽,造成系统资源的浪费。而且它不太关心搜索到的页面是否符合用户的搜索主题,往往会返回很多与用户并不感兴趣的页面。因此,为了提高爬取效率,改善用户体验度,产生了以主题爬虫为核心的垂直搜索引擎。主题爬虫在页面抓取过程中采取启发式搜索策略,通过计算页面与用户搜索主题的相关度,将与用户搜索主题不相关的页面过滤掉,只下载与主题相关的页面存入待访问队列。网上的信息丰富多彩,如何有效的获取并整合主题内容信息以及如何利用爬虫全面准确地下载主题相关网页是面临的关键技术挑战。本文通过研究主题爬虫技术领域已取得的研究成果,主要对网页分块处理以及候选链接搜索策略进行了深入研究。在基于标签信息和视觉信息的分块布局下,提出了引入主题链接块因子的候选链接搜索算法。具体主要工作如下:(1)基于标签属性与视觉信息进行网页分块。利用table标签和div标签的布局规律,结合CSS样式表和style属性中的视觉信息进行分块处理。首先根据网页设计规律制定分类规则,将内容块分为文本块、链接块和无关块三类。然后进行主题文本块提取,先利用标签属性值进行初步过滤,再与基准块进行相似度计算进行进一步过滤,得到最终符合条件的文本。利用主题链接块提取规则进行主题块匹配,过滤噪音链接,获取所需的主题链接块。本文选取的基于标签属性与视觉信息的分块方法在实际应用中易于实现,避免块间大范围盲目匹配,具有较低的时间和空间复杂度。(2)主题爬虫在爬取过程中,需要先计算待爬取链接队列中的链接权重,按照权重大小决定访问顺序。本文在Shark-Search算法的基础上引入主题链接块权重的概念,提出基于主题链接块的改进搜索策略对网页中的URL进行优先级预测。将链接块中所有子链接的锚文本作为链接相关度计算的主要影响因素,在Shark-Search算法的理论基础上,引入主题链接块权重概念,并结合了链接结构的影响。(3)为了保证系统的有效性,首先在不同的阈值下分别实现HITS算法、Shark-Search算法和本文算法,将三种算法的结果进行对比分析。实验数据证明本文系统在多个阈值设置下都优于其他两种算法。然后对三种算法下的查全率和信息量总和进行了详细比较,并针对语义明确的主题和抽象概念的主题漂移率进行了实验分析,结果证明改进系统性能更优秀。
[Abstract]:With the diversified development of Web information and the increasing expansion of information, not only the storage cost increases, but also the information collection becomes more and more difficult. The universal crawler will consume a lot of network bandwidth in the working process. It often returns many pages that are not of interest to the user. Therefore, in order to improve crawling efficiency and user experience, it does not care much about whether the search page is in line with the user's search theme. A vertical search engine with theme crawler as the core is produced. The topic crawler adopts heuristic search strategy in the process of page crawling. By calculating the correlation between the page and the user search theme, the pages that are not related to the user search theme are filtered out. Download only the topic-related pages into the queue to be visited. The information on the web is rich and colorful, How to effectively obtain and integrate the topic content information and how to use crawlers to download the relevant web pages are the key technical challenges. This paper mainly studies the partitioning of web pages and the strategy of candidate link search. Under the partitioning layout based on label information and visual information, A candidate link search algorithm based on topic link block factor is proposed. The main work is as follows: 1) partitioning web pages based on tag attributes and visual information. The layout rules of table tags and div tags are used. According to the rules of web page design, the content block is divided into three categories: text block, link block and irrelevant block. First, the label attribute value is used for preliminary filtering, and then the similarity calculation with the reference block is carried out to further filter, and finally the eligible text is obtained. The topic block extraction rule is used to match the topic block, and the noise link is filtered. The method based on label attribute and visual information is easy to implement in practical application, and avoid blind matching between blocks. The crawler with low time and space complexity needs to calculate the link weight in the queue of links to be crawled. This paper introduces the concept of topic link block weight based on Shark-Search algorithm. An improved search strategy based on topic link block is proposed to predict the priority of URL in web pages. The anchor text of all sub-links in the link block is taken as the main influencing factor in the calculation of link correlation, and based on the theory of Shark-Search algorithm, the anchor text of all sub-links in the link block is considered as the main influencing factor. This paper introduces the concept of topic link block weight, and combines the influence of link structure. In order to ensure the effectiveness of the system, we implement the HITS algorithm Shark-Search algorithm and the algorithm in this paper at different thresholds, respectively. The results of the three algorithms are compared and analyzed. The experimental data show that the system is superior to the other two algorithms in many threshold settings. Then, the recall rate and the sum of information under the three algorithms are compared in detail. The experimental results show that the improved system performance is better.
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.3
【相似文献】
相关期刊论文 前10条
1 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
4 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
5 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
7 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
8 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
9 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
10 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
相关会议论文 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前5条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
5 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
,本文编号:1525156
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1525156.html