一种基于超链接引导的主题搜索的主题敏感爬行方法
本文选题:主题爬虫 切入点:超链接引导的主题搜索 出处:《计算机应用》2008年04期
【摘要】:基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。
[Abstract]:Topic-based information collection is a new and practical method in the field of information retrieval by limiting the download page to a specific subject area. To improve the efficiency of search engines and the quality of information provided. The idea is to selectively collect relevant pages according to predefined topics during crawling, and avoid downloading pages that are not related to the topic. The goal is to find information that is useful to users more accurately. The learning method of link classification model and the method of link analysis are used to improve the relevance and quality of the downloaded web page. On this basis, a topic crawler system is designed and implemented. The system uses subject sensitive HITS to calculate the priority of web pages, and the experimental results show that the system has a good effect.
【作者单位】: 北京工业大学计算机学院 北京工业大学计算机学院 清华大学电子工程系
【分类号】:TP391.3
【共引文献】
相关博士学位论文 前1条
1 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
相关硕士学位论文 前4条
1 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
2 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
3 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
4 徐学可;网页文本分类及其在搜索引擎中的应用[D];北京工业大学;2008年
【相似文献】
相关期刊论文 前10条
1 夏崇镨;康丽;;基于叙词表的主题爬虫技术研究[J];现代图书情报技术;2007年05期
2 陈晨;;基于主题爬虫的个性化搜索引擎技术研究[J];黑龙江科技信息;2010年31期
3 赵思佳;尹婷;;基于规则引擎的个性化主题网页爬虫的研究[J];计算机技术与发展;2011年03期
4 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
5 刘兵;;基于JavaScript等多链接分析的主题爬虫设计实现[J];许昌学院学报;2010年02期
6 宋宇;;从主题爬虫角度看数字资源建设[J];中国索引;2010年01期
7 秦学勇;;基于互联网资源的学科Ontology构建研究[J];廊坊师范学院学报(自然科学版);2011年02期
8 杨学明;刘柏嵩;;主题爬虫在数字图书馆中的应用[J];图书馆杂志;2007年08期
9 杨贞;杜习英;;基于本体的主题爬虫的设计与实现[J];科技情报开发与经济;2008年02期
10 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
相关会议论文 前1条
1 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
相关硕士学位论文 前10条
1 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
2 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
3 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
4 孙逸雪;基于时态信息的主题搜索引擎的研究与实现[D];中国科学技术大学;2009年
5 韩冰;基于BP网络的高校主题爬虫的设计与实现[D];东北师范大学;2009年
6 袁浩;主题爬虫搜索Web页面策略的研究[D];中南大学;2009年
7 吴世杰;基于支持向量机分类算法的主题爬虫的研究与实现[D];华中师范大学;2009年
8 杨丹波;应用Web数据挖掘的主题元搜索引擎设计与实现[D];清华大学;2009年
9 程锦;面向网络化制造资源的垂直搜索技术研究与应用[D];贵州大学;2007年
10 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
,本文编号:1667483
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1667483.html