当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于本体语义的定题爬虫

发布时间:2018-06-22 06:32

  本文选题:定题爬虫 + 主题过滤 ; 参考:《山东大学学报(理学版)》2006年03期


【摘要】:定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
[Abstract]:Topic crawlers can quickly obtain a large amount of information on specific topics on the network, which is of great value to professional search engines and data mining applications. In order to overcome the shortcomings of the current general keyword-based topic filtering strategy, a topic filtering strategy based on ontology semantics is proposed, inspired by the idea of concept aggregation. At the same time, according to the importance of different information in different locations, an improved formula for calculating the weight of weighted feature items is proposed to realize the real-time filtering of web pages based on semantics. In order to further improve the efficiency of reptiles, a link correlation prediction algorithm is proposed. Comparative experiments show that this strategy is feasible.
【作者单位】: 厦门大学软件学院 厦门大学软件学院 厦门大学信息科学与技术学院 厦门大学软件学院
【基金】:厦门大学985二期信息创新平台资助项目(0000-X07204)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前1条

1 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期

【共引文献】

相关期刊论文 前1条

1 王斌;谢庆生;刘丹;王晓;;Web教学资源主题检索系统的设计与实现[J];现代图书情报技术;2006年01期

相关会议论文 前1条

1 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年

相关硕士学位论文 前9条

1 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年

2 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年

3 王庆涛;基于本体的Web信息采集研究[D];中南大学;2007年

4 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年

5 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年

6 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年

7 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年

8 周旭;BBS热点分析系统研究[D];北京交通大学;2007年

9 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年

【二级参考文献】

相关会议论文 前1条

1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

【相似文献】

相关期刊论文 前2条

1 郑健珍;林坤辉;周昌乐;康恺;;基于本体语义的定题爬虫[J];山东大学学报(理学版);2006年03期

2 徐照财;程显毅;;基于多Agent系统的定题爬虫算法[J];计算机工程;2008年16期

相关硕士学位论文 前1条

1 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年



本文编号:2051938

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2051938.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b8f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com