当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于贝叶斯分类器的主题爬虫研究

发布时间:2018-12-14 01:54
【摘要】:主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。
[Abstract]:Topic crawler is the core technology to realize the target search engine. This paper puts forward a method of implementing topic crawler based on Bayesian classifier, and introduces the system structure of subject crawler based on Bayesian classifier and the implementation of key parts of the system, including URL queue, crawling history, page download and page analysis. The topic correlation algorithm based on Bayesian classifier is introduced in detail. The improved TF-IDF algorithm is used to extract the features of web content and the Bayesian classifier is used to calculate the relevance of the topic. The experimental results show that the Bayesian classifier is more suitable for implementing topic crawlers than the PageRank algorithm in the case of searching for a large number of network resources.
【作者单位】: 四川大学计算机学院网络与可信计算研究所;四川大学信息安全研究所;
【基金】:国家“973”计划资助项目(2007CB311106)
【分类号】:TP391.41

【共引文献】

相关期刊论文 前4条

1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期

2 周新栋,王挺;基于N元语言模型的文本分类方法[J];计算机应用;2005年01期

3 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期

4 赵敏涯;沈洁;陈志敏;林颖;;一种新的自动文本分类的算法[J];扬州大学学报(自然科学版);2006年01期

相关博士学位论文 前10条

1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

3 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

4 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年

5 田永鸿;基于上下文的统计关系学习研究[D];中国科学院研究生院(计算技术研究所);2005年

6 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年

7 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年

8 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

9 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 田艳芳;数字图书馆中数据预处理子系统的设计与实现[D];国防科学技术大学;2001年

2 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年

3 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年

4 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年

5 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年

6 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年

7 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年

8 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年

9 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年

10 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年

【二级参考文献】

相关期刊论文 前5条

1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期

2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期

3 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期

4 周茜,赵明生,扈e,

本文编号:2377693


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2377693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cb564***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com