基于PageRank与Bagging的主题爬虫研究
本文选题:主题爬虫 切入点:搜索策略 出处:《计算机工程与设计》2010年14期 论文类型:期刊论文
【摘要】:为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。
[Abstract]:In order to overcome the phenomenon of topic crawler theme drift and improve the precision and recall of search engine, A topic crawler design method based on PageRank algorithm and Bagging algorithm is proposed. The subject crawler system is divided into crawler crawler crawler module and topic correlation analysis module. An improved PageRank algorithm is used to improve the crawler search strategy. Using vector space model to express the topic of the web page, using the Bagging algorithm to construct the theme classifier for the theme correlation analysis, filtering the topic-independent pages. The experimental results show that, This method achieves good results in the performance of web crawling and the precision rate of subject pages.
【作者单位】: 西安建筑科技大学信息与控制工程学院;西北大学信息科学与技术学院;北京师范大学信息科学与技术学院;
【基金】:国家自然科学基金项目(60573179)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前6条
1 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
2 蒋宗礼;徐学可;李帅;;一种基于超链接引导的主题搜索的主题敏感爬行方法[J];计算机应用;2008年04期
3 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
4 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
5 王冬;雷景生;李壮;;基于PageRank的页面排序改进算法[J];计算机工程与设计;2008年22期
6 黄德才;戚华春;钱能;;基于主题相似度模型的TS-PageRank算法[J];小型微型计算机系统;2007年03期
【共引文献】
相关期刊论文 前10条
1 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
2 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
3 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
4 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
5 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
6 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
7 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
8 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
9 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
10 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
相关会议论文 前10条
1 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
2 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 ;Text Feature Automatic Selection Algorithm Based on Cloud Model[A];第五届全国信息检索学术会议论文集[C];2009年
9 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 朱振方;刘培玉;;求解中文文本信息过滤的自适应遗传算法及收敛性分析[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
5 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
6 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
9 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
10 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
相关硕士学位论文 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
6 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
7 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
8 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年
9 赵素娟;基于互联网的人物简历问答系统的研究与设计[D];东北财经大学;2010年
10 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
2 杨沛,郑启伦,彭宏;Inherit/Feedback:一种新的Web主题挖掘方法[J];计算机研究与发展;2004年05期
3 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
6 陈伟柱,陈英,吴燕;基于分类技术的搜索引擎排名算法——CategoryRank[J];计算机应用;2005年05期
7 李绍华;高文宇;;搜索引擎页面排序算法研究综述[J];计算机应用研究;2007年06期
8 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
9 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
10 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
【相似文献】
相关期刊论文 前10条
1 杨仁广;孟祥增;;基于Web多媒体基础教育资源检索系统的设计[J];中国教育信息化;2008年02期
2 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
3 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期
4 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
5 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
6 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];计算机应用与软件;2008年09期
7 付真真;陆伟;;基于关键词的搜索引擎优化策略及效果分析[J];现代图书情报技术;2009年06期
8 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
9 张亚男;王鑫;;基于内容管理的网站构建系统的研究[J];硅谷;2010年23期
10 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
相关会议论文 前10条
1 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘艳霞;范明;;Bagging基于eEP的分类器分类稀有类[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 汪秉宏;;网络交通流中的路由搜索策略及相变[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
6 何伟;李庆忠;郑永清;崔立真;;社区云计算环境中的一种数据分布及搜索策略[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];全国暖通空调制冷2002年学术年会论文集[C];2002年
8 李慧敏;邬群勇;王钦敏;;Robot技术在空间信息服务搜索中的应用研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
相关重要报纸文章 前10条
1 本报记者 马文方;匠心在胸[N];中国计算机报;2008年
2 喻宁;群雄逐鹿搜索经济[N];经理日报;2004年
3 内蒙古建设银行包头分行 薛志强;体会宽度优先搜索[N];网络世界;2002年
4 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
5 文/大海;微软亚研院“微妙转向”[N];计算机世界;2004年
6 寿栋邋芯语;揭开企业搜索的技术面纱[N];计算机世界;2008年
7 中科院计算所 罗杰文;P2P搜索技术研究与挑战[N];计算机世界;2006年
8 本报记者 于翔;雅虎重组能否自我拯救?[N];网络世界;2008年
9 复旦大学国际政治系博士 沈逸;谷歌的权力与生意[N];东方早报;2010年
10 搜索引擎9238;搜索专家谈技巧[N];中国计算机报;2001年
相关博士学位论文 前10条
1 梅建新;基于支持向量机的高分辨率遥感影像的目标检测研究[D];武汉大学;2004年
2 王菁华;文本中知识的获取[D];北京邮电大学;2008年
3 颜力;飞行器多学科设计优化若干关键技术的研究与应用[D];国防科学技术大学;2006年
4 赵勇;卫星总体多学科设计优化理论与应用研究[D];国防科学技术大学;2006年
5 杨光;基于大型科学仪器工作站的屏幕图像识别与压缩技术研究[D];吉林大学;2011年
6 张焱;地面背景下成像目标跟踪技术研究[D];国防科学技术大学;2008年
7 王平;非结构化对等网络中的信任机制及搜索策略研究[D];西南大学;2010年
8 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
9 高伟;对等网环境下搜索策略与信任机制研究[D];哈尔滨工程大学;2011年
10 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
相关硕士学位论文 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
3 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
4 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
5 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
6 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
7 杨军;基于块匹配的视频图像运动估计技术研究[D];湖南大学;2007年
8 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年
9 姜sバ,
本文编号:1642818
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1642818.html