当前位置:主页 > 管理论文 > 移动网络论文 >

基于分层结构保留的增量网络爬虫算法

发布时间:2018-04-14 07:49

  本文选题:网络爬虫 + URL过滤器 ; 参考:《计算机应用研究》2013年08期


【摘要】:为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。
[Abstract]:In order to improve the reliability of the crawler algorithm to grab the results, put forward a kind of effective information to obtain improved web crawler algorithm, the main design of the hierarchical structure of information retention strategy and URL filtering model. In the improved algorithm, cyber source locator is based on hierarchical storage, keep all information on the topological relations, the staggered URL complex network system from a graph structure into a hierarchical tree structure. In the implementation of the structure mode, the incremental crawler algorithm. Simulation with actual website BBS as the test data, the results show that the improved algorithm is better than the existing algorithm in web crawler crawling speed, has the advantage of greater efficiency and download the effectiveness of information and so on. Therefore, the hierarchical structure of URL strategy and filtering mode can be a small increase in computing time greatly improve the effectiveness of the crawler to crawl the page.

【作者单位】: 乐山师范学院物理与电子工程学院;华南理工大学计算机科学与工程学院广州510006;Oracle甲骨文研究开发中心(深圳)有限公司;华南理工大学软件学院;乐山师范学院数学与信息科学学院;
【基金】:国家自然科学基金资助项目(61003066,61170193) 广东省自然科学基金资助项目(S2012010010613) 国家教育部博士点基金资助项目(20090172120035) 中央高校基本科研业务费重点项目(2012ZM0083)
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期

2 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期

【共引文献】

相关期刊论文 前10条

1 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期

2 刘辉林;孟莉;杨松波;王光兴;;专业搜索引擎数据更新的算法P~2FC[J];广西师范大学学报(自然科学版);2007年02期

3 郭涛;黄铭钧;;社区网络爬虫的设计与实现[J];智能计算机与应用;2012年04期

4 欧阳柳波;易显;李学勇;杨柱;;面向用户体验的大型网站网页分类更新策略[J];华中科技大学学报(自然科学版);2010年09期

5 柴军飞;;搜索引擎中的网络蜘蛛技术探析[J];今日科苑;2009年24期

6 张乃洲;李石君;余伟;张卓;;使用联合链接相似度评估爬取Web资源[J];计算机学报;2010年12期

7 徐文杰;陈庆奎;;增量更新并行W eb爬虫系统[J];计算机应用;2009年04期

8 王兰成;朱建华;;网络信息采集中链接与主题相关性的判定研究[J];计算机应用与软件;2012年05期

9 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期

10 杜言琦;马军;;基于版块的论坛增量搜集策略[J];中文信息学报;2010年03期

相关会议论文 前1条

1 杜言琦;马军;;基于版块的论坛增量搜集策略[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前5条

1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

2 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年

3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

4 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年

5 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年

相关硕士学位论文 前10条

1 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年

2 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年

3 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年

4 杨方蓉;Web信息内容变化检测技术研究与实现[D];西南交通大学;2011年

5 刘欣宇;基于主题策略的Web信息监测系统研究与实现[D];重庆大学;2011年

6 高洁璇;Web管理信息系统性能优化研究[D];华中科技大学;2011年

7 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年

8 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年

9 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年

10 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年

【二级参考文献】

相关期刊论文 前2条

1 贾福林,王国仁,于戈;基于DOM的XML数据库的索引技术研究[J];计算机研究与发展;2004年01期

2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

【相似文献】

相关期刊论文 前10条

1 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期

2 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

3 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期

4 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期

5 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期

6 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期

7 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

8 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期

9 陈丽君;;深层网网络爬虫表单检测器设计[J];科技资讯;2009年16期

10 石柯;周利兵;陶文兵;;基于移动代理的MAISE爬虫的设计与实现[J];华中科技大学学报(自然科学版);2005年S1期

相关会议论文 前9条

1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

2 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

3 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 刘祥涛;龚才春;曾依灵;白硕;鲍旭华;;Kad网络节点共享资源探测分析[A];第五届全国信息检索学术会议论文集[C];2009年

5 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年

6 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

7 范渊;;Web应用风险扫描的研究与应用[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

8 夏冰;高军;王腾蛟;杨冬青;;一种高效的动态脚本网站有效页面获取方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

9 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

相关重要报纸文章 前1条

1 伍裕标;网络监控STOP![N];中国电脑教育报;2003年

相关博士学位论文 前1条

1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

相关硕士学位论文 前10条

1 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年

2 乔峰;基于模板化网络爬虫技术的Web网页信息抽取[D];电子科技大学;2012年

3 田董涛;微博客数据的获取与分析方法研究[D];北京交通大学;2012年

4 杨超;基于网格的大规模网页采集技术研究[D];哈尔滨工业大学;2007年

5 刘哲;基于广域网的分布式网页信息获取系统的研究与实现[D];吉林大学;2008年

6 沈寿忠;基于网络爬虫的SQL注入与XSS漏洞挖掘[D];西安电子科技大学;2009年

7 耿乐群;基于主动搜索的论坛内容监管技术研究[D];哈尔滨工程大学;2011年

8 张睿涵;基于RSS的聚焦网络爬虫在高校网站群中的研究[D];南昌大学;2012年

9 王建超;一体化网络分布式主动注册系统的设计与实现[D];北京交通大学;2008年

10 彭寒;Web应用安全漏洞测试工具Punks的设计与实现[D];西安电子科技大学;2007年



本文编号:1748352

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1748352.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eb67f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com