基于MD5去重树的网络爬虫的设计与优化
本文关键词:基于MD5去重树的网络爬虫的设计与优化 出处:《计算机应用与软件》2015年02期 论文类型:期刊论文
【摘要】:随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存DNS并将DNS解析的效率相对于普通不做DNS优化的爬虫提高了2.5~3倍。再将MD5加密算法以及树相结合设计出一种基于MD5的url去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于O(1)。最终通过实验证明了该设计的数据结构较为良好。
【作者单位】: 徐州工程学院信电工程学院;徐州海外科技人才创业基地;
【基金】:徐州市科技计划项目(XF12C048)
【分类号】:TP391.3;TP393.092
【正文快照】: 0引言如今信息化时代,互联网发展的速度越来越快。互联网上的网页数量数以万亿计[1],如何有效且快速地检索这些网站上的信息,成为了一大难题,因此搜索引擎随之诞生了。而网络爬虫,也称蜘蛛程序,网络机器人是搜索引擎的心脏,它常年爬行在各大网站上采集数据,为搜索引擎提供了数
【参考文献】
中国期刊全文数据库 前5条
1 骆斌,费翔林;多线程技术的研究与应用[J];计算机研究与发展;2000年04期
2 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期
3 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
4 廖海生;赵跃龙;;基于MD5算法的重复数据删除技术的研究与改进[J];计算机测量与控制;2010年03期
5 高克宁;柴桥子;张斌;马安香;;支持Web信息分类的高性能蜘蛛程序[J];小型微型计算机系统;2006年07期
【共引文献】
中国期刊全文数据库 前10条
1 雷超阳,刘军华,徐正权;基于COM+组件运行时线程模式探讨及应用[J];湖南文理学院学报(自然科学版);2004年04期
2 胡新海;;云存储数据缩减技术研究[J];长春工程学院学报(自然科学版);2012年02期
3 刘婷婷;赵志伟;李战伟;闫启亮;;全自动晶圆划片机软件系统的设计与实现[J];电子工业专用设备;2012年06期
4 陆培军;Delphi中多线程技术的应用[J];电脑学习;2003年03期
5 李晔;姚全珠;王战敏;;基于LabWindows/CVI的多线程实时监控系统的研究与开发[J];电脑与信息技术;2008年06期
6 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
7 关守平 ,鲍芳;IC/晶圆划片机软件系统的开发[J];电子与电脑;2005年10期
8 任晓军;周煜;奚文骏;;基于LabWindows/CVI的多线程测控软件设计技术[J];电子工程师;2006年01期
9 刘晓光,曲金鹏,凌志浩;基于LabWindows/CVI的多线程通信技术[J];仪器仪表用户;2004年03期
10 吴丹;傅秀芬;苏磊;林乔捷;;多线程编程模型的研究与应用[J];广东工业大学学报;2008年01期
中国重要会议论文全文数据库 前6条
1 何玉琳;骆斌;陈世福;;面向对象的联机分析处理技术O3LAP及其应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 张延成;骆斌;陈世福;;基于数据仓库的司法决策支持系统的设计与实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 肖静静;李双峰;彭智勇;;用多线程方式优化PostgreSQL的查询处理[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 陈诚;李光亚;童庆;;增量爬取技术的策略框架设计[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
5 吴朋朋;黄玮;杨璐皓;;移动终端通讯录数据同步去重算法[A];2013年中国信息通信研究新进展论文集[C];2014年
6 胡宁玉;杜秀丽;刘焱;卢刚;王运明;;基于快速消冗方法的增量备份策略研究[A];2014第二届中国指挥控制大会论文集(上)[C];2014年
中国博士学位论文全文数据库 前9条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
2 孟玲;铝电解槽热场仿真与槽壳温度在线检测系统研究[D];山东大学;2011年
3 潘铁军;虚拟企业过程集成中几个关键问题的研究[D];浙江大学;2001年
4 王田;移动智能网的过负荷控制机制研究[D];重庆大学;2002年
5 庞文尧;基于C/S模式的远程控制系统研究开发[D];浙江大学;2003年
6 隋振;多点成形中的快速调形与成形过程自动化研究[D];吉林大学;2004年
7 孙红梅;分布式虚拟场景实时绘制技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
8 李伟;结构化P2P网络Churn问题研究[D];武汉大学;2012年
9 宋筱轩;动态数据驱动的河流突发性水污染事故预警系统关键技术研究[D];浙江大学;2014年
中国硕士学位论文全文数据库 前10条
1 李秀芳;基于多核的多线程算法并行优化[D];郑州大学;2010年
2 高波;基于PC的音乐喷泉控制系统的设计[D];大连理工大学;2010年
3 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
4 刘娟容;实时PCR仪荧光信号监测系统的研究[D];浙江大学;2011年
5 王兴启;多核处理器的有锁编程与非阻塞算法研究[D];中原工学院;2011年
6 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
7 陈颖;新一代移动产品体系规划和融合计费的实现[D];西安电子科技大学;2008年
8 刘军;基于云计算的网络数据容灾关键技术的研究[D];华中师范大学;2011年
9 于鹏;CDMA2000核心网性能测试工具的设计与实现[D];南京理工大学;2011年
10 张巧;基于1553B的载机火控模拟系统的设计与实现[D];南京理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 刘俊辉;;MD5消息摘要算法实现及改进[J];福建电脑;2007年04期
3 杨天奇;周晔;;一种增量式并行Web信息采集方法[J];计算机工程;2006年20期
4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
5 黄豪佑;董辉;卢建刚;;历史数据压缩算法在DSP上的实现[J];计算机测量与控制;2006年12期
6 苗长芬,冯伟华;面向主题Crawler的设计与实现[J];平原大学学报;2005年03期
7 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
8 蒋宗礼;赵钦;肖华;王蕊;;高性能并行爬行器[J];计算机工程与设计;2006年24期
中国硕士学位论文全文数据库 前3条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
3 朱玉丽;基于网格技术的主题爬虫算法优化的研究与实现[D];沈阳工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
9 杨松梅;;网络爬虫[J];硅谷;2009年15期
10 张红云;刘炜;熊前兴;;一种基于语义本体的网络爬虫模型[J];计算机应用与软件;2009年11期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
5 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
8 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
9 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
10 杜一平;主题搜索网络爬虫的设计与研究[D];中国科学技术大学;2009年
,本文编号:1313186
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1313186.html