基于WEB信息采集的分布式网络爬虫搜索引擎的研究
本文关键词:基于WEB信息采集的分布式网络爬虫搜索引擎的研究,由笔耕文化传播整理发布。
《吉林大学》 2009年
基于WEB信息采集的分布式网络爬虫搜索引擎的研究
李春生
【摘要】: 随着网络技术的发展,Web上的信息海量增加,人们对信息的需求也不断加大,使得专门负责Web信息采集的网络爬虫技术面临着巨大的挑战。单机的网络爬虫在很多情况下已经难当重任,分布式网络爬虫以其单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息面向用户的需求。 分布式系统研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计并描述了一个分布式网络爬虫的结构,其中包括硬件的构架和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。 然后本文描述了分布式系统的关键技术的解决方法。系统采用了二级哈希映射算法使分布式系统能高效的进行任务分割,使用消息通信使节点协同工作,用非阻塞套接字在节点间传递URL。最终实现了一个具备健壮性、可扩展性、可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。
【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库 前7条
1 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
2 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年
3 钟啟莹;分布式网络信息采集系统的设计与实现[D];华南理工大学;2011年
4 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年
5 周岳;基于兴趣分类的用户行为分析系统的研究与设计[D];北京邮电大学;2010年
6 史鹏龙;军网舆情监测与信息处理平台的开发研究[D];兰州大学;2012年
7 高龙;搜索引擎中通用爬虫系统的研究与设计[D];吉林大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
2 张岭,叶允明,宋晖,于水,马范援;一种高性能分布式Web Crawler的设计与实现[J];上海交通大学学报;2004年01期
3 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
【共引文献】
中国期刊全文数据库 前10条
1 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
2 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期
3 马晓娟;;网络爬虫在搜索引擎应用中的问题及对策[J];赤峰学院学报(自然科学版);2013年20期
4 孟祥乾;叶允明;邓斌;;基于流水线负载平衡模型的并行爬虫研究[J];计算机工程;2009年02期
5 付东来;李元;;Web多媒体数据实时索引的设计与实现[J];计算机与数字工程;2006年03期
6 赵新慧;搜索引擎中基于Bayes分类的网页更新研究[J];交通与计算机;2005年05期
7 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期
8 王沐心;;门户网站保密检查系统[J];计算机与现代化;2013年10期
9 程艳艳;;基于网络数据包捕获及分析的公共安全预警技术研究[J];信息通信;2014年02期
10 郝孟涛;黄川;刘金刚;;检索调研环境自适应抓取算法的研究与实现[J];科学技术与工程;2014年01期
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 蒋敬田;基于用户浏览行为的深度网络挖掘[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 靳凯;Web安全检测平台关键技术研究与应用[D];北京邮电大学;2011年
2 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
3 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年
4 李明铭;基于网络信息提取和网络空间服务的二手房产价格指数编制研究[D];南京师范大学;2011年
5 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年
6 孙守兴;基于可扩展哈希算法的并行爬虫动态负载均衡实现[D];哈尔滨工业大学;2010年
7 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年
8 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
9 张娜;基于机器学习的主题Web挖掘技术[D];山东师范大学;2007年
10 蔡建超;基于DRIS理论的新型网络搜索引擎设计[D];华中科技大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 严华云;关佶红;;Bloom Filter研究进展[J];电信科学;2010年02期
2 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
3 魏应彬,王娟;用JDOM处理XML文档[J];福建电脑;2004年10期
4 李金秀;我国网络信息用户基本情况调查[J];广东行政学院学报;2005年04期
5 魏晓玲;;MD5加密算法的研究及应用[J];信息技术;2010年07期
6 黄喜民;分布式结构与多层应用[J];河南科技;2002年21期
7 白牧川;;军网的舆情监测和舆论引导[J];军队政工理论研究;2006年06期
8 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
9 孙国忠;袁清波;陈明宇;樊建平;;用于二级缓存的一种改进的自适应缓存管理算法[J];计算机研究与发展;2007年08期
10 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期
中国博士学位论文全文数据库 前4条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
4 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
3 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
4 殷风景;面向网络舆情监控的热点话题发现技术研究[D];国防科学技术大学;2010年
5 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
6 李志军;分布式结构与组件技术的应用研究[D];南京理工大学;2004年
7 刘强;WEB服务及XML安全[D];四川大学;2005年
8 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
9 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
10 耿瑞峰;Web服务在搜索引擎中的应用研究[D];江南大学;2006年
【二级引证文献】
中国期刊全文数据库 前2条
1 夏华林;张仰森;;基于规则与统计的Web突发事件新闻多层次分类[J];计算机应用;2012年02期
2 郭小清;任守纲;谢忠红;;驱动级本地用户行为监控系统的研究与实现[J];现代图书情报技术;2012年10期
中国硕士学位论文全文数据库 前4条
1 徐娟秀;基于HTTP协议的大容量数据高速采集与分析系统的设计与实现[D];北京邮电大学;2012年
2 杜杰;基于校园网海量访问日志的用户行为分析[D];大连海事大学;2012年
3 唐勇;互联网舆情监控系统的设计与实现[D];北京邮电大学;2013年
4 徐雄威;基于本体的上下文感知“科技论文在线”用户行为推理研究[D];武汉理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 马瑜;王有刚;;ID3算法应用研究[J];信息技术;2006年12期
2 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
3 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期
4 刘畅,张辉;一种应用于搜索引擎的索引结构研究[J];计算机与数字工程;2005年09期
5 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期
6 蒋宗礼;赵钦;肖华;王蕊;;高性能并行爬行器[J];计算机工程与设计;2006年24期
7 娄卓男,吴志强;近几年国外隐蔽网络研究概述[J];图书情报工作;2004年01期
8 谭思亮;;一种新的主题爬行算法[J];微计算机信息;2007年06期
9 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
10 谢建国;;一个小型搜索引擎的系统设计[J];漳州职业技术学院学报;2007年04期
【相似文献】
中国期刊全文数据库 前10条
1 李亮;张安;吴天俣;;分布式网络环境下雷达网的网络性能分析[J];火力与指挥控制;2010年01期
2 ;API加强访问策略[J];每周电脑报;1999年11期
3 ;远程保卫分布式网络[J];每周电脑报;2003年29期
4 陈东;嵌入式系统中MCS-51复杂通讯模式研究[J];武汉职业技术学院学报;2005年05期
5 温晓军;刘云;;分布式量子通信网络中的身份认证方案[J];铁道学报;2005年06期
6 蔡思文;祁耀斌;崔汉民;;大型钢厂能源调度信息系统的研究[J];武汉理工大学学报(信息与管理工程版);2007年02期
7 卢峰;刘蓉;;基于委任的分布式网络管理研究与实现[J];电子科技;2007年07期
8 朱晓姝;;语义分布式网络技术初探[J];玉林师范学院学报(自然科学版);2007年03期
9 邵鹏飞;C.Bruce-Boye;梁丰;;基于软总线LabMap的松耦合分布式控制系统研究[J];计算机测量与控制;2007年11期
10 李伟;罗长远;初晓;;分布式网络中基于IDPKC的私钥更新方案[J];计算机应用;2009年07期
中国重要会议论文全文数据库 前10条
1 叶新铭;王斌;;基于Web的分布式网络设备监视系统的设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 孙耀杰;刘木清;周小丽;韩磊;;基于网络的数字化道路照明控制技术[A];中国长三角照明科技论坛论文集[C];2006年
3 王海滨;阮秋琦;;立体显示与视觉跟踪方法的集成在虚拟现实系统中的应用研究[A];1999年中国智能自动化学术会议论文集(下册)[C];1999年
4 吴国凤;曾标;;Web Services在环保监控系统中的应用[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
5 王海滨;阮秋琦;;PC机虚拟现实系统应用研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
6 陈志强;张丽;高文焕;康克军;;应用于集装箱检查系统的互逆式客户/服务器处理技术[A];第十届全国核电子学与核探测技术学术年会论文集[C];2000年
7 张坚平;曹敏;陈仲华;沈成彬;;从世博官网IPv6接入看CP/SP的IPv6迁移[A];下一代互联网与应用研讨会论文集[C];2011年
8 李广峰;;基于LXI总线的分布式网络自动测试系统设计[A];2009安捷伦科技节论文集[C];2009年
9 吴冬平;刘冰;陈鼎智;;工业通信网络的技术应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
10 ;现代网络测量系统[A];2001年电子测量新技术报告会论文集[C];2001年
中国重要报纸全文数据库 前10条
1 沈建苗 译;[N];网络世界;2002年
2 ;[N];中国计算机报;2003年
3 ;[N];中国计算机报;2002年
4 ;[N];网络世界;2002年
5 刘菁瑾;[N];中国计算机报;2002年
6 王雅慧;[N];中国计算机报;2002年
7 ;[N];中国计算机报;2007年
8 ;[N];计算机世界;2004年
9 张默;[N];中国高新技术产业导报;2006年
10 ;[N];网络世界;2003年
中国博士学位论文全文数据库 前10条
1 何明星;面向群的分布式网络密钥管理[D];西南交通大学;2003年
2 弭伟;基于DHT的分布式网络中负载均衡机制及其安全性的研究[D];北京邮电大学;2012年
3 黄晶;基于多Agent分布式约束优化问题求解方法研究[D];吉林大学;2008年
4 路峰;信任评估模型及其方法研究[D];南京理工大学;2009年
5 郭楠;分布式网络自管理模型及相关问题研究[D];东北大学;2005年
6 邓子健;WiiSE网络应用安全技术研究[D];西南交通大学;2009年
7 任远扬;智能化建筑及相关软件技术研究——移动分布式网络中的中间件研究[D];西北工业大学;2003年
8 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年
9 林辉;多用户分布式网络MIMO技术的研究[D];北京邮电大学;2011年
10 李晓帆;认知无线电与协同网络的资源优化策略[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 陆琼;分布式网络专用地理信息系统的设计与实现[D];长安大学;2005年
2 彭法銮;基于JXTA的P2P应用研究[D];武汉理工大学;2006年
3 文自勇;分布式网络监听系统研究与实现[D];西南交通大学;2005年
4 刘艳;分布式网络并行系统在舰载指控系统中的应用研究[D];哈尔滨工程大学;2003年
5 金玉珍;基于分布式网络的液压系统仿真软件研究[D];浙江大学;2005年
6 郭慧;分布式网络环境中访问控制模型的设计与实现[D];燕山大学;2006年
7 张娜;分布式网络安全审计系统[D];华东师范大学;2009年
8 侯哲威;基于J2EE的分布式网络地理信息服务探索[D];中国人民解放军信息工程大学;2005年
9 鲁梦;分布式网络安全审计系统研究与实现[D];贵州大学;2006年
10 王寻;分布式网络中压缩感知的应用研究[D];北京邮电大学;2011年
本文关键词:基于WEB信息采集的分布式网络爬虫搜索引擎的研究,由笔耕文化传播整理发布。
,本文编号:79051
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/79051.html