基于网络爬虫技术的多源下载系统的设计与实现
本文选题:网络爬虫 + HTTP ; 参考:《北京邮电大学》2011年硕士论文
【摘要】:随着互联网的普及应用以及人们生活水平的提高,越来越多的人们喜欢从互联网上下载资源。现在人们下载资源都需要经过复杂的步骤,不仅效率低下,而且现在的下载工具充斥着大量的广告,如果操作不当,则有可能使用户的电脑陷入死机或者中毒的状态。 本文针对上述问题,设计并实现了一款轻巧易用的小型软件。该软件集搜索,存储展示和下载于一体,不仅能够提供大量可下载的URL,而且能够提高下载速率。 本文首先介绍了网络爬虫技术和超文本传输协议HTTP,并在传统网络爬虫的基础上进行了扩展。传统的网络爬虫技术只能抓取静态的URL,而对大量深藏在深网络中的动态的URL没有抓取,从而损失了很多更有价值的URL。这样导致了下载效率较低,而且不能够提供足够的URL以供多源下载。 本文通过执行JavaScript脚本来解析出深层网络中的动态的URL。执行JavaScript脚本采用的Rhino解析引擎,但是Rhino解析引擎存在两个弊端:一是Rhino无法模拟浏览器内置对象;二是无法解析这些内置对象动态添加的属性和方法。本文对这两个弊端进行了改进,通过添加对DOM操作的支持,使Rhino可以模拟浏览器内置对象。通过修改在浏览器内置对象中的查找方式,使Rhino可以解析浏览器内置对象动态添加的属性和方法。改进之后的Rhino能够解析出更多的URL。 本文的存储和展示模块,主要对可下载的URL进行了分组存储和展示,分组有一定的规则,只有相同的文件类型和文件大小的URL才在一组展示,在展示模块采用定时刷新机制。 本文的下载模块采用的是多源下载的技术。首先从存储和展示模块中得到经过分组的URL,用户点击下载区域之后,对用户选择的URL分组进行精确的判断,只有真正指向同一个文件下载源的URL才作为多源下载的源地址。判断方式是使用从这些URL中下载相同位置的片段,计算这些片段的MD5值,MD5值相同的URL地址才作为源地址
[Abstract]:With the popularity of the Internet and the improvement of people's living standards, more and more people like to download resources from the Internet. Now people download resources through complex steps, not only inefficient, but also the download tools are filled with a lot of ads, if not used properly, This paper designs and implements a small software which is light and easy to use in view of the above problems. The software integrates search, storage, display and download. It can not only provide a large number of downloadable URLs, but also improve the download rate. Firstly, this paper introduces the web crawler technology and the hypertext transfer protocol HTTP, and extends on the basis of the traditional web crawler. Traditional network crawler technology can only capture static URLs, but not a large number of dynamic URLs hidden deep in the deep network, thus losing a lot of more valuable URLLs. This leads to low download efficiency and the inability to provide sufficient URLs for multiple downloads. This article parses the dynamic URLLs in the deep network by executing JavaScript scripts. The Rhino parsing engine used to execute JavaScript scripts has two disadvantages: one is that Rhino cannot simulate browser built-in objects; the other is that Rhino cannot parse the properties and methods dynamically added by these built-in objects. By adding support for Dom manipulation, Rhino can simulate browser built-in objects. By modifying the lookup method in the browser's built-in objects, Rhino can parse the properties and methods dynamically added by the browser's built-in objects. The improved Rhino can parse more URL.The storage and display modules of this article mainly store and display the downloadable URLs in groups, the grouping has certain rules, only the same file types and file size URLs can be displayed in a group. In the display module the timing refresh mechanism is adopted. The download module of this paper adopts the technology of multi-source download. After the user clicks on the download area, the URL group selected by the user is accurately judged. Only the URL that really points to the same file download source can be used as the source address of the multi-source download. It is judged by downloading fragments in the same location from these URLs and calculating the MD5 values of these fragments and the URL addresses with the same MD5 values as the source addresses
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
2 程菲;汪建海;罗键;;增量更新Crawler进行Web收集方法研究[J];计算机工程与科学;2006年12期
3 朱学芳;韩占校;;一种图像主题网络爬虫的实现方法研究[J];南京师范大学学报(工程技术版);2008年04期
4 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
5 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
6 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
7 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
8 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
9 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
10 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
相关会议论文 前10条
1 张伦;祝建华;;Maze网络中个体知识分享行为的演变[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
2 朱磊;;迅雷流量的主动识别[A];江苏省电子学会2010年学术年会论文集[C];2010年
3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
5 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
10 宋辉;方宗达;;一款智能机器人控制板的软件设计[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
相关重要报纸文章 前10条
1 本报记者 贺洁;192万美元罚单震慑非法下载[N];中国计算机报;2009年
2 ;美研究生非法下载30首歌 遭天价罚款67.5万美元[N];网络世界;2009年
3 ;乐迷愿为下载付费[N];新华每日电讯;2010年
4 本报记者 王哲玮;飞流九天:做最精准的移动下载[N];计算机世界;2011年
5 苗子墨;迅雷离线下载的诱惑[N];电脑报;2010年
6 本报记者 王雨檬 编译;英国今年非法下载歌曲超12亿首[N];中国文化报;2010年
7 专栏 陈佼 资深互联网分析人士;今天你“被下载”了吗[N];电脑报;2010年
8 本报记者 胡静;电纸书下载费用高[N];消费日报;2011年
9 李敬;整治BT 治标更要治本[N];计算机世界;2009年
10 南方日报记者 周志坤 杨春 实习生 程陟;上传的是民意 下载的是民主 撬动的是民智[N];南方日报;2011年
相关博士学位论文 前10条
1 黄昆;高性能内容过滤与分发技术研究[D];湖南大学;2009年
2 钟海峰;层次p2p存储系统关键技术研究[D];华中科技大学;2011年
3 吕晓鹏;P2P技术在IPv4/IPv6混合网中应用的关键问题研究[D];北京邮电大学;2011年
4 王文艺;一种具有服务质量保证的个性化P2P IPTV系统研究[D];浙江大学;2010年
5 王驰;对等网络传输控制及激励机制研究[D];北京邮电大学;2010年
6 李军;大规模数字内容网络分发关键技术研究[D];北京邮电大学;2009年
7 郭东;P2P网络的动力学建模与算法研究[D];中国科学技术大学;2011年
8 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
9 李致远;移动对等网络安全若干关键技术研究[D];南京邮电大学;2011年
10 孟和;无线内容下载平台中事件流处理应用研究[D];天津大学;2009年
相关硕士学位论文 前10条
1 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
2 祝建军;视频下载方法及分布式视频抓取系统的设计与实现[D];华南理工大学;2012年
3 费帆;下载及其行为研究[D];上海师范大学;2011年
4 曾智勇;基于边缘缓存的下载加速方案设计与实现[D];中南大学;2010年
5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
6 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
7 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
8 裘杰;下载客户端安全性评价研究[D];哈尔滨工业大学;2011年
9 贾艳艳;基于被动测量的迅雷体系结构及下载策略研究[D];云南大学;2012年
10 周磊;基于多核环境的并行下载系统研究开发[D];西安理工大学;2010年
,本文编号:1998164
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1998164.html