基于切片的Web资源爬虫的设计与优化研究
本文关键词:基于切片的Web资源爬虫的设计与优化研究,,由笔耕文化传播整理发布。
【摘要】:在手机等移动设备越来越普遍的现在,移动学习在渐渐成为我们学习的重要方法之一。移动学习资源的质量以及数量是至关重要的,在丰富的互联网大背景之下,我们可以借助于网络爬虫从网络中抓取丰富的学习资源,对之加以改造,可以加工成适合于移动学习的学习资源。由于移动学习时间的片段性和即时性、地点的不确定性、等特点,在使用网络爬虫从网络中抓取资源的时候,要尽可能多的抓取图片、视频、音频、Flash等多媒体资源,同时也要保证资源跟学习主题的相关性。在我们已有的基础教育平台中的网络爬虫可以实现基本的数据的抓取,要实现针对于移动学习资源的抓取还需要对爬虫进行进一步改造。本文中主要对爬虫进行了以下的改进:1.对移动学习所需资源进行分析,确定了在爬虫中需要采集的资源类型以及这些资源在网页中的表现形式;2.对标准的网页DOM树结构进行扩展,并根据链接在网页中语义上聚集成块的特点,对网页中的链接在扩展的DOM树的基础之上进行分块,并根据噪音链接的特点对其进行过滤,并抽取相关的链接;3.对网页中经过上述过滤后的相关链接从源码表现、页面表现、指向内容类型三个维度对链接进行分类,将链接分为普通链接和多媒体链接两大类,并根据这两大类链接的不同特点分析其相关文本所处的位置,设计不同的策略从链接所处页面内部扩展DOM树结构以及页面和其他页面之间的相关链接关系两方面抽取链接的相关文本。
【关键词】:扩展DOM树 链接分类 链接过滤 链接相关文本抽取
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;G434
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-12
- 1.1 研究背景与意义7-9
- 1.2 主题爬虫相关研究9
- 1.3 研究内容与目标9-10
- 1.3.1 研究目标10
- 1.3.2 研究内容10
- 1.4 本文内容结构10-12
- 第二章 网页资源抽取算法概述12-18
- 2.1 网页分块技术12-15
- 2.1.1 基于网页标签分布规律的网页分块12
- 2.1.2 基于网页DOM树结构的网页分块12-14
- 2.1.3 基于视觉特征的页面分块算法14-15
- 2.2 网页链接抽取算法15-16
- 2.2.1 基于网页分块的链接抽取算法15
- 2.2.2 基于链接属性的链接抽取算法15-16
- 2.3 网页链接的相关文本抽取算法16-17
- 2.4 基于扩展DOM树与页面间联系的链接及链接相关文本抽取算法17-18
- 第三章 基于扩展DOM树的网页链接抽取18-32
- 3.1 爬虫抓取对象的选择18-20
- 3.2 相关链接以及噪音链接的确定20-21
- 3.3 基于链接的网页分块21-28
- 3.3.0 网页预处理工具选择21-23
- 3.3.1 网页预处理23-24
- 3.3.2 扩展DOM树24-28
- 3.4 基于链接特点的噪音链接过滤28-31
- 3.4.1 基于DOM结构的链接分块28-29
- 3.4.2 基于分块和链接特点的链接过滤29-31
- 3.5 本章小结31-32
- 第四章 基于扩展DOM树与网页外部联系的链接相关文本抽取32-42
- 4.1 基于三个维度的网页链接分析32-34
- 4.2 链接相关文本分析34-39
- 4.2.1 过往研究中链接相关文本分析34-36
- 4.2.2 基于链接类型的链接相关文本分析36-39
- 4.3 抽取链接相关文本算法39-41
- 4.4 本章小结41-42
- 第五章 实验验证42-47
- 5.1 实验方案设计42-44
- 5.1.1 Web资源抽取算法流程42-43
- 5.1.2 实验数据准备43-44
- 5.1.3 实验方案设计44
- 5.2 噪音过滤算法的结果与分析44-45
- 5.2.1 实验结果与分析44-45
- 5.2.2 待改进之处45
- 5.3 链接相关文本抽取算法的结果与分析45-46
- 5.3.1 实验结果与分析45-46
- 5.3.2 待改进之处46
- 5.4 本章小结46-47
- 第六章 总结与展望47-48
- 6.1 研究工作总结47
- 6.2 研究展望47-48
- 参考文献48-50
- 致谢50
【相似文献】
中国期刊全文数据库 前10条
1 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
2 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
3 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
4 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
5 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
6 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
7 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
8 魏娜;;浅谈网页艺术设计[J];新课程研究(职业教育);2007年09期
9 方园;;浅析艺术设计在网页中的运用[J];湖北经济学院学报(人文社会科学版);2007年02期
10 赵锋;;《计算机网页设计》课程分析[J];淮北职业技术学院学报;2007年03期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张W
本文编号:378114
本文链接:https://www.wllwen.com/jiaoyulunwen/xuekejiaoyulunwen/378114.html