基于分布式网络爬虫的Web空间数据获取与管理方法研究
本文关键词:基于分布式网络爬虫的Web空间数据获取与管理方法研究
更多相关文章: Web空间数据 分布式网络爬虫 模板映射 MongoDB 原型系统
【摘要】:GIS是一门以数据为基础的学科,空间分析、空间统计和空间数据挖掘等研究都离不开空间数据的支撑,而互联网中存在着海量的空间数据,这些数据与人们的日常生活活动密切相关并且包含的信息量十分丰富、现势性极强。如果能够对互联网中广泛存在的空间数据进行高效地获取、解析与管理,一方面不仅可以补充基础地理信息的不足,提供丰富的细节和准实时更新,另一方面还能够为GIS空间分析和空间数据挖掘提供更为丰富和实时的数据源。Web空间数据获取与管理首先需要对多源异构Web空间数据进行获取,然后需要对获取到的数据进行细粒度的解析,从中提取出感兴趣的位置和属性信息。进一步的,还需要解决多源异构Web空间数据的存储与管理问题。因此,本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上受到限制,难以保证抓取数据的及时性和全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法。针对不同来源Web空间数据结构内容不同,周期性更新、解析困难的问题,研究了基于模板映射的Web空间数据解析方法。针对关系型数据库管理系统处理多源异构Web空间数据困难的问题,研究了基于非关系型数据库MongoDB的Web空间数据管理方法。最后基于上述方法,研发了Web空间数据获取原型系统,实现了Web空间数据的高效获取、解析与管理,通过对原型系统进行测试证实了本文所述方法的有效性并对系统进行了实例应用。通过以上的研究工作,得出如下结论:(1)基于分布式网络爬虫的Web空间数据获取方法能够提高Web空间数据获取效率。本文设计和实现的Web空间数据获取原型系统能够稳定运行,系统具有良好的扩展性,系统各个节点之间能够实现负载均衡。(2)基于模板映射的Web空间数据解析方法能够实现多源异构Web空间数据的自动化、高准确度解析。在解析准确率方面,基于模板映射的解析方法与传统的正则表达式解析法相当。在解析召回率方面,基于模板映射的解析方法优于传统正则表达式解析法。(3)基于MongoDB的Web空间数据存储与管理方法能够实现多源异构Web空间数据的对象化存储,降低了Web空间数据存储与管理的复杂度,增强了Web空间数据存储的灵活度和自动化程度。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:P208
【相似文献】
中国期刊全文数据库 前9条
1 王立富;叶韬;;城市空间数据获取途径[J];科技与企业;2012年20期
2 肖学年,崔灵周,王春,李占斌;模拟流域地貌发育过程的空间数据获取与分析[J];地理科学;2004年04期
3 马洁;;GIS空间数据获取技术在自来水管线建设中的应用[J];硅谷;2010年23期
4 陈佳洪;;GIS空间数据获取技术在自来水管线建设中的应用[J];科技创新与应用;2014年07期
5 王敏;;浅谈自来水管线建设中GIS空间数据获取技术的应用[J];科技风;2011年14期
6 孙杭;孙芳;;浅谈可视化3维GIS[J];测绘与空间地理信息;2009年04期
7 秦志远;利用遥感影像辅助GIS空间数据获取与更新的研究及实践[J];测绘学报;1999年02期
8 范艳芳,王霓虹,周洪泽;基于专题图的GIS空间数据获取方法的研究[J];林业勘查设计;2004年04期
9 ;[J];;年期
中国重要报纸全文数据库 前1条
1 杨浩莹 靳哲明;国家西部3S空间信息产业化基地在西安奠基[N];中国测绘报;2009年
中国硕士学位论文全文数据库 前2条
1 曾李阳;基于分布式网络爬虫的Web空间数据获取与管理方法研究[D];西南交通大学;2016年
2 余海滨;VR-GIS系统集成关键技术研究[D];华中科技大学;2008年
,本文编号:1196812
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1196812.html