当前位置:主页 > 科技论文 > 软件论文 >

空间数据网络爬取方法研究

发布时间:2021-03-21 05:59
  随着互联网的发展,互联网平台空间数据呈爆炸式增长,从矢量到栅格数据,再到时空数据,网络空间数据背后隐藏着实用信息,是空间大数据时代数据重要来源,因此空间数据的网络获取是关键环节之一。空间数据一般存储于网络服务器端的数据库中,前端采用网页技术展现其空间形态,论文通过解析网页结构,高效、可靠的从后台数据库中爬取空间数据。论文主要实现矢量和栅格两大类数据爬取,矢量数据选取POI数据和交通态势数据,栅格数据选取影像数据。主要运用四种方法实现,通过模拟搜索法实现城市范围POI数据爬取,通过圆形剖分实现圆形区域POI数据爬取,方格剖分实现矩形区域POI数据和交通态势数据爬取,模拟登录实现影像数据爬取。为确保空间数据爬取顺利,论文运用代理IP、伪装浏览器、防盗图片链接以及降低访问频率方式实现空间数据的反爬措施。论文通过多进程与多线程提高空间数据爬取的效率,通过编程手段和数据库操作在数据爬取以及入库过程中完成数据清洗和数据去重。通过实验论证分析,运用四种方法可以实现城市范围、矩形区域、圆形区域POI数据爬取,矩形区域交通态势数据爬取以及指定类型影像数据爬取。并运用多进程使得空间数据爬取效率提高三倍。通... 

【文章来源】:重庆交通大学重庆市

【文章页数】:106 页

【学位级别】:硕士

【部分图文】:

空间数据网络爬取方法研究


隐藏参数以及验证码抓包结果

比例,方格,剖分,矩形区域


第三章空间数据网路爬取方法与策略23(a)小比例尺POI点数(b)大比例尺POI点数图3-6不同比例尺下POI点数通过调用API的方式获取POI数据,每次最大只能获取400条数据,如果扩大爬取范围,如图3-7所示,边长为0.1°的矩形区域,一次仍然只能够爬取400条数据。为获得该区域完整数据,需要将该区域剖分成多个无缝衔接的小正方形。图3-7矩形检索区域为确保每一类数据的完整性,在剖分过程中每一个方格的边长不能大于0.02°,因为在边长为0.02°的正方形内,每一类数据不会超过400条,因此方格剖分法就是将矩形区域剖分为0.02°×0.02°的方格网,如图3-8所示,最后提取每一个方格的左下角坐标和右上角坐标,形成一个个由坐标对组成的小矩形区域。图3-8方格网

过程图,方格,剖分,类数


第三章空间数据网路爬取方法与策略23(a)小比例尺POI点数(b)大比例尺POI点数图3-6不同比例尺下POI点数通过调用API的方式获取POI数据,每次最大只能获取400条数据,如果扩大爬取范围,如图3-7所示,边长为0.1°的矩形区域,一次仍然只能够爬取400条数据。为获得该区域完整数据,需要将该区域剖分成多个无缝衔接的小正方形。图3-7矩形检索区域为确保每一类数据的完整性,在剖分过程中每一个方格的边长不能大于0.02°,因为在边长为0.02°的正方形内,每一类数据不会超过400条,因此方格剖分法就是将矩形区域剖分为0.02°×0.02°的方格网,如图3-8所示,最后提取每一个方格的左下角坐标和右上角坐标,形成一个个由坐标对组成的小矩形区域。图3-8方格网

【参考文献】:
期刊论文
[1]基于python的聚焦网络爬虫数据采集系统设计与实现[J]. 杨国志,江业峰.  科学技术创新. 2018(27)
[2]大数据视角下的路口交通数据采集研究[J]. 胡正.  企业技术开发. 2018(07)
[3]Python爬虫获取网络图片[J]. 夏天琦.  电子世界. 2018(10)
[4]基于网络爬虫技术对电子商务多肉物种资源数据的研究[J]. 薛华杰,张宁,傅怡宁,徐飞,王书平,徐思越,印丽萍.  生物安全学报. 2017(04)
[5]基于模拟登录数据抓取与解析技术的WEB应用系统集成方式研究[J]. 韦智勇.  北京印刷学院学报. 2017(04)
[6]基于GIS主题爬虫的在线房产估价系统与优化[J]. 董浩然,谢欢,陈鹏,洪中华,童小华.  地理信息世界. 2016(02)
[7]基于网络爬虫的地理空间信息采集方法[J]. 巩保胜,魏春苗.  甘肃科技. 2016(07)
[8]Python模拟登录网站并抓取网页的方法[J]. 刘艳平,俞海英,戎沁.  微型电脑应用. 2015(02)
[9]一种基于模拟登录的微博数据采集方案[J]. 孙青云,王俊峰,赵宗渠,高梦超.  计算机技术与发展. 2014(03)
[10]POI数据采集的社会化模式[J]. 林丹.  福建建筑. 2010(09)

硕士论文
[1]基于网络爬虫与短文本相似度的网售化妆品监管系统的研究与设计[D]. 梁涛.南昌航空大学 2018
[2]基于Android和网络爬虫的课外阅读系统设计与实现[D]. 于志浩.山东大学 2018
[3]基于网络爬虫的北京市房价研究[D]. 郑苗.长江大学 2018
[4]基于Python的基因表达数据网络爬虫研究与设计[D]. 冯清.山西医科大学 2017
[5]互联网地理信息爬虫技术研究与应用[D]. 郑承良.山东农业大学 2017
[6]基于网络爬虫的数字隐写图像采集系统设计与实现[D]. 王年丰.华中师范大学 2017
[7]基于RFID数据的城市路网交通运行态势识别技术及应用[D]. 郭鹏.重庆交通大学 2017
[8]基于网络爬虫和GIS技术的公共自行车系统空间分析[D]. 庄楚天.苏州大学 2017
[9]面向网络文本地理信息的POI获取技术研究[D]. 赵飞.哈尔滨工程大学 2017



本文编号:3092457

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3092457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3486a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com