当前位置:主页 > 科技论文 > 软件论文 >

基于网络爬虫的地理信息获取技术的研究

发布时间:2019-09-03 10:26
【摘要】:随着计算机网络技术和地理信息技术的迅猛发展,地理信息数据作为一种重要的基础信息数据资源,使其不仅在城市规划、交通导航、灾害监测、国防军事等国家建设领域得到了广泛的运用,而且,与人们的日常生活联系的也越来越紧密。特别是Google向公众推出了基于空间位置服务(Location Based Services, LBS)用户体验之后,给人们的工作和生活带来了很大的便利。地理信息数据在促进国家经济社会发展,给人们日常生活和工作带来很大便利的同时,同样也有一些亟待解决的问题。其中比较突出的是地理信息获取问题,传统的地理信息获取主要通过实地测绘和遥感等手段,这些方法都存在着成本高、精度低、无法实时更新等弊端。同时,网络地理空间的虚拟性、共享性、无国界性等特点,特别是现在网络中散布着很多地理信息数据,这都为地理信息获取提出了一种新的途径和来源,研究如何从网络中获取地理信息数据具有重要意义。本文主要研究了从网络中获取地理信息数据的关键技术。分别针对文本、栅格等不同类型的地理信息数据提出了不同的获取方法。对于文本地理信息数据获取技术,主要通过网络爬虫(Web Crawler)技术来获取,本文重点研究了多种网络爬虫算法,将基于内容的Shark Search算法和基于链接的HITS算法相结合,提出一种新的网络爬虫算法,即SS-HITS算法,该算法不但可以减少基于内容算法的局部性问题和基于链接算法的主题漂移现象,而且提高了网络爬虫的页面回调率、查准率和主题相关度。对于栅格地理信息数据获取技术,本文主要通过分析其投影方式、数据组织和管理模型等关键技术,提出了一种栅格地理信息获取方案,通过该方案可以获取全球范围高精度的栅格地理信息数据;另外,本文还提出了一种地图拼接、漫游和缩放算法,该算法不仅可以将获取到的栅格地理信息数据拼接成完整的影像地图,而且拼接后的地图还支持地图漫游和地图缩放功能。
【图文】:

应用程序接口,数据查询,拓扑空间,编程功能


据GIS里面的数据进行数据查询和分析,比如拓扑空间查询、地形分模型等。逡逑息系统具有空间地理信息数据查询和分析的能力,可以根据用户需求间拓扑关系查询、建立高程模型等。逡逑开发和编程功能逡逑息系统一般都通过提供应用程序接口(API)的形式来为用户提供二可以通过这些应用程序接口来调用地理信息系统的服务,来开发其领应用程序。逡逑据组织与结构逡逑理信息数据作为地理信息系统的重要组成部分,地理信息系统的重要数据的采集、分析、存储和加工,地理空间数据是对地球表面自然、数据的抽象化描述。逡逑

序列,网络爬虫,基本原理,队列


2.2.2网络爬虫的体系结构逡逑如图2.5所示,,图中描绘了通用网络爬虫的体系结构,通用网络爬虫涉及到的数据逡逑结构主要包括初始化URL队列、待抓取URL队列、解析出来URL队列等,并且,通逡逑用网络爬虫的体系结构一般包括以下几个模块:逡逑1)初始化模块逡逑初始化模块主要完成对于给定的初始化URL序列,将初始化URL队列中的URL逡逑加入到待抓取URL队列中,为进一步抓取Web页面做准备。逡逑2)逦Web页面获取模块逡逑Web页面获取模块主要完成下载待抓取URL队列中URL对应的Web页面。该模逡逑块首先按照队列先进先出的顺序从待抓取URL队列中取出URL,并且调用DNS服务将逡逑URL解析成IP地址,访问IP地址对应的服务器,将URL对应的Web页面下载到本地。逡逑3)逦Web页面解析模块逡逑Web页面解析模块主要功能是对下载到本地的Web页面进行解析,解析出Web页逡逑
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:P208;TP391.1

【参考文献】

相关期刊论文 前10条

1 俞键;俞晓松;江玉成;;配电线路智能巡检系统web离线地图的技术研究[J];通信电源技术;2015年02期

2 闫佳;闫枫;;基于XNA的地理信息系统的研究与实现[J];测绘与空间地理信息;2014年11期

3 喻依;甘若迅;樊锁海;刘庆;邵晴;;基于PageRank算法和HITS算法的期刊评价研究[J];计算机科学;2014年S1期

4 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期

5 杨仁广;宋宇;孟祥增;;一种改进Shark-Search的多媒体主题搜索算法[J];计算机工程与应用;2010年14期

6 范聪贤;徐汀荣;范强贤;;Web结构挖掘中HITS算法改进的研究[J];微计算机信息;2010年03期

7 王冬;雷景生;;一种基于PageRank的页面排序改进算法[J];微电子学与计算机;2009年04期

8 杨云源;何礼平;;基于Goolge Maps API的WebGIS应用研究[J];电脑开发与应用;2009年01期

9 宋宇;孟祥增;;基于改进Fish-search算法的多媒体检索[J];计算机工程;2008年11期

10 陈军;陈竹敏;;基于网页分块的Shark-Search算法[J];山东大学学报(理学版);2007年09期

相关硕士学位论文 前10条

1 谢月;网页排序中PageRank算法和HITS算法的研究[D];电子科技大学;2012年

2 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年

3 陈辉;Web方式下电子海图的显示技术研究与应用[D];武汉理工大学;2011年

4 李新钢;基于GIS的流域整治查询管理系统的建设[D];中国海洋大学;2011年

5 刘驰;基于Google maps的交通信息服务平台研究与设计[D];华南理工大学;2010年

6 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年

7 张阿红;Web链接结构挖掘中HITS算法的分析与改进[D];西北师范大学;2009年

8 刘军;基于Web结构挖掘的HITS算法研究[D];中南大学;2008年

9 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年

10 华f;基于GIS的长沙市景观格局定量分析与优化研究[D];湖南大学;2008年



本文编号:2531287

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2531287.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3a64***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com