当前位置:主页 > 科技论文 > 测绘论文 >

面向网页文本的地理信息要素提取与空间定位方法研究

发布时间:2018-03-04 13:31

  本文选题:地理信息要素 切入点:提取 出处:《山东农业大学》2015年硕士论文 论文类型:学位论文


【摘要】:随着互联网技术与计算机技术的飞速发展,网络信息中涉及的地理信息内容越来越多,并逐渐呈现出一种指数爆炸增长趋势,成为地理信息获取与更新的重要的途径。互联网信息中的地理信息与其他网页内容一样,以文本的形式存在,非结构性化特征使这些信息不容易被机器自动识别提取出来,无法作为GIS重要数据源进行进一步的统计和分析,同时海量互联网网页文本中也不乏存在一些泄露国家机密、危害国家安全的地理信息数据,互联网中存在的海量地理信息要素数据亟需被自动提取出来并转换为具有地理坐标的空间数据进行分析。对网页文本的地理信息要素提取与地理信息空间定位是解决这些问题的有效方法。网页地理信息要素提取是将网络爬虫所获取的文本进行语义分析处理,并将其中所包含的地名地址与地理实体有效提取。地理信息要素空间定位则是对提取出的要素通过相似度计算、标准化、地理信息要素匹配处理等方法赋予空间坐标,以便GIS分析工具并进行分析处理。针对网页文本中地理信息的识别提取与空间定位问题,研究结果主要包括以下几个方面:(1)网页文本中地理信息要素提取方法。在国内外研究现状基础上,利用隐马尔可夫模型机器学习的方法对网页文本数据进行词性标注预处理。通过地名地址前后缀特征词识别窗口提取候选地名地址,根据制定的规则对候选地名地址进行匹配过滤,提取地名地址;通过HMM词性标注与词性识别窗口相结合提取候选地理实体,根据地理实体的验证规则进行过滤,提取地理实体。最后利用网页文本数据进行实验验证。(2)提出地名地址与地理实体空间定位策略。地名地址在空间定位之前,首先根据地名地址标准结构体进行标准化处理,并且根据地名地址的前后文信息确定其的大体区域范围,然后通过与定位参考库中的地名地址进行匹配比对,匹配成功的确定空间地理坐标,匹配失败无法确定位置的按空间定位模糊策略进行处理。地理实体空间定位采用实体名称相似度计算的方法,取与地理实体库中相似度最高的地理实体空间坐标作为待定位实体坐标,如果相似度均不在设定阈值范围,则无法对待定位地理实体进行定位。(3)根据文中地理信息识别提取与空间定位方法,对互联网中的多个网站进行地理信息要素提取与空间定位,并在原型系统的前端界面进行了直观的展现。
[Abstract]:With the rapid development of Internet technology and computer technology, geographic information content is more and more involved in the information network, and gradually showing a exponential growth trend, become an important way of geographic information acquisition and update the information in the Internet. The geographic information and other web content, in the form of text, non structural. These characteristics make the information is not easy to be identified automatically extracted, not GIS as an important data source for further statistics and analysis, while the mass of Internet web page text there are some state secrets, the geographic information data of endangering national security, elements of massive geographic data to exist in the Internet are automatically extracted and conversion of spatial data with geographic coordinates were analyzed. The extraction of geographic information elements on the web page text and geographic information Spatial localization is an effective method to solve these problems. Elements extraction of Web Geographic information is the text web crawler acquired semantic analysis processing, which contains the address and geographical entity extraction. Spatial geographic information elements of the elements extracted by calculating similarity, standardization, geographical elements the matching processing method gives the space coordinates, so that the GIS analysis tools and analysis. Aiming at the problem of recognition and spatial localization of geographic information in the page text, the results of this study include the following aspects: (1) extracting geographic information elements "in the text. The research status at home and abroad based on part of speech tagging pre processing of Web text data using the method of hidden Markov model of machine learning. Through the address before the suffix word recognition feature extraction of candidate window The address, according to the rules matching to filter candidate address, address extraction; by HMM combined with POS tagging recognition window to extract candidate geographic entity, filtered according to the validation rules of geographical entities, from the geographical entity. Then using the web text data is verified by experiment. (2) proposed names and address geographical spatial positioning strategy. In the address space before locating were standardized according to the standard address structure first, and large area is determined according to the scope of its name address context information, and then through the positioning and reference library in the address matching alignment, matching the spatial geographic coordinates determine the success, failure, unable to determine the location of the space location according to the fuzzy strategy for processing. The spatial location of geographical entity entity name similarity calculation. Method and similarity of geographical entity library highest geographical spatial coordinates as to position the entity coordinates, which are not in the set if the similarity threshold cannot be located the geographical entity positioning. (3) according to the recognition of geographic information extraction and spatial positioning method, geographic information extraction and spatial positioning of elements many websites in the Internet, and the visual display in front of the interface of the prototype system.

【学位授予单位】:山东农业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P208;P209

【相似文献】

相关期刊论文 前10条

1 樊廷杰;基础地理信息的安全管理[J];三晋测绘;2000年02期

2 苗前军;加快科技创新 推进地理信息的产品化和社会化[J];测绘通报;2002年06期

3 顾纳,周星,刘丽芬,吴剑锋;关于美中基础地理信息产品及其分发模式的思考[J];北京测绘;2003年04期

4 何建邦;《地理信息国际标准手册》即将出版[J];地球信息科学;2003年02期

5 ;全国地理信息标准化技术委员会第二届委员会近期成立[J];地理信息世界;2004年02期

6 西风;走在地理信息世界[J];地理信息世界;2005年04期

7 本刊编辑部;;《地理信息世界》丰富多彩[J];地理信息世界;2005年06期

8 本刊编辑部;;《地理信息世界》编辑委员会第三次会议召开[J];地理信息世界;2006年03期

9 ;省局与省交通厅签订地理信息数据资源共享与合作的协议书[J];江西测绘;2006年04期

10 ;黑龙江省地理信息产业园一期工程竣工 海天地理信息公司等首批企业迁入运营[J];测绘与空间地理信息;2007年01期

相关会议论文 前10条

1 陈建华;;GIS地理信息与虚拟仿真规划生态美丽城镇的作用[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年

2 张献;田震;肖京国;贾建军;李改肖;;面向水下应用的海洋地理信息制图表示研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年

3 齐清文;;地理信息科学方法论研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年

4 罗名海;;武汉市地理信息公共服务平台建设实践[A];科技支撑 科学发展——2009年促进中部崛起专家论坛暨第五届湖北科技论坛文集[C];2009年

5 申健;生力杰;平安;张霞;;基于地理信息的电信设备管理系统的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年

6 张红卫;陈怀亮;张弘;刘爱华;;基于地理信息的河南省风能资源时空分布及利用分析[A];第27届中国气象学会年会气候资源应用研究分会场论文集[C];2010年

7 甘泉;刘建川;;四川省测绘地理信息应急保障体系建设与实践[A];第十三届中国科协年会第12分会场-测绘服务灾害与应急管理学术研讨会论文集[C];2011年

8 蒋景瞳;刘若梅;;国际地理信息标准化进展[A];纪念中国测绘学会成立四十周年论文集[C];1999年

9 顾学明;;地理信息的社会化和系统互操作性[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年

10 李建利;;激光雷达快速获取地理信息的应用研究[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年

相关重要报纸文章 前10条

1 王春卿邋张秋义;全国地理信息标准化技术委员会确定今年工作要点[N];中国测绘报;2008年

2 丁全利 高原;七部门联合开展地理信息市场专项整治[N];中国国土资源报;2009年

3 吴向东 王永太 (记者 吴向东);吉林海南启动地理信息市场专项整治工作[N];中国测绘报;2009年

4 徐小风 姚树根 摆文清 王志宁 刘中苏 (记者 徐小风 摆文清 王志宁 刘中苏);陕西 江苏 吉林 宁夏 部署地理信息市场整治工作[N];中国测绘报;2009年

5 本报记者 红艳;整顿地理信息市场秩序 保障国家安全和利益[N];内蒙古日报(汉);2009年

6 记者 兴科 实习生 覃志彬;我区开展地理信息市场专项整治行动[N];新疆日报(汉);2009年

7 记者 孙延峰;认真履行职责 严肃查处地理信息市场违法行为[N];中国工商报;2009年

8 刘江;贵州出台整顿和规范地理信息市场秩序工作意见[N];中国测绘报;2009年

9 樊省状;确保顺利完成地理信息市场专项整治[N];济宁日报;2009年

10 记者 闫静霞;宁夏八部门联合整治地理信息市场[N];人民邮电;2009年

相关博士学位论文 前8条

1 成燕辉;符合共享和一致性原则的地理信息标准体系研究[D];武汉大学;2005年

2 刘嵘;集群式网格地理信息服务注册中心的构建研究[D];解放军信息工程大学;2011年

3 田文文;基于自发地理信息的空间数据变化发现与更新方法研究[D];武汉大学;2013年

4 王红;基础地理信息地形数据库信息量度量方法研究[D];辽宁工程技术大学;2010年

5 吴升;分布式GIS组件平台的研究与实践[D];解放军信息工程大学;2001年

6 王兴玲;基于XML的地理信息Web服务研究[D];中国科学院研究生院(遥感应用研究所);2002年

7 李勤超;基于本体的地理信息语义转换模型与方法研究[D];解放军信息工程大学;2011年

8 邢汉发;面向更新的网络化空间标报模型研究[D];中南大学;2012年

相关硕士学位论文 前10条

1 沈宝龙;内蒙古测绘地理信息行政管理问题与对策研究[D];内蒙古大学;2015年

2 任俊儒;基于FME的GIS数据处理研究[D];中国地质大学(北京);2015年

3 华剑锋;“清三河”地理信息数据集成与全景服务技术研究[D];浙江大学;2015年

4 陈帅;数字喀什公共信息平台的设计与实现[D];北京工业大学;2015年

5 王克永;面向网页文本的地理信息要素提取与空间定位方法研究[D];山东农业大学;2015年

6 李敏;面向公众服务的基础地理信息细化研究[D];山东科技大学;2009年

7 王剑钢;基于增强现实的地理信息指引系统[D];西安电子科技大学;2011年

8 徐青伟;基于地理信息的军用标绘平台的设计与实现[D];国防科学技术大学;2003年

9 杨帆;基于本体的地理信息表示与检索[D];江苏科技大学;2011年

10 易茹兰;基于地理本体的地理信息语义表达与查询方法研究[D];中南大学;2009年



本文编号:1565843

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1565843.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dfcee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com