当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于海量文本信息挖掘的地理信息变化发现

发布时间:2018-03-14 15:51

  本文选题:地理信息变化 切入点:文本挖掘 出处:《电子科技大学》2013年硕士论文 论文类型:学位论文


【摘要】:互联网科技的日新月异和不断普及,使互联网的信息与日俱增。搜索引擎的出现,为精确、快速地寻找需要的信息提供了非常大的帮助。大约1/5的搜索引擎输入的查询与地理信息相关。如何从搜索引擎中得到有用的网络地理信息,是地理信息系统(GIS)研究的一个重要方向。网络中绝大多数的地理信息被包含在了非结构化的海量文本数据中,当使用者对搜索引擎提出自己的需求时,由于搜索反馈信息量的过多和低精确度,很难从纷繁复杂的网络信息中迅速得到自己的目标信息。因此,如何对包含有地理信息的网页主题内容进行提取,如何从海量的地理信息中提取变化的地理信息,是本课题要研究的主要内容。 论文提出一些基于互联网的地理信息变化解决方案,包括基于文本挖掘的地理信息变化发现总体思路和基于主题信息提取与过滤的发现方法,并提出一个可以快速更新迭代地理信息数据的系统的架构。详细设计并实现了基于主题提取的文本地理信息变化发现系统。主要研究工作如下: (1)系统的客观工作需要,系统中包含了数据分析和数据展示两个层面:在数据分析方面,将网页检索和变化信息提取获得的大量文字描述与平台地名库、行政界线等信息进行对比分析,获取变化信息所在的概略位置,作为空间信息变化地物的位置参数存储起来,结合平台的路径分析工具,可以引导变化更新测绘人员方便到达其所在位置;在数据展示方面,可以利用空间信息变化地物的各种参数,设计一套符号系统,以专题信息形式在平台上展示,使平台维护管理人员可以直观分析各类变化信息的分布,科学制定更新变化信息的策略和手段。 (2)系统主要功能模块包括:数据库管理模块、信息检索模块、主题信息提取模块、主题信息变化发现模块和结果展示模块。其中,主题信息提取模块克服了传统的文本信息提取的不足,系统在句型匹配的基础上,加入语义理解,在检索精确性会得到了较大的提升。 (3)系统实现与成果展示,试验显示,效率明显跳高,,搜索有了显著的减少。数量从原来的10000条减少到了3000条。对结果进行分析比较,正确率平均提升了55%,最高时达到了90%,表明了系统设计的有效性和可行性。
[Abstract]:The Internet technology change rapidly and the growing popularity of the Internet, the information search engine. Grow with each passing day, accurately and quickly find the information you need to provide a great help. About 1/5 of the search engine input query with geographic information. How to get useful guide network geographic information from the search engine, is the geographic information system (GIS) is an important research direction in the network. The vast majority of geographic information is included in the vast amounts of unstructured text data, when the user needs to put forward their own search engine, the search amount of feedback excessive and low accuracy, it is difficult from the complicated network information quickly get your target information. Therefore, web pages how to contain geographic information extracted from the massive changes in how to extract geographic information of geographic information, is this lesson The main contents of the study.
This paper puts forward some solutions to change the geographic information based on the Internet, including the change of geographic information based on text mining found the general idea and discovery method based on information extraction and filtering theme, and propose a fast iterative update of geographic information system architecture. The detailed design and implementation of a system that changes text topic extraction of geographic information based on the main research work is as follows:
(1) the objective of working system, the system contains two aspects of data analysis and display of data in data analysis, obtained a lot of description and extraction of web platform name database retrieval and change information, administrative boundaries and other information were analyzed to obtain the change information where the approximate position, as the storage location the parameters of spatial information of objects, with the platform of path analysis tools, can guide the change and update its location convenient to the surveying and mapping personnel; show the data of various parameters can use spatial information to change the design of a system of symbols, to display thematic information form on the platform, the platform maintenance and management personnel can be directly analysis of the distribution of all kinds of change information, scientific development strategy and means of change information.
(2) the main function modules include: database management module and information retrieval module, module extraction of topic information, subject information changes module and results display module. The theme information extraction module overcomes the shortcomings of the traditional text information extraction system, based on pattern matching, adding semantic understanding, in the retrieval accuracy would have been considerably improved.
(3) system implementation and results show, experiments show that the efficiency is obviously high jump, search is reduced remarkably. The number from the original 10000 reduced to 3000. The results were analyzed and compared, the average accuracy rate up to 55%, the highest reached 90%, show the effectiveness and feasibility of the system design.

【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】

相关期刊论文 前8条

1 隋春光;李霖;;本体的概念、构建及其在地理信息科学中的应用[J];测绘通报;2010年04期

2 刘植惠;;本体(Ontology)与语义网(Semantic Web)[J];重庆图情研究;2006年03期

3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

4 曹彦荣;何建邦;;地理信息语义关系元数据研究及应用[J];计算机科学;2004年01期

5 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期

6 严华云;肖良军;;EM算法在文本挖掘中的应用[J];湖州职业技术学院学报;2008年03期

7 张其文;李明;;文本主题的自动提取方法研究与实现[J];计算机工程与设计;2006年15期

8 刘振岩,王万森,陈立平;WEB信息检索与WEB数据挖掘[J];微机发展;2003年07期

相关博士学位论文 前1条

1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年

相关硕士学位论文 前10条

1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年

2 王俊;基于Web搜索的舆情分析系统的设计与实现[D];北京邮电大学;2011年

3 石卉;基于网络内容分析法的舆情信息研究及应用[D];华中师范大学;2011年

4 何世柱;文本分类和聚类若干模型的研究[D];江西师范大学;2011年

5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年

6 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年

7 刘春艳;语义Web环境下基于SKOS的叙词表到本体的转换研究[D];吉林大学;2006年

8 许泉立;Web环境下基于Ontology的空间信息查询检索机制研究[D];云南师范大学;2006年

9 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年

10 李勇;面向卡通动画素材的多媒体语义检索[D];湖南师范大学;2008年



本文编号:1611890

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1611890.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa28d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com