面向web的文本地理信息挖掘技术研究
[Abstract]:Geographic information has important applications in civil, commercial, national defense and so on. However, the acquisition of geographic information is restricted by many aspects. At present, there are a lot of geographic information in the Internet. Getting geographic information through the network, breaking through the limitations of traditional means of geographic information acquisition, has become an important means of geographic information acquisition. In order to solve this problem, this paper studies the acquisition of geographic information and the classification of geographic information. In this paper, a topic-based web crawler algorithm based on geographic information ontology database is proposed. By constructing geographic information ontology database, it is very difficult to obtain geographic information from the network. The experimental results show that the algorithm proposed in this paper can effectively filter web pages that are not related to geographical information and improve the accuracy of geographic information web pages. A nearest neighbor classification algorithm based on distance threshold is proposed, which classifies the classified samples according to the space distance between the center of gravity of the class and the sample to be classified. The experimental results show that the proposed algorithm can effectively classify the geographic information with high classification accuracy. Finally, a Web-oriented textual geographic information mining system is implemented by using the proposed topic web crawler algorithm and the nearest neighbor classification algorithm. The system compares the web text with the ontology in the geographic information ontology database, and evaluates the web page correlation. Web page text with high geographic information correlation is preprocessed and extracted. Web page text is transformed into space vector by Web page text feature set and classified. By comparing the basic geographic information keywords, text summary is extracted to extract the information of the place and place needed. Apriori algorithm is used to realize the location. The system test results show that the Web Geographic Information Mining System designed in this paper achieves the functions of Web text acquisition, Web text classification, text information extraction and geographic information association rules mining.
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 魏运运;李晓林;徐秀竹;;基于多约束推理的互联网地理位置信息挖掘算法研究[J];计算机与数字工程;2015年04期
2 张顺;;互联网地理信息系统发展简史[J];电子世界;2014年18期
3 何力;谭霜;贾焰;韩伟红;;基于无标记Web数据的层次式文本分类[J];智能系统学报;2014年03期
4 耿丽娟;李星毅;;用于大数据分类的KNN算法研究[J];计算机应用研究;2014年05期
5 李东晖;廖晓兰;范辅桥;黄九鸣;陈雪刚;;一种主题知识自增长的聚焦网络爬虫[J];计算机应用与软件;2014年05期
6 苏小英;胡彦鹏;杨竣辉;李明;;一种新的用于文本分类的概率分类器设计[J];计算机技术与发展;2014年03期
7 何翼;陈文娟;蒲天银;;基于网络爬虫原理的Web内容挖掘技术分析[J];计算机时代;2013年07期
8 张素琪;梁志刚;胡利娟;董永峰;;改进的多维关联规则算法研究及应用[J];计算机工程与科学;2012年09期
9 侯阳;刘扬;孙瑜;;本体研究综述[J];计算机工程;2011年S1期
10 吴国祥;;网络挖掘研究综述[J];电脑知识与技术;2011年32期
相关博士学位论文 前3条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 李卫;领域知识的获取[D];北京邮电大学;2008年
3 李宏伟;基于Ontology的地理信息服务研究[D];解放军信息工程大学;2007年
相关硕士学位论文 前10条
1 徐秀竹;互联网地理文本信息挖掘[D];武汉工程大学;2014年
2 曾小虎;基于主题的微博网页爬虫研究[D];武汉理工大学;2014年
3 王伟;Web挖掘技术及其在互联网中的应用研究[D];山东大学;2013年
4 王晓飞;基于主题特征的Web信息挖掘模型的研究与实现[D];北京邮电大学;2013年
5 伯明超;基于序列模式的Web挖掘的研究[D];长春理工大学;2012年
6 孙晓璇;基于决策树分类算法的高职学生就业分析与预测[D];云南大学;2012年
7 王明爽;社会网络中的地理数据挖掘方法研究[D];哈尔滨工程大学;2012年
8 郭文政;通用数据挖掘系统平台的设计与实现[D];南京信息工程大学;2011年
9 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
10 常少春;高效频繁项集发现方法与Apriori的改进[D];江苏科技大学;2011年
,本文编号:2186815
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2186815.html