当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向网页文本的地理要素变化检测

发布时间:2017-09-04 10:15

  本文关键词:面向网页文本的地理要素变化检测


  更多相关文章: 网页文本 地理要素变化 信息抽取 网页爬虫 文本解析


【摘要】:地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。
【作者单位】: 英国利兹大学地理学院;南京师范大学虚拟地理环境教育部重点实验室;中国国家基础地理信息中心;南京邮电大学计算机学院;
【关键词】网页文本 地理要素变化 信息抽取 网页爬虫 文本解析
【基金】:国家测绘科技项目“网络地理信息变化检测技术研究” 国家自然科学基金项目(40971231) “863”计划项目(2007AA12Z221)
【分类号】:TP393.092;P207
【正文快照】: 1引言地理要素对地物现状描述的准确性和时效性直接影响地理信息服务质量。地理信息的核心就是数据,而数据的生命力在于数据更新保障,具体体现在数据的现势性、准确性和共享性等方面[1]。目前,地理要素变化检测主要采用遥感影像检测和实地调绘两种手段[2-3],但是,通过遥感影像

【参考文献】

中国期刊全文数据库 前10条

1 王迪伟;;基于PDA的1∶10000比例尺地形图野外调绘[J];测绘通报;2010年07期

2 陈军;王东华;商瑶玲;廖安平;赵仁亮;刘建军;朱武;李力勐;;国家1∶50000数据库更新工程总体设计研究与技术创新[J];测绘学报;2010年01期

3 李丽双;党延忠;廖文平;黄德根;张颖;;CRF与规则相结合的中文地名识别[J];大连理工大学学报;2012年02期

4 钱育华;数字城镇的数据更新[J];地球信息科学;2002年03期

5 张雪英;闾国年;李伯秋;陈文君;;基于规则的中文地址要素解析方法[J];地球信息科学学报;2010年01期

6 周立;邓云青;;城市地理信息系统数据更新方式研究[J];地理空间信息;2008年05期

7 闫会杰;赵巍;;服务于基础地理信息数据动态更新的网络蜘蛛[J];测绘技术装备;2012年02期

8 曾文华;黄桦;;基于网页信息检索的地理信息变化检测方法[J];计算机应用;2010年04期

9 李丽双;黄德根;陈春荣;杨元生;;SVM与规则相结合的中文地名自动识别[J];中文信息学报;2006年05期

10 高文利;;IERDL—基于关键词驱动的信息抽取系统的规则描述语言[J];软件导刊;2009年10期

中国硕士学位论文全文数据库 前1条

1 赵国荣;中文新闻语料中的时间短语识别方法研究[D];山西大学;2006年

【共引文献】

中国期刊全文数据库 前10条

1 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期

2 安晓亚;李颖;孙群;严薇;;面向空间数据主动更新的地理事件模型研究[J];北京大学学报(自然科学版);2011年03期

3 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期

4 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期

5 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期

6 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期

7 张雪颖;杜安丽;安军;;基础地理信息数据更新的过程质量控制[J];测绘标准化;2011年04期

8 刘勇;李成名;;城市基础空间数据库更新方法研究[J];测绘科学;2006年04期

9 刘昌华;梁洪有;杨丽;张文志;任筱芳;;城市多种地图一体化综合测绘模式分析与研究[J];测绘科学;2008年05期

10 滕龙妹;;广域网络环境下的土地资源空间数据更新机制[J];地理信息世界;2009年05期

中国重要会议论文全文数据库 前10条

1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年

5 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

7 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

8 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王鹏;张永奎;;基于新闻网页主题要素的网页去重方法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

中国博士学位论文全文数据库 前10条

1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

2 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

3 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年

4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年

5 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

6 赵彬彬;多尺度矢量地图空间目标匹配方法及其应用研究[D];中南大学;2011年

7 龙华;定义问答检索关键技术研究[D];重庆大学;2010年

8 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年

9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

10 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年

中国硕士学位论文全文数据库 前10条

1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年

2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年

5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年

6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年

7 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年

8 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年

9 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年

10 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 朱建伟,王泽民;地理编码原理及其本地化解决方案[J];北京测绘;2004年02期

2 郑新;网络信息的安全问题及应对措施[J];商业研究;2001年10期

3 许捍卫;移动式GIS发展的关键技术及应用前景[J];测绘工程;2003年01期

4 王东华;;国家1∶50000基础地理数据库建库的技术研究与实践[J];地理信息世界;2006年04期

5 陈军;赵仁亮;王东华;;基础地理信息动态更新技术体系初探[J];地理信息世界;2007年05期

6 赵仁亮;陈军;王东华;商瑶玲;王中祥;艾廷华;;数字环境下的数据缩编更新方法[J];地理信息世界;2008年03期

7 孙红春,王卫安;基础地理信息图文一体化数据模型[J];测绘通报;2001年01期

8 张鹤;孔令彦;陈倬;孙乐兵;;城市地址编码发展历史及现状分析[J];测绘通报;2008年07期

9 陈军;刘万增;李志林;程涛;赵仁亮;;线目标间拓扑关系的细化计算方法[J];测绘学报;2006年03期

10 陈军;周晓光;;基于拓扑联动的增量更新方法研究——以地籍数据库为例[J];测绘学报;2008年03期

中国重要会议论文全文数据库 前5条

1 孙亚夫;陈文斌;;基于分词的地址匹配技术[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年

2 季Y,

本文编号:790902


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/790902.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bd05b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com