当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向Web文本的滑坡灾害信息提取技术研究

发布时间:2017-03-25 11:13

  本文关键词:面向Web文本的滑坡灾害信息提取技术研究,由笔耕文化传播整理发布。


【摘要】:面对滑坡灾害的威胁,如何获取充足、准确、及时的滑坡灾害信息,对于研究滑坡灾害及减少风险具有重要意义。互联网作为一个拥有海量数据与信息的数据仓库,运用Web文本提取技术来实现滑坡灾害数据的提取,可以有效的提高信息提取的简易程度及时效性。本文针对滑坡灾害信息在网络文本中的特点,通过研究地名识别、时间和属性提取技术,较为系统地探索了Web文本中滑坡灾害信息提取方法,并开发了相应的原型系统,进行了实验验证分析。本文主要研究内容和结论包括以下三个方面:(1)滑坡灾害信息Web文本抽取:设计了利用搜索引擎及新闻页面进行滑坡灾害信息检索的方法,实现了滑坡灾害主题页面信息的有效提取;通过分析滑坡灾害主题信息的结构性特点以及互联网中信息出现规律设计了滑坡灾害信息主题去重方法;最终运用正则表达式与TMLParse方法相结合的方式对滑坡信息页面中灾害正文信息进行有效提取。(2)滑坡灾害信息分类提取:将滑坡灾害信息提取类型分为了时间信息、地名信息、属性信息三种类型;先运用文本分块与分词技术将文本信息进行结构化分割,然后针对不同信息类型的信息研究了其信息提取方法,并最终形成了一套有效的滑坡灾害信息提取技术。(3)滑坡灾害提取系统实现和实验验证:在以上技术研究的基础上,利用.Net开发平台与Html技术设计了滑坡灾害信息提取系统,主要实现了滑坡灾害信息提取、信息提取规则库管理、滑坡信息地图展示等功能,并以四川地区为样例,进行了实验验证与结果分析。通过本文研究表明,利用互联网中的文本数据可以有效的提取滑坡灾害信息数据,能成为一种有效的滑坡灾害信息发现的辅助手段。由于灾害信息文本内容的丰富性,运用人工整理的规则与统计的方式进行灾害信息提取存在一定的局限性。此外,网络中灾害信息的描述并不直接,具有模糊性与不确定性,需要结合其他滑坡灾害信息提取方式进行进一步数据整合。
【关键词】:滑坡 灾害 Web文本 信息提取 规则
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;P642.22
【目录】:
  • 摘要6-7
  • ABSTRACT7-11
  • 第1章 绪论11-20
  • 1.1 研究背景及意义11-12
  • 1.2 研究现状及进展12-16
  • 1.2.1 灾害信息提取技术研究进展12-13
  • 1.2.2 灾害信息提取应用现状13-16
  • 1.3 研究目标及内容16-17
  • 1.3.1 研究目标16
  • 1.3.2 研究内容16-17
  • 1.4 技术路线17-18
  • 1.5 论文组织与结构18-20
  • 第2章 滑坡灾害信息的web文本抽取20-35
  • 2.1 滑坡信息检索方法21-26
  • 2.1.1 滑坡信息的主题特征归纳21-23
  • 2.1.2 基于百度新闻搜索的滑坡网页获取23-26
  • 2.2 网页主题信息过滤与去重26-30
  • 2.2.1 图像视频信息页面过滤27-28
  • 2.2.2 文本主题信息去重28-30
  • 2.3 网页正文提取方法30-34
  • 2.3.1 基于正则表达式的信息解析31-33
  • 2.3.2 使用HTMLParse技术提取网页正文33-34
  • 2.4 小结34-35
  • 第3章 Web文本中滑坡灾害相关信息提取35-53
  • 3.1 文本信息结构化处理35-38
  • 3.1.1 文本分块处理35-36
  • 3.1.2 文本分词处理36-38
  • 3.2 滑坡灾害发生时间信息抽取38-41
  • 3.2.1 时间表达式提取与转换38-40
  • 3.2.2 灾害时间信息有效性筛选40-41
  • 3.3 地理位置信息提取41-49
  • 3.3.1 地名提取42-44
  • 3.3.2 灾害发生地名组合与筛选44-45
  • 3.3.3 地名与地理位置匹配45-49
  • 3.4 灾害属性信息提取49-52
  • 3.4.1 滑坡灾害属性采集规则库49-50
  • 3.4.2 属性信息抽取50-52
  • 3.5 小结52-53
  • 第4章 滑坡灾害信息提取系统实现及实验验证53-65
  • 4.1 系统设计及框架结构53-55
  • 4.1.1 系统设计53-54
  • 4.1.2 系统框架结构54-55
  • 4.2 系统主要功能55-62
  • 4.2.1 系统登录55-56
  • 4.2.2 系统管理模块56-57
  • 4.2.3 信息提取模块57-61
  • 4.2.4 规则库管理61
  • 4.2.5 地图展示61-62
  • 4.3 实验验证及分析62-64
  • 4.4 小结64-65
  • 总结与展望65-67
  • 总结65
  • 展望65-67
  • 致谢67-68
  • 参考文献68-72
  • 攻读硕士学位期间发表的论文72

【参考文献】

中国期刊全文数据库 前10条

1 刘元凤;周荣福;李凤玲;;基于文本的地理空间数据挖掘与可视化[J];测绘科学;2010年04期

2 闫会杰;赵巍;;服务于基础地理信息数据动态更新的网络蜘蛛[J];测绘技术装备;2012年02期

3 余丽;陆锋;张恒才;;网络文本蕴涵地理信息抽取:研究进展与展望[J];地球信息科学学报;2015年02期

4 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期

5 邹涛,戚广智,蔡丽娟,张福炎;网络信息挖掘系统IDGS的实现[J];南京大学学报(自然科学版);2000年02期

6 刘磊;李壮;张鑫;吕帅;;中文网络文本的语义信息处理研究综述[J];计算机应用研究;2015年01期

7 唐旭日;陈小荷;张雪英;;中文文本的地名解析方法研究[J];武汉大学学报(信息科学版);2010年08期

8 胡国晴;李建华;;一种基于可信度分析的Web页面新属性发现方法[J];计算机技术与发展;2009年01期

9 周合明;奚建清;;基于模板的Web信息提取系统的设计与实现[J];计算机技术与发展;2011年11期

10 李丽双,黄德根,陈春荣,杨元生;用支持向量机进行中文地名识别的研究[J];小型微型计算机系统;2005年08期


  本文关键词:面向Web文本的滑坡灾害信息提取技术研究,,由笔耕文化传播整理发布。



本文编号:267109

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/267109.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户007cf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com