当前位置:主页 > 经济论文 > 房地产论文 >

基于优化NFA正则匹配的Web信息抽取技术及应用研究

发布时间:2017-04-24 16:04

  本文关键词:基于优化NFA正则匹配的Web信息抽取技术及应用研究,由笔耕文化传播整理发布。


【摘要】:随着网络技术的快速发展,互联网已经成为我们日常生活中必不可少的一部分。如何从海量的、半结构化万维网(Web)信息中挖掘出人们所感兴趣的信息变得越来越重要。以往基于网页模板实现的Web信息抽取软件,绝大多数是利用传统的基于NFA的正则表达式匹配算法来提取网页内容。但这些软件存在着模板维护难、抽取效率低等问题,通常只能抽取一类网站的数据,使得它们在现实中很难被广泛应用。本文研究的重点是如何优化NFA,改进传统的构建NFA的算法。另外也系统分析了Web信息抽取技术中网页预处理和三层开发框架整合等问题,并最终实现Web房屋数据抽取系统,该系统主要是为一些房地产评税系统提供样本数据。本文的主要工作如下:1.针对NFA(非确定型有限状态自动机)的研究,提出了用扩展方式构建NFA的算法,并设计了减少构建NFA时间和节省存储空间的一些优化方法。2.在基于NFA的正则表达式引擎下,提出了构造较优化的正则表达式的方法,比较优化前后的网页内容抽取效率,为后续制定各类网站的抽取规则提供优化策略。3.对于网页预处理给出了自动识别网页编码的方法,提出了基于模板的网页去噪算法,该算法能去除网页的可见和不可见噪音。4.在Ext Js、Spring和Hibernate框架的基础上,提出结合MVC+DAO的开发模式,解决了以往Web信息抽取软件模板维护难的弊端。通过引入Io C技术和AOP思想,分离了业务逻辑代码和基础代码,并减少了代码的冗余。5.基于以上的方法,设计并实现了一个Web房屋数据抽取系统。本系统可以多任务定时地对各类房屋信息网站进行页面源码解析、去噪、去重,并利用抽取规则和改进的基于NFA的正则表达式匹配算法来通用地抓取全国范围内的房屋数据。
【关键词】:NFA 网页去噪 正则表达式 抽取规则 Ext Js框架
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 绪论9-13
  • 1.1 课题研究背景与意义9
  • 1.2 国内外研究现状9-11
  • 1.2.1 Web信息抽取技术9-10
  • 1.2.2 Web挖掘分类10-11
  • 1.2.3 Web开发技术11
  • 1.3 研究内容11-12
  • 1.4 论文组织结构12-13
  • 第二章 相关技术研究13-24
  • 2.1 常用Web信息抽取方法13-14
  • 2.2 正则表达式14-18
  • 2.2.1 正则表达式术语14-15
  • 2.2.2 基于NFA的正则表达式匹配算法15-16
  • 2.2.3 基于DFA的正则表达式匹配算法16-17
  • 2.2.4 两种正则表达式匹配算法的比较17-18
  • 2.3 Web信息抽取开发框架18-23
  • 2.3.1 Ext Js框架18-19
  • 2.3.2 Spring框架19-22
  • 2.3.3 Hibernate框架22-23
  • 2.4 本章小结23-24
  • 第三章 NFA优化24-32
  • 3.1 Thompson构造NFA24-25
  • 3.2 减少构建时间25-27
  • 3.2.1 扩展构建25-26
  • 3.2.2 表压缩26-27
  • 3.2.3 缓存技术27
  • 3.3 存储空间压缩27-28
  • 3.4 NFA引擎下正则表达式的优化28-30
  • 3.5 实验性能分析30-31
  • 3.6 本章小结31-32
  • 第四章 Web信息抽取32-43
  • 4.1 获取Web服务器的页面32-33
  • 4.2 网页预处理33-36
  • 4.2.1 编码识别33-34
  • 4.2.2 基于模板的网页去噪算法34-36
  • 4.3 基于表达式优化的抽取规则36-39
  • 4.3.1 抽取原理36-37
  • 4.3.2 规则生成37-39
  • 4.4 Web信息抽取开发框架集成39-42
  • 4.4.1 三层框架的整合39-41
  • 4.4.2 IoC技术和AOP思想41-42
  • 4.5 本章小结42-43
  • 第五章 Web房屋数据抽取系统的设计与实现43-59
  • 5.1 系统总体架构43-45
  • 5.2 数据库模块45-46
  • 5.3 网页预处理模块46-47
  • 5.4 改进的NFA正则表达式匹配模块47-48
  • 5.5 系统各个功能模块的实现48-56
  • 5.5.1 站点维护49-50
  • 5.5.2 采集和导航规则50-51
  • 5.5.3 任务管理模块51-52
  • 5.5.4 数据抽取的实现52-56
  • 5.6 系统测试56-58
  • 5.7 本章小结58-59
  • 第六章 总结和展望59-61
  • 6.1 本文研究工作的总结59
  • 6.2 工作展望59-61
  • 致谢61-62
  • 参考文献62-66
  • 附录66-67
  • 详细摘要67-68

【参考文献】

中国期刊全文数据库 前2条

1 李天鸣;何月顺;;基于ExtJS技术与SSH框架的权限管理研究[J];计算机应用与软件;2011年05期

2 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

中国硕士学位论文全文数据库 前1条

1 王林强;基于J2EE规范的通用型整合框架的研究与应用[D];上海师范大学;2009年


  本文关键词:基于优化NFA正则匹配的Web信息抽取技术及应用研究,,由笔耕文化传播整理发布。



本文编号:324508

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/324508.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1890f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com