基于优化NFA正则匹配的Web信息抽取技术及应用研究
发布时间:2017-04-24 16:04
本文关键词:基于优化NFA正则匹配的Web信息抽取技术及应用研究,由笔耕文化传播整理发布。
【摘要】:随着网络技术的快速发展,互联网已经成为我们日常生活中必不可少的一部分。如何从海量的、半结构化万维网(Web)信息中挖掘出人们所感兴趣的信息变得越来越重要。以往基于网页模板实现的Web信息抽取软件,绝大多数是利用传统的基于NFA的正则表达式匹配算法来提取网页内容。但这些软件存在着模板维护难、抽取效率低等问题,通常只能抽取一类网站的数据,使得它们在现实中很难被广泛应用。本文研究的重点是如何优化NFA,改进传统的构建NFA的算法。另外也系统分析了Web信息抽取技术中网页预处理和三层开发框架整合等问题,并最终实现Web房屋数据抽取系统,该系统主要是为一些房地产评税系统提供样本数据。本文的主要工作如下:1.针对NFA(非确定型有限状态自动机)的研究,提出了用扩展方式构建NFA的算法,并设计了减少构建NFA时间和节省存储空间的一些优化方法。2.在基于NFA的正则表达式引擎下,提出了构造较优化的正则表达式的方法,比较优化前后的网页内容抽取效率,为后续制定各类网站的抽取规则提供优化策略。3.对于网页预处理给出了自动识别网页编码的方法,提出了基于模板的网页去噪算法,该算法能去除网页的可见和不可见噪音。4.在Ext Js、Spring和Hibernate框架的基础上,提出结合MVC+DAO的开发模式,解决了以往Web信息抽取软件模板维护难的弊端。通过引入Io C技术和AOP思想,分离了业务逻辑代码和基础代码,并减少了代码的冗余。5.基于以上的方法,设计并实现了一个Web房屋数据抽取系统。本系统可以多任务定时地对各类房屋信息网站进行页面源码解析、去噪、去重,并利用抽取规则和改进的基于NFA的正则表达式匹配算法来通用地抓取全国范围内的房屋数据。
【关键词】:NFA 网页去噪 正则表达式 抽取规则 Ext Js框架
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 绪论9-13
- 1.1 课题研究背景与意义9
- 1.2 国内外研究现状9-11
- 1.2.1 Web信息抽取技术9-10
- 1.2.2 Web挖掘分类10-11
- 1.2.3 Web开发技术11
- 1.3 研究内容11-12
- 1.4 论文组织结构12-13
- 第二章 相关技术研究13-24
- 2.1 常用Web信息抽取方法13-14
- 2.2 正则表达式14-18
- 2.2.1 正则表达式术语14-15
- 2.2.2 基于NFA的正则表达式匹配算法15-16
- 2.2.3 基于DFA的正则表达式匹配算法16-17
- 2.2.4 两种正则表达式匹配算法的比较17-18
- 2.3 Web信息抽取开发框架18-23
- 2.3.1 Ext Js框架18-19
- 2.3.2 Spring框架19-22
- 2.3.3 Hibernate框架22-23
- 2.4 本章小结23-24
- 第三章 NFA优化24-32
- 3.1 Thompson构造NFA24-25
- 3.2 减少构建时间25-27
- 3.2.1 扩展构建25-26
- 3.2.2 表压缩26-27
- 3.2.3 缓存技术27
- 3.3 存储空间压缩27-28
- 3.4 NFA引擎下正则表达式的优化28-30
- 3.5 实验性能分析30-31
- 3.6 本章小结31-32
- 第四章 Web信息抽取32-43
- 4.1 获取Web服务器的页面32-33
- 4.2 网页预处理33-36
- 4.2.1 编码识别33-34
- 4.2.2 基于模板的网页去噪算法34-36
- 4.3 基于表达式优化的抽取规则36-39
- 4.3.1 抽取原理36-37
- 4.3.2 规则生成37-39
- 4.4 Web信息抽取开发框架集成39-42
- 4.4.1 三层框架的整合39-41
- 4.4.2 IoC技术和AOP思想41-42
- 4.5 本章小结42-43
- 第五章 Web房屋数据抽取系统的设计与实现43-59
- 5.1 系统总体架构43-45
- 5.2 数据库模块45-46
- 5.3 网页预处理模块46-47
- 5.4 改进的NFA正则表达式匹配模块47-48
- 5.5 系统各个功能模块的实现48-56
- 5.5.1 站点维护49-50
- 5.5.2 采集和导航规则50-51
- 5.5.3 任务管理模块51-52
- 5.5.4 数据抽取的实现52-56
- 5.6 系统测试56-58
- 5.7 本章小结58-59
- 第六章 总结和展望59-61
- 6.1 本文研究工作的总结59
- 6.2 工作展望59-61
- 致谢61-62
- 参考文献62-66
- 附录66-67
- 详细摘要67-68
【参考文献】
中国期刊全文数据库 前2条
1 李天鸣;何月顺;;基于ExtJS技术与SSH框架的权限管理研究[J];计算机应用与软件;2011年05期
2 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
中国硕士学位论文全文数据库 前1条
1 王林强;基于J2EE规范的通用型整合框架的研究与应用[D];上海师范大学;2009年
本文关键词:基于优化NFA正则匹配的Web信息抽取技术及应用研究,,由笔耕文化传播整理发布。
本文编号:324508
本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/324508.html