面向Web信息抽取的网页自动浏览导航与集成规则研究
本文关键词: 精确Web信息抽取 深度网页 Web浏览导航 数据集成处理 规则生成 出处:《南京大学》2014年硕士论文 论文类型:学位论文
【摘要】:随着Internet的不断发展,Web已经成为目前全球最大的信息来源,网页中可被利用的数据变得越来越多。如何做到精确和有效地抽取Web网页数据成为了各类应用的首要问题,Web信息抽取正是为了解决这一问题而出现的研究领域。目前,对于Web信息抽取已经有了很多相关的研究工作,并提出了许多自动化和半自动化的Web信息抽取技术和方法。但现有的研究工作大都集中在对于包含相似数据记录页面的自动分析和数据记录的抽取层面上,往往忽略或简化了Web信息抽取过程中不可或缺的网页浏览导航过程,以及数据抽取之后的集成处理过程。此外,许多已有的页面浏览导航相关研究多是相对独立的浏览导航工具,一方面是它们未能与数据抽取相结合,另一方面是只能单次重播用户的导航过程,无法提供多变的流程控制,因而,它们不能解决实际的Web信息抽取任务。针对上述问题和现状,本文主要研究解决Web信息抽取过程中的网页自动浏览导航问题和技术。本文的主要贡献和工作有以下几点:第一,针对以往研究工作的不足,本文研究建立了全过程化的Web信息抽取模型与规则体系,能够支持自动化的网页浏览导航、网页数据抽取和网页数据集成的完整Web信息抽取处理过程。该模型和规则体系能够清晰描述Web信息抽取过程中的三个典型性部分。第二,研究解决了Web信息抽取过程中的自动化浏览导航模型和方法,并设计实现了一种网页自动浏览导航规则语言。该语言能刻画和模仿用户在浏览器中的交互和浏览导航行为,支撑一般页面和AJAX页面的复杂交互动作,支持交互动作中的参数化要求(如动态替换表单参数值)。此外,该语言能够描述Web信息抽取过程中的网页浏览导航链接逻辑。第三,研究设计了Web信息抽取过程的数据转换集成模型和方法,并设计和实现了相应的规则语言,能够将从网页上所抽取出来的原始数据记录同Web抽取应用所需要的目标结构映射起来。更重要的是,一个复杂数据记录可能会显示在多个关联网页上。因此,进行Web信息抽取时需要自动完成这些关联网页的链接跳转,并且能依据这些数据网页的链接关系保持正确的目标数据关系,以便最终完成完整数据记录的抽取和集成处理。第四,为了能够实现自动化Web页面浏览导航和数据集成中的流程控制,比如在同一个搜索页面替换搜索关键字来获取不同的搜索结果页面,本文研究并设计了Web信息抽取流程控制语言。该控制语言简化了已有的Web抽取系统中的控制逻辑语言的设计,在规则的交互生成方面也易于实现,并且能够完成一定复杂程度上的流程控制逻辑。第五,基于以上的模型和规则体系,本文最终设计和实现了完整的网页自动浏览导航、数据集成和流程控制规则执行引擎,并实现了完整的Web抽取原型系统。能够使得用户在可视化的系统界面中通过简单的一次性交互来记录和生成导航规则、数据抽取和集成规则以及控制逻辑。在执行阶段,由系统对这些规则进行预编译生成java代码并自动执行用户定义的导航流程和抽取集成任务。此外,针对导航控件定位问题,本文给出一个可靠而高效的泛化xpath生成算法。在实验部分,为了验证原型系统的正确性,我们首先通过大量的真实Web网站对原型系统的浏览导航模块的规则录制和执行进行测试。其次,我们将原型系统的浏览导航模块和几种Web导航工具进行对比实验,并取得了良好的实验结果。最后,本文给出了一些真实的商业化抽取实例来测试和验证完整的Web信息抽取处理流程。实验结果表明,本文提出的规则语言和原型系统能够有效地完成Web页面浏览导航过程和数据抽取任务。
[Abstract]:This paper studies the problems and methods of web browsing and navigation in Web information extraction . This paper presents a reliable and efficient generalization xpath generation algorithm . In the experimental part , in order to verify the correctness of the prototype system , we first test the rules and the execution of the navigation module of the prototype system through a large number of real Web sites . Secondly , we present some real commercial extraction examples to test and validate the complete Web information extraction processing flow . The experimental results show that the proposed rules language and prototype system can effectively complete the navigation process and data extraction tasks of Web pages .
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 还书国;邱海霞;;WEB信息抽取的研究[J];消费导刊;2008年12期
2 周顺先;林亚平;王雷;;Web信息抽取中基于页面特性的包装器平衡算法[J];计算机工程与应用;2006年36期
3 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
4 张奇;郝志峰;温雯;蔡瑞初;;基于互信息度量的Web信息抽取[J];计算机应用与软件;2013年12期
5 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
6 李海健;王晓丰;;Web信息抽取的现状及未来展望[J];廊坊师范学院学报(自然科学版);2009年03期
7 刘伟;贺露;;基于本体的Web信息抽取系统的研究[J];软件;2013年12期
8 李荣;冯丽萍;王鸿斌;;基于改进遗传退火HMM的Web信息抽取研究[J];计算机应用与软件;2014年04期
9 金燕;;基于本体的Web信息抽取研究综述[J];图书馆学研究;2012年16期
10 王志华;魏斌;李占波;赵伟;;基于本体的Web信息抽取系统[J];计算机工程与设计;2012年07期
相关会议论文 前2条
1 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
相关博士学位论文 前2条
1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
2 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
相关硕士学位论文 前10条
1 李宗超;基于本体的手机领域Web信息抽取[D];重庆大学;2015年
2 王海涛;面向Web信息抽取的网页自动浏览导航与集成规则研究[D];南京大学;2014年
3 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
4 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
5 刘玉龙;Web信息抽取规则的设计和实现[D];南京大学;2013年
6 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
7 俞琰;基于隐马尔可夫模型的Web信息抽取研究[D];南京工业大学;2005年
8 明廷波;基于神经网络的Web信息抽取系统的研究与实现[D];电子科技大学;2006年
9 杨丁苗;Web信息抽取在书签系统中的应用研究与实现[D];南京理工大学;2014年
10 刘宝;面向搜索引擎评测的Web信息抽取系统的设计与实现[D];哈尔滨工业大学;2012年
,本文编号:1494520
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1494520.html