面向Web信息抽取的网页自动浏览导航与集成规则研究

发布时间：2018-02-07 13:47

本文关键词： 精确Web信息抽取深度网页 Web浏览导航数据集成处理规则生成　出处：《南京大学》2014年硕士论文　论文类型：学位论文

【摘要】：随着Internet的不断发展,Web已经成为目前全球最大的信息来源,网页中可被利用的数据变得越来越多。如何做到精确和有效地抽取Web网页数据成为了各类应用的首要问题,Web信息抽取正是为了解决这一问题而出现的研究领域。目前,对于Web信息抽取已经有了很多相关的研究工作,并提出了许多自动化和半自动化的Web信息抽取技术和方法。但现有的研究工作大都集中在对于包含相似数据记录页面的自动分析和数据记录的抽取层面上,往往忽略或简化了Web信息抽取过程中不可或缺的网页浏览导航过程,以及数据抽取之后的集成处理过程。此外,许多已有的页面浏览导航相关研究多是相对独立的浏览导航工具,一方面是它们未能与数据抽取相结合,另一方面是只能单次重播用户的导航过程,无法提供多变的流程控制,因而,它们不能解决实际的Web信息抽取任务。针对上述问题和现状,本文主要研究解决Web信息抽取过程中的网页自动浏览导航问题和技术。本文的主要贡献和工作有以下几点：第一,针对以往研究工作的不足,本文研究建立了全过程化的Web信息抽取模型与规则体系,能够支持自动化的网页浏览导航、网页数据抽取和网页数据集成的完整Web信息抽取处理过程。该模型和规则体系能够清晰描述Web信息抽取过程中的三个典型性部分。第二,研究解决了Web信息抽取过程中的自动化浏览导航模型和方法,并设计实现了一种网页自动浏览导航规则语言。该语言能刻画和模仿用户在浏览器中的交互和浏览导航行为,支撑一般页面和AJAX页面的复杂交互动作,支持交互动作中的参数化要求(如动态替换表单参数值)。此外,该语言能够描述Web信息抽取过程中的网页浏览导航链接逻辑。第三,研究设计了Web信息抽取过程的数据转换集成模型和方法,并设计和实现了相应的规则语言,能够将从网页上所抽取出来的原始数据记录同Web抽取应用所需要的目标结构映射起来。更重要的是,一个复杂数据记录可能会显示在多个关联网页上。因此,进行Web信息抽取时需要自动完成这些关联网页的链接跳转,并且能依据这些数据网页的链接关系保持正确的目标数据关系,以便最终完成完整数据记录的抽取和集成处理。第四,为了能够实现自动化Web页面浏览导航和数据集成中的流程控制,比如在同一个搜索页面替换搜索关键字来获取不同的搜索结果页面,本文研究并设计了Web信息抽取流程控制语言。该控制语言简化了已有的Web抽取系统中的控制逻辑语言的设计,在规则的交互生成方面也易于实现,并且能够完成一定复杂程度上的流程控制逻辑。第五,基于以上的模型和规则体系,本文最终设计和实现了完整的网页自动浏览导航、数据集成和流程控制规则执行引擎,并实现了完整的Web抽取原型系统。能够使得用户在可视化的系统界面中通过简单的一次性交互来记录和生成导航规则、数据抽取和集成规则以及控制逻辑。在执行阶段,由系统对这些规则进行预编译生成java代码并自动执行用户定义的导航流程和抽取集成任务。此外,针对导航控件定位问题,本文给出一个可靠而高效的泛化xpath生成算法。在实验部分,为了验证原型系统的正确性,我们首先通过大量的真实Web网站对原型系统的浏览导航模块的规则录制和执行进行测试。其次,我们将原型系统的浏览导航模块和几种Web导航工具进行对比实验,并取得了良好的实验结果。最后,本文给出了一些真实的商业化抽取实例来测试和验证完整的Web信息抽取处理流程。实验结果表明,本文提出的规则语言和原型系统能够有效地完成Web页面浏览导航过程和数据抽取任务。
[Abstract]:This paper studies the problems and methods of web browsing and navigation in Web information extraction . This paper presents a reliable and efficient generalization xpath generation algorithm . In the experimental part , in order to verify the correctness of the prototype system , we first test the rules and the execution of the navigation module of the prototype system through a large number of real Web sites . Secondly , we present some real commercial extraction examples to test and validate the complete Web information extraction processing flow . The experimental results show that the proposed rules language and prototype system can effectively complete the navigation process and data extraction tasks of Web pages .

【学位授予单位】：南京大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP393.092;TP391.1

【相似文献】