当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web数据库特征表示和抽取方法的研究

发布时间:2019-02-17 13:56
【摘要】:随着Internet的发展,Web正在加速地“深化”,,Web可以简单地分为两部分:Surface Web和Deep Web。前者是指通过超链接就可以被传统搜索引擎搜索到的页面的集合;后者普遍被认为是网络中可访问的在线数据库。与Surface Web的信息相比,Deep Web中所包含的信息数据量更大、信息质量更好、专业性更强,因此日益成为人们获取信息的主要途径之一。由于Deep Web中大量的信息被锁定在数据库内,而许多网页也是通过响应具体的查询动态生成的,所以实现对Deep Web或WDB(Web数据库)的检索,不仅将大大扩充现有搜索引擎的搜索能力,更为人们方便地进行信息查找提供了便捷的手段。 WDB查询接口是我们访问和检索WDB的唯一路径,每个查询接口对应于不同的查询模式,用户通过填写不同的查询接口并提交请求,从而发现合适的信息。但是随着JavaScript、Ajax等动态脚本技术的广泛应用,查询接口的复杂性也在逐渐增加,另外网上有众多的WDB,而且其包含的数据也是多种多样的,所以快速识别WDB这类动态查询接口的特征、发现接口内各元素之间的约束关系、实现接口特征的量化表示并对特定领域的WDB数据的特征进行定量描述和抽取是实现对WDB自动访问和提高传统搜索引擎搜索能力的关键步骤。 本文针对以上问题,主要以WDB特征为主线研究了WDB查询接口和WDB数据特征的表示方法、Web数据库采样、WDB查询接口和WDB数据特征的抽取方法。具体研究内容包括: (1) WDB查询接口和WDB数据特征的表示方法 本文将WDB数据属性分为三类,即文本属性、分类属性和数值属性。对于文本属性,采取基于词频的特征表示;对于数值型属性,基于数值属性具有连续性的特点,且正态分布具有强大的普适性,我们采用正态分布的期望和偏差表示数值属性的特征;对于分类型属性采取基于统计的特征表示方法。在获取以上各类属性的特征后,将形成最终的特征向量。最后,因为本体具备良好的知识表示能力和推理能力,本研究采用本体的方法进行查询接口的表示。 (2)基于贝叶斯模型的数据样本抽取方法 为了实现对WDB特征的抽取,本文提出一种基于贝叶斯模型数据样本抽取方法,该方法大体过程分为5个步骤:①构建WDB初始查询;②通过初始查询获得查询结果;③将结果加入样本集并对查询结果进行分析,分别计算出各个特征词的概率和条件概率,为下一个查询做准备;④根据相似性原则判定获取样本的循环是否应该被终止;⑤继续下一步查询,直到循环被终止。根据实验对本文提出的采样方法的合理性和有效性进行了验证。 (3) WDB查询接口和WDB数据特征的抽取方法 基于以上研究,本文给出了WDB查询接口抽取方法和WDB数据特征抽取方法。首先,针对查询接口的上下文信息、表单信息以及表单域之间的关联信息给出相应的抽取方法,分别为基于正则表达式的表单信息的抽取和基于Watir和Ajax的表单域关系的抽取;其次针对WDB数据特征的抽取,分别给出了基于词频的文本型数据特征抽取、基于正态分布的数值型数据特征抽取和基于记录数量比值的分类型数据特征抽取。
[Abstract]:With the development of the Internet, the Web is speeding up the 鈥渄eepen鈥

本文编号:2425235

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2425235.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户090e6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com