当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于DOM的Web信息自动抽取技术的研究

发布时间:2018-10-18 13:53
【摘要】:随着互联网技术的发展,Web成为各种应用与研究的重要数据源之一,为信息检索、数据挖掘等领域提供高质量的数据。Web中一类重要的数据保存在可搜索网络数据库中,只有通过提交查询请求,网站背后的数据才能按照一定的模板被扩展在网页上,如电子商务网站的商品信息网页,这类动态页面称为DeepWeb。Deep Web数据量大、发展迅猛、领域覆盖全面、主题性强、信息结构化程度高,具有很高的应用价值。因此,如何从Deep Web中有效地抽取信息,帮助人们快速、准确、有效的利用这些海量数据,具有重要的现实意义和广阔的应用前景。 Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。通过手工书写规则完成信息抽取的方式虽然准确率高,技术门槛低,但是由于信息源的多样化和潜在的改版风险,手工方式无法满足人们对信息获取的需求。结合上述背景,可以发现Web信息自动抽取技术的研究与实现是一个非常迫切需要解决的问题。针对这一问题,本文在Web信息自动抽取技术方面,包括查询接口判定的机器学习方法、Web数据自动抽取、数据项对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下: (1)采用基于决策树的查询接口自动判定方法。自动提取网页标签的特征,形成特征集合,根据几种分类算法的准确率的比较和分析,选择使用决策树分类器对网页标签进行分类。 (2)在基于DOM相似度匹配的Web数据抽取算法的基础上,提出针对抽取结果的过滤算法,提高抽取结果的准确率。首先通过DOM相似度匹配算法抽取列表页面,但是由于这种算法仅仅挖掘网页的重复结构,导致抽取的准确率不高。在这个基础上,提出基于熵的过滤算法过滤抽取结果,,并通过k-means聚类算法判断噪音的熵值。 (3)在基于部分树对齐的数据项对齐算法的基础上,提出有效的对齐规则,提高数据项对齐的准确率。 (4)在以上研究内容的基础上,设计开发了Web信息自动抽取系统,系统实现功能包括:1)给定多个数据源的情况下,自动判定查询接口,并能自动填充并提交查询请求。2)对查询请求返回的列表页面实现自动抽取,并对结果进行过滤,提高了抽取的准确率。3)将从列表页面中抽取的数据记录的数据项对齐,并保存。4)在存在分页导航的情况下,实现分页导航的自动连续抽取并将抽取结果保存。 论文创新点如下:(1)采用基于决策树的查询接口自动判定方法,使用决策树分类模型自动判定查询接口,达到较高的准确率。(2)提出一种改进的列表页面数据自动抽取算法。在目前已有的基于DOM相似度的Web信息自动抽取算法的基础上,提出基于熵的过滤算法,达到更高的准确率。(3)提出一种改进的数据项对齐算法,在已有的部分树对齐算法的基础上,增加对齐规则,使得数据项的对齐达到更高的准确率。 实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。
[Abstract]:......
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09

【参考文献】

相关期刊论文 前8条

1 朱绍文,胡宏银,王泉德,张大斌,黄浩,陆玉昌;决策树采掘技术及发展趋势[J];计算机工程;2000年10期

2 李道国,苗夺谦,俞冰;决策树剪枝算法的研究与改进[J];计算机工程;2005年08期

3 姜波;丁岳伟;;基于约束树编辑距离与导航树的信息采集[J];计算机工程;2009年14期

4 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期

5 马军;宋玲;韩晓晖;闫泼;;基于网页上下文的Deep Web数据库分类[J];软件学报;2008年02期

6 滕皓,赵国毅,韩保胜;改进决策树的研究[J];济南大学学报(自然科学版);2002年03期

7 张红霞;;缺失值填充:基于信息增益的方法[J];计算机工程与设计;2006年24期

8 王自军,崔朝辉,刘恩,李志刚,程小茁;Web技术在股票查询系统中的应用及Java实现[J];石油化工高等学校学报;2000年03期

相关博士学位论文 前1条

1 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年

相关硕士学位论文 前1条

1 成文丽;基于决策树的数据挖掘算法的技术研究[D];太原理工大学;2003年



本文编号:2279329

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2279329.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6b83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com