基于视觉信息的Deep Web信息自动抽取技术的研究
发布时间:2017-03-26 03:10
本文关键词:基于视觉信息的Deep Web信息自动抽取技术的研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。 根据web中所蕴含信息的“深度”,可以将web分为Surface Web和DeepWeb。在数量和质量上,Deep Web远远超过了Surface Web,具有较高的应用价值。因此,如何进行抽取Deep Web中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。 Internet上的各个网站的信息相互独立,,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在Deep Web信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下: (1)基于页面中的视觉信息,分割网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。 (2)使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了Deep Web数据区域的查找和定位。 (3)提出了有效的对齐规则,大大提高了数据项的对齐准确率。 (4)在以上研究内容的基础上,设计开发了Deep Web信息自动抽取系统,系统实现功能包括:1)网页视觉块树的转换;2)数据区域的自动定位;3)数据项的完整抽取与对齐;4)生成Wrapper;5)实现了自动翻页功能 实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。
【关键词】:deep web 信息抽取 视觉信息 机器学习
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP181;TP311.13
【目录】:
- 摘要6-8
- Abstract8-12
- 1 引言12-19
- 1.1 研究背景和意义12
- 1.2 Web 信息抽取技术的发展12-16
- 1.2.1 概述12-15
- 1.2.2 面临的问题15-16
- 1.3 本文研究内容及创新点16-17
- 1.4 本论文的组织17-19
- 2 决策树分类算法19-26
- 2.1 决策树简介19-24
- 2.1.1 决策树的学习算法20-22
- 2.1.2 问题22-24
- 2.2 决策树的评估24
- 2.3 WEKA 工具描述24-25
- 2.4 小结25-26
- 3 机器学习与规则融合的列表页面抽取26-45
- 3.1 网页的视觉特征27-28
- 3.2 Deep Web 页面的视觉化表示28-32
- 3.3 页面分割算法 VIPS 的概述与应用32-35
- 3.3.1 VIPS 分割算法32-34
- 3.3.2 DOM4J 解析 xml 字符串34-35
- 3.4 数据区域的自动定位35-40
- 3.4.1 数据区域的视觉特征35-36
- 3.4.2 机器学习数据区域的判定规则36-38
- 3.4.3 手工编写规则完成区域节点的筛选38-40
- 3.5 数据项的对齐并输出40-43
- 3.5.1 视觉匹配算法41
- 3.5.2 数据项对齐算法41-43
- 3.5.3 数据项的对齐示例43
- 3.6 小结43-45
- 4 列表页面自动抽取系统45-53
- 4.1 系统简介45-52
- 4.1.1 实验训练样例的获取45-46
- 4.1.2 训练集的优化46-47
- 4.1.3 训练样例的获取47-48
- 4.1.4 列表页面抽取及过滤48-50
- 4.1.5 数据项对齐实验结果50-51
- 4.1.6 分页数据的自动连续抽取51-52
- 4.2 小结52-53
- 5 总结与展望53-54
- 5.1 总结53
- 5.2 展望未来的工作53-54
- 参考文献54-57
- 致谢57-58
- 个人简历58
- 发表的论文58
- 科研成果58-59
【共引文献】
中国博士学位论文全文数据库 前2条
1 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
2 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
本文关键词:基于视觉信息的Deep Web信息自动抽取技术的研究,由笔耕文化传播整理发布。
本文编号:268184
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/268184.html