基于Web页面结构的网页数据提取研究
本文关键词:基于Web页面结构的网页数据提取研究
更多相关文章: DOM文档树 MMTD 目标数据区域 列表型页面
【摘要】:自上世纪50年代世界上第一台计算机问世以来,尤其是最近几十年随着互联网技术的飞速发展,英特网上来自全球领域的数据呈现指数型的增长。我们的日常生活也早已和这些海量的数据密切相关。互联网上的数据当然主要以Web数据为主要载体。但是由于受到web固有半结构限制再加上网页随处可见的与主题信息毫不相干的广告等噪声信息,这样使得我们对于自己感兴趣的信息难以从海量的web数据中获取并利用。于是研究如何准确方便的从海量的信息中提取人们关心的目标信息数据并且结构化存储起来变得越来越重要。目前这方面的研究已成为国内外学者研究热点之一,基本上多数的研究都是在HTML标签的解析基础上基于网页DOM树结构或者视觉树,然后通过一些包装器的设计等方法进行人工或者半人工也有自动化的提取技术,很多研究也取得了很好的效果。本文的研究也是建立在DOM树的结构基础上,针对列表型页面的数据提取做了详细的研究。提取结构特征值,通过对特征值的处理引入了中介数学理论。在定位目标数据区域的算法研究中,本文首先在基于对HTML解析成DOM文档树的基础上进行了优化处理。并且提出了“基于XPath的叶子节点路径改进算法”该算法输出DOM文档树叶子节点一个路径。此路径结构是后续的工作的可行性至关重要的基础。在此基础上把中介数学理论系统(MMT D)引入并且针对DOM树的结构特征提出了“基于MMTD目标数据区域定位算法(DL_MMTD) ",这个对模糊世界进行量化处理的数学方法被用在计算机科学的多个领域,尤其是模糊集处理方面。但是本文首次把中介数学理论应用到了网页信息提取研究上来,并且取得了不错的效果。紧接着对数据记录进行提取算法研究。提出了数据记录长度的概念。并且相应提出了“基于路径结构的数据记录长度求取算法(CDL_PathStructure)"。在得到每一个数据记录的数据长度的基础上都数据记录的数据项做依次提取工
【关键词】:DOM文档树 MMTD 目标数据区域 列表型页面
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 绪论8-14
- 1.1 研究背景及意义8-9
- 1.2 国内外研究现状9-11
- 1.3 本文主要研究问题11-12
- 1.4 本文的章节安排12-14
- 第二章 Web页面数据抽取及相关技术概述14-24
- 2.1 半结构化数据(Semi-structured Data)14-15
- 2.1.1 半结构化数据定义14-15
- 2.1.2 半结构化数据的特点15
- 2.2 Web页面数据抽取15-17
- 2.2.1 Web页面数据抽取定义15-16
- 2.2.2 数据抽取与信息检索16-17
- 2.3 常见Web结构分类17-19
- 2.4 DOM文档树19-21
- 2.5 解析HTML的工具21-24
- 2.5.1 WebBrowser21-22
- 2.5.2 HtmlParser22-24
- 第三章 Web页面目标数据区域定位24-41
- 3.1 Web页面结构特征24-32
- 3.1.1 解析HTML源文件24-25
- 3.1.2 叶子节点组最小子树获取算法25-30
- 3.1.3 目标数据区域结构特征分析30-32
- 3.2 中介数学理论(MMTD)32-34
- 3.3 基于MMTD目标数据区域定位算法(DL_MMTD)34-37
- 3.4 实验验证37-39
- 3.4.1 数据集选择37-38
- 3.4.2 实验检测指标38
- 3.4.3 实验结果对比38-39
- 3.5 本章小结39-41
- 第四章 数据记录抽取41-48
- 4.1 数据记录(DataRecord)41-42
- 4.2 RST算法介绍42-44
- 4.3 基于路径结构的数据记录长度求取算法44-47
- 4.4 数据记录边界确定47
- 4.5 本章小结47-48
- 第五章 基于Web页面结构的数据提取实验分析48-52
- 5.1 整体流程48
- 5.2 实验数据集48-49
- 5.3 实验评价指标49-50
- 5.4 实验结果50-51
- 5.5 本章小结51-52
- 第六章 总结与展望52-54
- 6.1 本文内容总结52-53
- 6.2 展望53-54
- 参考文献54-59
- 附录A 图索引59-60
- Appendix A Figure Index60-61
- 附录B 表索引61-62
- Appendix B Table Index62-63
- 致谢63-64
- 攻读硕士学位期间学术活动及成果情况64
【相似文献】
中国期刊全文数据库 前10条
1 李峰;;教你实时刷新网页数据[J];电脑采购周刊;2002年12期
2 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
3 北运河畔;;网页数据表只看不改[J];电脑爱好者(普及版);2007年12期
4 王娟娟;吴静;;网页数据多层语义描述标签设计[J];通信技术;2009年08期
5 屈武江;;基于网页数据抽取技术的图书著录系统设计与实现[J];辽宁师专学报(自然科学版);2012年02期
6 潘庆红;基于ASP+ADO技术的网页数据交付方法分析[J];甘肃科技;2005年07期
7 朱佳;张忠能;;一种基于聚类的全自动网页数据记录抽取方法[J];微型电脑应用;2010年12期
8 俞琰;;网页数据智能抽取方法[J];微处理机;2006年06期
9 ;Google拍街景误搜WiFi私隐致歉[J];国际新闻界;2010年05期
10 曹淑华;;网页数据采集的设计编程[J];内江科技;2009年07期
中国硕士学位论文全文数据库 前4条
1 胡瑞;基于Web页面结构的网页数据提取研究[D];安徽大学;2016年
2 田建超;网页数据采集和还原系统设计[D];西安电子科技大学;2010年
3 李智;基于树结构的网页数据自动抽取方法的研究与实现[D];吉林大学;2005年
4 黄佳;比较购物搜索引擎的研究与应用[D];武汉理工大学;2013年
,本文编号:830931
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/830931.html