当前位置:主页 > 管理论文 > 移动网络论文 >

基于视觉信息和树匹配的Deep Web数据抽取问题的研究

发布时间:2017-10-22 13:16

  本文关键词:基于视觉信息和树匹配的Deep Web数据抽取问题的研究


  更多相关文章: 列表页面 视觉块树 Deep Web数据抽取 树匹配


【摘要】:随着网络技术的快速发展和普及,Web已经成为一个巨大的信息源集合,拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成,具有信息量大、结构化程度高、领域覆盖全面等特点,Deep Web对以分析挖掘为目标的应用系统有着十分重大的应用价值。随着电子商务、市场情报等应用需求的增长,如何从Deep Web中获取用户感兴趣的信息或数据,以便进行深度的分析从而提供更具价值的服务和应用,比如比价系统、元搜索等,已成为目前研究的热点课题。为了有效利用Deep Web, Deep Web数据集成应运而生,包括数据获取、数据抽取和数据整合等环节,其中Deep Web数据抽取是其关键环节。由于Deep Web的海量、异构等特点使得Deep Web数据抽取成为一项极具挑战的工作,其主要困难有:(1) Deep Web涉及领域广,数据量大,要实现Deep Web数据的自动抽取。(2)不同Deep Web页面差距较大,抽取方法要有一定的适应性,确保其抽取的正确率和效率。本文针对Deep Web中包含半结构化数据的列表页面,利用页面的视觉信息和树匹配技术,实现了此类Web页面中数据的全自动抽取,其主要贡献和创新有以下两点:(1)列表页面中数据记录的识别和抽取Web页面的设计是为了方便用户浏览,有着丰富的视觉信息,比如字体、布局、背景等。为了方便利用页面的视觉信息,我们给出了页面的表示模型——视觉块树,相较于VIPS等页面分块技术,这里没有使用任何假设和启发式规则,更能客观的反应页面信息。为了抽取数据记录,我们首先识别出数据区域,这里结合列表页面的视觉特征,给出了数据区域识别算法,相较于传统方法,此算法有较强的适应性。对于数据区域下数据记录的识别,本文采用一种序列划分的策略,其基本思想是先对数据区域树下子树聚类,根据聚类的结果信息对子树序列进行划分,过滤掉噪声节点从而确定每条数据记录的边界,最终实现数据区域下数据记录的抽取工作。(2)基于树匹配技术实现数据项对齐数据项对齐是指将由同一模板生成的数据记录中相同语义项放在关系表的同一列下,即为数据记录生成关系模式。本文将每条数据记录看为一棵树,从而把数据记录模式生成看为多序列对齐问题。首先给出了树匹配的一种严格模式;然后采用简单树匹配(Simple Tree Matching,简称STM)算法得到两棵树的一个最大匹配,由于采用了视觉块树这种数据结构,能对STM进行一些剪枝操作,可使算法复杂度由0(n2)几乎降为线性;最后基于STM给出了模式生成算法。
【关键词】:列表页面 视觉块树 Deep Web数据抽取 树匹配
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要8-10
  • ABSTRACT10-12
  • 第1章 绪论12-18
  • 1.1 研究背景及意义12-13
  • 1.2 Deep Web数据抽取面临的主要问题13-14
  • 1.3 研究内容及贡献14-17
  • 1.3.1 研究内容14-16
  • 1.3.2 本文贡献16-17
  • 1.4 论文组织结构17-18
  • 第2章 Deep Web数据抽取相关研究和技术18-28
  • 2.1 引言18
  • 2.2 Deep Web数据抽取方法分类18-23
  • 2.2.1 手工实现的抽取方法19-20
  • 2.2.2 半自动的抽取方法20-21
  • 2.2.3 全自动的抽取方法21-23
  • 2.3 Web相关技术23-24
  • 2.4 视觉块树24-26
  • 2.5 本章小结26-28
  • 第3章 基于序列划分策略的列表页面数据记录抽取28-45
  • 3.1 引言28-29
  • 3.2 挖掘数据区域29-33
  • 3.3 数据记录的抽取33-40
  • 3.3.1 视觉块相似性度量34-35
  • 3.3.2 数据区域树下的子树聚类35-38
  • 3.3.3 确定数据记录38-40
  • 3.4 实验40-44
  • 3.4.1 数据集40
  • 3.4.2 实验环境40
  • 3.4.3 评价标准40-41
  • 3.4.4 实验结果及分析41-44
  • 3.5 小结44-45
  • 第4章 基于树匹配算法的数据项对齐45-57
  • 4.1 引言45-46
  • 4.2 数据记录预处理46
  • 4.3 树匹配算法46-54
  • 4.3.1 简单树匹配47-51
  • 4.3.2 多重对齐51-54
  • 4.4 实验54-56
  • 4.5 小结56-57
  • 第5章 总结与展望57-59
  • 5.1 总结57-58
  • 5.2 展望58-59
  • 参考文献59-64
  • 致谢64-65
  • 攻读学位期间发表的学术论文目录65-66
  • 附件66

【相似文献】

中国期刊全文数据库 前10条

1 张艳滨;余雁;;视觉信息的多维性探究[J];大众文艺;2013年04期

2 张恒;刘艳丽;;基于视觉信息融合的驾驶员疲劳监测方法综述[J];信息技术;2008年06期

3 李刚;;视觉信息传递的模糊性[J];美术大观;2010年03期

4 寿天德;尹德辉;;关于图形、图像与脑对视觉信息的处理[J];临沂师范学院学报;2010年01期

5 ;非电话类服务[J];视听界;1991年03期

6 韩丛耀;;中华艺术视觉信息数据库建设构想(上)——视觉信息处理机制的建模及在视觉信息数据库建设中的应用[J];中国教育信息化;2009年17期

7 王苗辉;;基于视知觉的视觉信息界面设计研究[J];包装工程;2011年08期

8 汪云九,邢静;视觉信息加工的一些理论和模型[J];机器人;1987年03期

9 刁云程;“视觉信息加工”研究圆满结束[J];中国科学基金;1994年01期

10 陈果;张武昕;高隽;;微小目标的视觉信息获取及系统设计[J];合肥工业大学学报(自然科学版);2007年12期

中国重要会议论文全文数据库 前10条

1 何芸;杜诚;;21世纪的视觉信息技术[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

2 翁强;闫丽;翁伟生;;多维空间感知觉模型对视觉信息加工缺损的研究[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年

3 刘力;龚海韵;;果蝇蘑菇体对视觉信息的归纳作用[A];首届中国神经信息学讨论会摘要[C];2000年

4 孙明;;视觉信息学的基本概念及其新技术在农业中的应用[A];中国农业工程学会2011年学术年会论文集[C];2011年

5 王书荣;;视觉信息加工中的神经元相互作用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

6 苏润娥;吉国明;宋笔锋;;人的视觉信息捕捉能力测试软件[A];陕西省航空装备制造技术发展——第九届陕西省青年科学家论坛论文集[C];2006年

7 杨瑾;李潇;王书荣;;家鸽背外侧丘脑神经元参与外侧单眼视觉和环境亮度检测[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

8 张春宇;张蔚;刘海鹏;于立平;王小捷;李睿凡;;基于视觉信息的汉语词汇语义习得[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 唐克伦;张湘伟;成思源;熊汉伟;张洪;;视觉信息与CMM测量数据的融合[A];第十二届全国图象图形学学术会议论文集[C];2005年

10 李珊珊;于庆宝;冯士刚;鹿麒麟;唐一源;;视觉信息等级处理的双脑协同性研究[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

中国重要报纸全文数据库 前2条

1 记者 班威;“家务机器人”能走能做家务[N];新华每日电讯;2010年

2 本报驻北京记者 李雪;北京心目影院 盲人的音画世界[N];中国文化报;2014年

中国博士学位论文全文数据库 前7条

1 查正军;基于机器学习方法的视觉信息标注研究[D];中国科学技术大学;2009年

2 祝博荟;基于深度与视觉信息融合的行人检测与再识别研究[D];东华大学;2013年

3 何立火;视觉信息质量感知模型及评价方法研究[D];西安电子科技大学;2013年

4 尹显东;多维随机序列敏感视觉信息隐藏技术研究[D];电子科技大学;2007年

5 沈乔楠;堆石混凝土施工管理中视觉信息的处理方法及应用研究[D];清华大学;2010年

6 王蒙军;唇读发声器中视觉信息的检测与处理[D];天津大学;2007年

7 刘震;基于局部视觉信息的大规模图像检索研究[D];中国科学技术大学;2015年

中国硕士学位论文全文数据库 前10条

1 王苗苗;联合锋电位和局部场电位的视觉信息整合特性研究[D];郑州大学;2015年

2 凡思武;基于视觉信息和树匹配的Deep Web数据抽取问题的研究[D];山东大学;2015年

3 彭凌玲;视觉信息的能量[D];吉林大学;2005年

4 张e,

本文编号:1078527


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1078527.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1ee79***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com