基于模板与视觉特征的Web数据抽取技术研究
发布时间:2020-12-04 09:44
随着Web数据库的不断增长,通过查询接口访问获得以HTML页面形式动态呈现的Web资源逐渐成为信息获取的主要手段,有效获取并集成分布在Web上的各数据库资源具有重要的现实意义与广阔的应用前景。本文以Web数据库资源获取与集成为出发点,针对Web数据的异构、动态、多源特性导致现有Web数据抽取方法抽取准确率低、抽取效率不高、无法集成多源数据等问题,提出了基于视觉的Web数据抽取、Web数据模板构造和多源Web数据融合等改进方法,论文的主要工作如下:(1)根据Web数据记录视觉特征,研究查询结果页面数据记录的结构相似性和文本组织形式多样性,针对现有Web数据抽取方法无法准确抽取Web数据记录,提出了基于视觉与DOM树的Web数据定位与抽取(Vision and DOM-tree based Web data Location and Extraction,VDLE)方法。该方法引入视觉块重心偏移量定位数据区域,利用谱聚类算法定位数据区域内结构相似的节点簇,并结合文本组织多样性对数据记录进行定位。实验结果表明,VDLE的抽取结果查准率为99%,比基于DOM树的Deep Web实体抽取机制(D...
【文章来源】:重庆交通大学重庆市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
论文组织结构
定位数据区域内结构相似的节点簇,并结合文本。抽取相关概念与树路径相似度层次结构展示 HTML 文档,提供访问、操作构口,允许程序、脚本动态访问并更新 HTML 文中,节点类型分为根节点、中间节点、叶子节点 树顶端;中间节点拥有父节点与子节点,是连子节点没有子节点,其内容直接展示在页面上。系,同一父节点的节点之间构成兄弟关系。DO到叶子结点所经过的节点标签组成的序列。D
J( a,b)C为节点a与节点b的杰卡德相似系数,集合 A B为节点 a 与节点 b 的最近公共父节点对应的树路径上的节点集合,集合 A B为节点a与节点b树路径上的总节点集合,| A B|为集合 A B中节点的数目,| A |与 | B |分别表示集合 A 与集合 B 中节点的数目。2.1.2 页面分割算法作为微软下一代搜索引擎核心分页算法,VIPS 利用页面布局结构对网页进行分块。VIPS 定义 Web 页面的结构如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示页面中的所有视觉块集合,视觉块之间没有任何重叠,每个视觉块可以迭代表示; (...)1 2T , ,, ,表示页面中所有分割条的集合,由 中两个视觉块确定; (...)1 2M , , ,代表集合 中两个视觉块之间的关系,表示为 {NULL}。如 NULLij ( , ) 表示相邻视觉块i 与j 之间存在分割条 ()ij , 。VIPS 工作流程如下:
【参考文献】:
期刊论文
[1]基于知网与搜索引擎的词汇语义相似度计算[J]. 吴克介,王家伟. 计算机与现代化. 2018(04)
[2]针对开源论坛网页的信息抽取研究[J]. 刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗. 计算机科学与探索. 2017(01)
[3]基于2008版《知网》的词语相似度计算方法[J]. 魏韡,向阳. 计算机工程. 2015(09)
[4]Deep Web数据采集查询构造方法研究[J]. 林海伦,杨晓刚,熊锦华,王元卓,贾岩涛,程学旗. 计算机科学与探索. 2015(09)
[5]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[6]基于《知网》的词语语义相似度改进算法研究[J]. 张沪寅,刘道波,温春艳. 计算机工程. 2015(02)
[7]基于视觉特征的就业信息页面抽取方法[J]. 张昕,鄂海红,宋美娜,杨俊. 软件. 2014(09)
[8]一种基于HowNet的词语语义相似度计算方法[J]. 范弘屹,张仰森. 北京信息科技大学学报(自然科学版). 2014(04)
[9]使用网络搜索引擎计算汉语词汇的语义相似度[J]. 高国强,黄吕威,陈丰钰. 计算机技术与发展. 2014(07)
[10]基于本体的语义相似度算法研究[J]. 贺元香,史宝明,张永. 计算机应用与软件. 2013(11)
硕士论文
[1]Web数据集成中包装器自适应方法研究[D]. 罗伟.山东大学 2011
本文编号:2897379
【文章来源】:重庆交通大学重庆市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
论文组织结构
定位数据区域内结构相似的节点簇,并结合文本。抽取相关概念与树路径相似度层次结构展示 HTML 文档,提供访问、操作构口,允许程序、脚本动态访问并更新 HTML 文中,节点类型分为根节点、中间节点、叶子节点 树顶端;中间节点拥有父节点与子节点,是连子节点没有子节点,其内容直接展示在页面上。系,同一父节点的节点之间构成兄弟关系。DO到叶子结点所经过的节点标签组成的序列。D
J( a,b)C为节点a与节点b的杰卡德相似系数,集合 A B为节点 a 与节点 b 的最近公共父节点对应的树路径上的节点集合,集合 A B为节点a与节点b树路径上的总节点集合,| A B|为集合 A B中节点的数目,| A |与 | B |分别表示集合 A 与集合 B 中节点的数目。2.1.2 页面分割算法作为微软下一代搜索引擎核心分页算法,VIPS 利用页面布局结构对网页进行分块。VIPS 定义 Web 页面的结构如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示页面中的所有视觉块集合,视觉块之间没有任何重叠,每个视觉块可以迭代表示; (...)1 2T , ,, ,表示页面中所有分割条的集合,由 中两个视觉块确定; (...)1 2M , , ,代表集合 中两个视觉块之间的关系,表示为 {NULL}。如 NULLij ( , ) 表示相邻视觉块i 与j 之间存在分割条 ()ij , 。VIPS 工作流程如下:
【参考文献】:
期刊论文
[1]基于知网与搜索引擎的词汇语义相似度计算[J]. 吴克介,王家伟. 计算机与现代化. 2018(04)
[2]针对开源论坛网页的信息抽取研究[J]. 刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗. 计算机科学与探索. 2017(01)
[3]基于2008版《知网》的词语相似度计算方法[J]. 魏韡,向阳. 计算机工程. 2015(09)
[4]Deep Web数据采集查询构造方法研究[J]. 林海伦,杨晓刚,熊锦华,王元卓,贾岩涛,程学旗. 计算机科学与探索. 2015(09)
[5]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[6]基于《知网》的词语语义相似度改进算法研究[J]. 张沪寅,刘道波,温春艳. 计算机工程. 2015(02)
[7]基于视觉特征的就业信息页面抽取方法[J]. 张昕,鄂海红,宋美娜,杨俊. 软件. 2014(09)
[8]一种基于HowNet的词语语义相似度计算方法[J]. 范弘屹,张仰森. 北京信息科技大学学报(自然科学版). 2014(04)
[9]使用网络搜索引擎计算汉语词汇的语义相似度[J]. 高国强,黄吕威,陈丰钰. 计算机技术与发展. 2014(07)
[10]基于本体的语义相似度算法研究[J]. 贺元香,史宝明,张永. 计算机应用与软件. 2013(11)
硕士论文
[1]Web数据集成中包装器自适应方法研究[D]. 罗伟.山东大学 2011
本文编号:2897379
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2897379.html