面向不规则列表的网页数据抽取技术的研究
发布时间:2017-08-03 06:20
本文关键词:面向不规则列表的网页数据抽取技术的研究
更多相关文章: 列表页 网页数据抽取 标签树匹配 部分树对齐
【摘要】:抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
【作者单位】: 南京财经大学信息工程学院;
【关键词】: 列表页 网页数据抽取 标签树匹配 部分树对齐
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言随着当今世界互联网的飞速发展,Web已经发展成为一个巨大的和共享的信息空间,这些大量的数据可以为进一步的数据挖掘、数据集成等系统提供数据支持,因此,网页数据抽取[1]将具有广阔的前景和应用价值。列表页是其中一种很重要的富含数据的网页,其特点是每一个页面都含有一,
本文编号:613019
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/613019.html