网页数据的自动化抽取技术

发布时间：2021-02-15 17:21

　　随着Web技术的迅猛发展,使得Web网页成为信息发布的主要载体也是人们获取信息的主要渠道之一,大量的数据以Web网页形式存储在互联网上,因为HTML编码风格各异,使得人们无法直接从Web网页中抽取出结构化数据,造成了资源的极大浪费。为了能够获取互联网中庞大的数据,人们提出了各种网页数据抽取方法。根据抽取目标的不同,可将网页数据抽取分为两种类型:（1）网页正文内容抽取,主要针对文章类型网页中的正文内容进行抽取。（2）网页结构化数据抽取,主要针对网页中存在的实例对象进行抽取。本文针对这两种不同的抽取目标分别提出了对应的抽取方法。针对网页正文抽取,因为Web网页中除了包含正文内容外,还包含导航条、广告、版权声明等与主题无关的噪音信息。这些庞大的噪音信息给网页正文抽取带来了巨大的挑战。因此,本文提出一种基于网页聚类的正文信息抽取方法,该方法主要有两个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文内容块的位置特征生成。采用该方法可以从多种类型的网页中抽取正文内容信息。针对网页结构化数据抽取,目前主要采用DOM树路径来作为抽取规则。然而,基于DOM路径的抽取规则使得...

【文章来源】：福州大学福建省 211工程院校

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

网页数据的自动化抽取技术

图１－１中国网民规模和话联网普及率??Ｗｅｂ息抽取可分为两种类型：（１）网页正文抽取，主要针对网页中的正文??

实例图,实例,标签

树模型,标签

Ｗｅｂ?网页主要是由?ＨＴＭＬ?文档组成的，ＨＴＭＬ?（Ｈｙｐｅｒ?Ｔｅｘｔ?Ｍａｒｋｕｐ?Ｌａｎｇｕａｇｅ）??超文本标记语言，是一种标记语言，使用标记标签来描述网页。ＨＴＭＬ是一种规??范，一种标准，它通过标记符号来标记要显示的网页中的各个部分［４］，图２－１是一??个简单的ＨＴＭＬ文档和对应在ＩＥ浏览器下的显示效果。ＨＴＭＬ语言中包含有各??种各样的标签，常见的类型有文档标签、布局标签、表格标签、列表标签和文章??标签，具体如表２－１所示。在ＨＴＭＬ标签中通常有三种类型的属性：ｉｄ、ｃｌａｓｓ、??ｓｔｙｌｅ。ｉｄ是标签的标识，ｃｌａｓｓ是标签所属的类，用于指定元素显示样式的类，ｓｔｙｌｅ??用于指定标签的显示风格。??一＜＇〇ｏｃｎｆＰＥ?ｆｃｔａａ＞｜?料？／??＇Ｗｏ．＜ｄ．Ｋｔｍｌ?ｊ??４?ｎ？１ｎｉｍｎ—娜娜－?－—?？??酋文雜鄉？?ｓａｗ?＿Ａ＞膚鴨（Ｈ）??￥?卜?會??ｉ?８？ｎ〇?ｗｏｒｌｄ＊?Ｈｅｌｌｏ?Ｗｏｒｌｄ？??ｔ?卜??图２－１?ＨＴＭＬ实例??ＨＴＭＬ是半结构化的，因此我们无法直接从ＨＴＭＬ中抽取出结构化数据。为??了方便处理ＨＴＭＬ，人们通常将其转化为树型结构，如图２－２为图２－１中ＨＴＭＬ??对应的ＤＯＭ树模型。ＤＯＭ?（Ｄｏｃｕｍｅｎｔ?Ｏｂｊｅｃｔ?Ｍｏｄｅｌ）是文档对象模型的简称⑶，??专门使用于ＨＴＭＬ、ＸＭＬ等文档对象模型，它将网页中的各个标签元素看作ＤＯＭ??树节点的对象

【参考文献】：
期刊论文
[1]基于标签路径特征融合的在线Web新闻内容抽取[J]. 吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.  软件学报. 2016(03)
[2]一种基于节点密度分割和标签传播的Web页面挖掘方法[J]. 张乃洲,曹薇,李石君.  计算机学报. 2015(02)
[3]页面包装器自动生成的改进算法[J]. 李文奇,张忠能.  计算机工程与应用. 2004(22)
[4]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶.  计算机工程与应用. 2003(10)

硕士论文
[1]基于网页结构聚类的Web信息提取技术研究[D]. 廖浩伟.西南交通大学 2013
[2]基于半自动化WEB数据抽取器的信息集成研究[D]. 吴俊霖.西南大学 2010

本文编号：3035248

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3035248.html

上一篇：轨道交通车辆MVB总线安全态势感知方法的仿真研究
下一篇：青年创业服务支持平台统一认证授权关键技术研究与设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|