当前位置:主页 > 管理论文 > 移动网络论文 >

网页数据的自动化抽取技术

发布时间:2021-02-15 17:21
  随着Web技术的迅猛发展,使得Web网页成为信息发布的主要载体也是人们获取信息的主要渠道之一,大量的数据以Web网页形式存储在互联网上,因为HTML编码风格各异,使得人们无法直接从Web网页中抽取出结构化数据,造成了资源的极大浪费。为了能够获取互联网中庞大的数据,人们提出了各种网页数据抽取方法。根据抽取目标的不同,可将网页数据抽取分为两种类型:(1)网页正文内容抽取,主要针对文章类型网页中的正文内容进行抽取。(2)网页结构化数据抽取,主要针对网页中存在的实例对象进行抽取。本文针对这两种不同的抽取目标分别提出了对应的抽取方法。针对网页正文抽取,因为Web网页中除了包含正文内容外,还包含导航条、广告、版权声明等与主题无关的噪音信息。这些庞大的噪音信息给网页正文抽取带来了巨大的挑战。因此,本文提出一种基于网页聚类的正文信息抽取方法,该方法主要有两个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文内容块的位置特征生成。采用该方法可以从多种类型的网页中抽取正文内容信息。针对网页结构化数据抽取,目前主要采用DOM树路径来作为抽取规则。然而,基于DOM路径的抽取规则使得... 

【文章来源】:福州大学福建省 211工程院校

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

网页数据的自动化抽取技术


图1-1中国网民规模和话联网普及率??Web息抽取可分为两种类型:(1)网页正文抽取,主要针对网页中的正文??

实例图,实例,标签


Web?网页主要是由?HTML?文档组成的,HTML?(Hyper?Text?Markup?Language)??超文本标记语言,是一种标记语言,使用标记标签来描述网页。HTML是一种规??范,一种标准,它通过标记符号来标记要显示的网页中的各个部分[4],图2-1是一??个简单的HTML文档和对应在IE浏览器下的显示效果。HTML语言中包含有各??种各样的标签,常见的类型有文档标签、布局标签、表格标签、列表标签和文章??标签,具体如表2-1所示。在HTML标签中通常有三种类型的属性:id、class、??style。id是标签的标识,class是标签所属的类,用于指定元素显示样式的类,style??用于指定标签的显示风格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉??saw?_A>膚鴨(H)??¥?卜?會??i?8?n〇?world*?Hello?World???t?卜??图2-1?HTML实例??HTML是半结构化的,因此我们无法直接从HTML中抽取出结构化数据。为??了方便处理HTML,人们通常将其转化为树型结构,如图2-2为图2-1中HTML??对应的DOM树模型。DOM?(Document?Object?Model)是文档对象模型的简称⑶,??专门使用于HTML、XML等文档对象模型,它将网页中的各个标签元素看作DOM??树节点的对象

树模型,标签


Web?网页主要是由?HTML?文档组成的,HTML?(Hyper?Text?Markup?Language)??超文本标记语言,是一种标记语言,使用标记标签来描述网页。HTML是一种规??范,一种标准,它通过标记符号来标记要显示的网页中的各个部分[4],图2-1是一??个简单的HTML文档和对应在IE浏览器下的显示效果。HTML语言中包含有各??种各样的标签,常见的类型有文档标签、布局标签、表格标签、列表标签和文章??标签,具体如表2-1所示。在HTML标签中通常有三种类型的属性:id、class、??style。id是标签的标识,class是标签所属的类,用于指定元素显示样式的类,style??用于指定标签的显示风格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉??saw?_A>膚鴨(H)??¥?卜?會??i?8?n〇?world*?Hello?World???t?卜??图2-1?HTML实例??HTML是半结构化的,因此我们无法直接从HTML中抽取出结构化数据。为??了方便处理HTML,人们通常将其转化为树型结构,如图2-2为图2-1中HTML??对应的DOM树模型。DOM?(Document?Object?Model)是文档对象模型的简称⑶,??专门使用于HTML、XML等文档对象模型,它将网页中的各个标签元素看作DOM??树节点的对象

【参考文献】:
期刊论文
[1]基于标签路径特征融合的在线Web新闻内容抽取[J]. 吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.  软件学报. 2016(03)
[2]一种基于节点密度分割和标签传播的Web页面挖掘方法[J]. 张乃洲,曹薇,李石君.  计算机学报. 2015(02)
[3]页面包装器自动生成的改进算法[J]. 李文奇,张忠能.  计算机工程与应用. 2004(22)
[4]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶.  计算机工程与应用. 2003(10)

硕士论文
[1]基于网页结构聚类的Web信息提取技术研究[D]. 廖浩伟.西南交通大学 2013
[2]基于半自动化WEB数据抽取器的信息集成研究[D]. 吴俊霖.西南大学 2010



本文编号:3035248

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3035248.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fe530***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com