基于节点类型标注的网页主题信息提取技术研究

发布时间：2017-09-28 20:39

本文关键词：基于节点类型标注的网页主题信息提取技术研究

【摘要】：随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为三类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。三、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(Node Type Annotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(Do C)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖特定标签因而也具有更好的通用性。最后,基于本文NTA算法开发了一款网页正文提取工具Web Clipper,从7大门户网站选取了100多个新闻类网页进行了测试,并且也与目前市面上的三款同类工具有道云剪报、印象笔记悦读以及国外的Readability做了对比实验。初步实验结果显示,本文所提出的算法的平均查全率为98.15%,平均查准率为92.41%,NTA方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,这在一定程度上证实了本文方法的有效性和实用性。
【关键词】：DOM 节点类型标注 主题信息抽取
【学位授予单位】：中国农业科学院
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP393.092;TP391.3
【目录】：

摘要6-7
Abstract7-11
英文缩略表11-12
第一章引言12-16
1.1 研究背景与研究意义12
1.2 国内外研究现状12-14
1.3 论文研究内容14
1.4 论文技术路线14-15
1.5 论文组织结构15-16
第二章网页主题信息抽取16-23
2.1 网页主题信息抽取算法介绍16-20
2.1.1 基于模板匹配的方法16-17
2.1.2 基于机器学习的方法17-18
2.1.3 基于启发式规则的方法18-19
2.1.4 其他方法19-20
2.2 网页主题信息抽取评价方法20-21
2.2.1 直接评价法20-21
2.2.2 间接评价法21
2.3 网页主题信息抽取应用21-22
2.3.1 网页语料处理21
2.3.2 网页内容转换21-22
2.3.3 网页数据挖掘22
2.4 本章小结22-23
第三章节点类型及内聚度23-33
3.1 节点类型24-28
3.1.1 标准DOM节点类型24-26
3.1.2 本文DOM节点类型26-28
3.2 节点内聚度28-32
3.2.1 VIPS方法中的内聚度29
3.2.2 本文方法中的内聚度29-32
3.3 本章小结32-33
第四章基于节点类型标注的方法33-40
4.1 网页预处理33-34
4.1.1 HTML语法的格式化33
4.1.2 特定标签的处理33-34
4.2 节点类型标注34-35
4.3 主题信息抽取35-39
4.3.1 选取最佳剪枝文本节点35-36
4.3.2 DOM剪枝36-38
4.3.3 图片与链接问题38-39
4.4 本章小结39-40
第五章网页主题信息抽取实验40-46
5.1 实验环境设定40
5.2 实验操作流程40-42
5.2.1 选取主题型网页41
5.2.2 WClipper提取网页正文41
5.2.3 选取网页主题内容41
5.2.4 选取正确内容41
5.2.5 计算F1及记录41-42
5.3 实验测试数据集42
5.4 对比实验方法42-43
5.4.1 有道网页剪报工具42
5.4.2 印象笔记悦读工具42-43
5.4.3 Readability工具43
5.5 实验结果及分析43-45
5.6 本章小结45-46
第六章总结与展望46-48
6.1 论文工作总结46-47
6.2 存在的问题及未来的方向47-48
参考文献48-54
在学期间的研究成果54-55
致谢55

【相似文献】

中国期刊全文数据库前10条

1 李建华,王志国,马晓云,韩建国;网页发布常用方法及遇到问题[J];电脑开发与应用;2001年11期

2 王峥;穿梭网络看设计——小议网页设计[J];苏州丝绸工学院学报;1999年06期

3 李亚文;网页设计系列讲座(一) 信息世界的新时尚——用网页展示自己[J];多媒体世界;1999年02期

4 张田力;网页设计系列讲座(四) 在世界面前展示你的风采——网页发布[J];多媒体世界;1999年05期

5 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[J];学报编辑论丛;2000年00期

6 康军;出版社网页的设计与开发[J];科技与出版;2000年05期

7 郭再新,常征旗;查询网页与网页发布[J];南京广播电视大学学报;2000年04期

8 付斌 ,韩松;网页沙龙之发布我的网页[J];网络与信息;2001年10期

9 顾绮芳;韩斌;;《网页设计》教学探索[J];职业圈;2007年14期

10 彭菊萍;李俊青;;基于网络教学环境下的网页设计课程教学的探索与实践[J];科技信息(科学教研);2007年28期

中国重要会议论文全文数据库前2条

1 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[A];学报编辑论丛（第九集）[C];2000年

2 孙周军;肖文名;;基于组合策略网页防篡改系统实现方法研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年

中国重要报纸全文数据库前7条

1 本报记者王兵　通讯员韦炜;小网页大名片长链条[N];中国气象报;2012年

2 林欣欣;Micromedia家族新宠 contribute[N];中国电脑教育报;2003年

3 爱上一条鱼;傻瓜网站管理工具[N];电脑报;2004年

4 湖南省株洲县教育局教育技术装备站许赛苏;做个合格的信息管理员[N];中国电脑教育报;2004年

5 ;书山有路勤为径[N];中国电脑教育报;2004年

6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年

7 通讯员郝金荣　记者曾居仁;万村千乡网页工程建成入选贵州“三农”十大新闻[N];中国气象报;2013年

中国博士学位论文全文数据库前1条

1 林盛;时间感知的Web搜索研究[D];中国科学技术大学;2015年

中国硕士学位论文全文数据库前10条

1 谢方立;基于节点类型标注的网页主题信息提取技术研究[D];中国农业科学院;2016年

2 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年

3 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年

4 谭庆华;赣县中学博客网页建设初探[D];江西师范大学;2005年

5 王ZMr，

本文编号：937952

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/937952.html

上一篇：计算机内网安全管理系统研究
下一篇：基于统计特征的网络入侵检测技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|