基于视觉特征的网页清洗研究与实现
发布时间:2017-10-17 11:37
本文关键词:基于视觉特征的网页清洗研究与实现
【摘要】:网页清洗,也称为网页去噪,即自动识别并去除网页中的噪音信息,提取网页中的有用文本。网页清洗为搜索引擎、web数据挖掘等各种应用和研究提供高质量的纯文本数据,对基于互联网的各种应用和研究极具意义。 本文针对当前网页清洗技术中存在的通用性不足的问题,提出了一套基于视觉的网页清洗算法,该算法充分考虑网页制作者设计网页和用户浏览网页的视觉模式信息,从而更具通用性。本文基于该算法设计并实现一个网页清洗系统。 本文主要有四个方面的主要贡献: 首先,通过深入研究互联网页面的半结构化表示,详细分析网页常用表示方法及其特点,根据用户浏览网页观察到的页面结构,将互联网上多样的网页划分为主题型、论坛型和索引型三种不同结构类型的网页,针对不同结构类型的网页更加精确地定义网页清洗任务。 其次,研究基于视觉信息的页面分块算法VIPS(Vision-based Page Segmentation Algorithm),针对网页清洗任务对其进行改进,将网页分成视觉和语义相结合的块,设计自适应调整阈值算法解决对不同页面进行分块的粒度控制问题。 再次,设计正文块识别算法。综合考虑网页视觉块多个层面的信息,对视觉块提取统计特征并进行量化,训练分类模型,最终定位正文块。 第四,设计并实现一套完整的网页清洗系统。设计实验分析本文算法的关键技术,并与两种已有的清洗算法进行比较。实验结果表明本文算法能够有效地对不同结构类型的网页进行正文提取,在准确率和完整性上具有更好的效果。
【关键词】:网页清洗 正文提取 网页分块 VIPS算法
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-16
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-13
- 1.3 论文内容与章节安排13-16
- 1.3.1 论文主要工作13-14
- 1.3.2 论文组织结构14-16
- 第二章 相关知识16-24
- 2.1 页面结构表示16-20
- 2.1.1 HTML16-18
- 2.1.2 DOM18-20
- 2.2 页面结构分析20-24
- 第三章 基于视觉信息的页面分块算法24-36
- 3.1 VIPS(Vision-based Page Segmentation)算法24-28
- 3.2 视觉分块算法实现28-36
- 3.2.1 页面视觉块提取算法29-31
- 3.2.2 自适应调整阈值过程31-36
- 第四章 正文块识别算法36-45
- 4.1 页面视觉块特征提取36-40
- 4.1.1 内容特征37
- 4.1.2 视觉特征37-39
- 4.1.3 标签特征39
- 4.1.4 相似度特征39-40
- 4.2 页面视觉块分类算法40-45
- 4.2.1 分类算法40-42
- 4.2.2 样本打标系统42-45
- 第五章 网页清洗系统实现及实验45-56
- 5.1 网页清洗系统设计与实现45-49
- 5.2 实验分析49-53
- 5.2.1 实验评估49-51
- 5.2.2 自适应调整阈值的分块算法分析51
- 5.2.3 正文块识别特征选取分析51-53
- 5.3 对比实验53-56
- 第六章 总结与展望56-58
- 6.1 本文工作总结56
- 6.2 进一步工作展望56-58
- 参考文献58-62
- 致谢62
【参考文献】
中国期刊全文数据库 前10条
1 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
2 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
3 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
4 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
5 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
6 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
7 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
8 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
9 何正华;顾君忠;杨静;;基于视觉特征的BBS用户发言信息抽取[J];计算机应用;2009年S1期
10 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
,本文编号:1048634
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1048634.html