当前位置:主页 > 科技论文 > 搜索引擎论文 >

页面数据过滤技术研究与应用

发布时间:2017-05-20 13:25

  本文关键词:页面数据过滤技术研究与应用,,由笔耕文化传播整理发布。


【摘要】:摘要:互联网页面数量的膨胀使得从海量页面中获取有用信息变得非常重要。然而,网页包含的大量噪音信息(广告、版权信息、导航信息等)给搜索引擎为页面建立索引带来了很大的干扰。这种对页面噪音净化的迫切需求,使得页面数据过滤技术成为研究的热点。 页面数据过滤技术旨在对网页中的充斥的大量与正文无关的且重复性高的噪音信息进行识别,提取网页中的主题相关内容。目前已有很多学者根据网络页面特点提出各种页面数据的净化方法。本文深入分析了各种页面净化方法的优缺点和适用性,指出了现有的页面净化方法缺少对网页的布局特征和视觉描述信息的充分利用等问题,并且针对现代主流商业网站基于"DIV+CSS"的页面设计风格,总结出页面中同一div块中的内容具有同样的语义特征,提出了DIV_FOREST网页表示模型,并结合基于视觉特征的VIPS算法,提出了综合考虑布局特征和视觉特征的DVPS网页分块算法。 在网页分块的基础上,本文对各数据块的空间位置、语义特征和视觉表现特征进行提取、分析和量化表示。给出了网页数据块是主题块或者噪音块的评判标准。至此,实现了应用DVPS算法进行页面数据过滤的过程。然后,论文对新提出的DVPS算法与前人提出的VIPS算法在页面过滤效果上做出比较,仿真结果证明,该算法在处理"CSS+DIV"类型的页面时,表现出了预期的优势。最后,本文在之前页面数据过滤工作的基础上,将净化后的页面作为网页分类器的输入页面,通过分类效果的评估来评判网页净化算法的效果。实验结果证明了本文提出的网页块划分模型和页面数据过滤方法的合理性和有效性。 论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。
【关键词】:页面数据过滤 网页分块 DIV_FOREST模型 DVPS算法
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
  • 致谢5-6
  • 中文摘要6-7
  • ABSTRACT7-11
  • 1 引言11-16
  • 1.1 课题背景与研究意义11-12
  • 1.2 国内外研究现状12-14
  • 1.3 论文研究内容14
  • 1.4 论文组织结构14-16
  • 2 关键技术分析16-26
  • 2.1 网页的表示16-20
  • 2.1.1 超文本标记语言HTML16-17
  • 2.1.2 可扩展标记语言XML17-19
  • 2.1.3 文档对象模型DOM19-20
  • 2.2 信息抽取模型20-23
  • 2.2.1 基于NLP的页面信息抽取20-21
  • 2.2.2 基于包装器(Wrapper)的页面信息抽取21
  • 2.2.3 基于HTML结构分析的网页信息抽取21-22
  • 2.2.4 基于本体的页面信息抽取22
  • 2.2.5 各抽取方法的比较22-23
  • 2.3 文本预处理23-24
  • 2.3.1 正则表达式23
  • 2.3.2 中文分词技术23-24
  • 2.4 CSS+DIV页面布局特点24-25
  • 2.5 小结25-26
  • 3 基于DIV_FOREST网页表示的DVPS算法26-45
  • 3.1 网页分块方法26-30
  • 3.1.1 利用标记布局特征进行网页分块26-27
  • 3.1.2 利用扩展DOM树进行网页分块27-28
  • 3.1.3 利用视觉特征进行网页分块28-30
  • 3.2 页面数据过滤方案30-38
  • 3.2.1 DIV_FOREST模型简介30-32
  • 3.2.2 模型构建规则32-35
  • 3.2.3 DVPS视觉分块算法35-38
  • 3.3 DIV数据块特征提取38-43
  • 3.3.1 文本特征提取39-40
  • 3.3.2 空间特征提取40-41
  • 3.3.3 语义特征提取41-43
  • 3.4 小结43-45
  • 4 页面数据过滤系统设计45-53
  • 4.1 系统结构图45
  • 4.2 实验环境45-50
  • 4.2.1 DIV_FOREST模型构建模块46-47
  • 4.2.2 网页视觉块划分模块47
  • 4.2.3 页面特征提取模块47-50
  • 4.3 实验结果与分析50-53
  • 5 页面数据过滤在网页分类中的应用53-59
  • 5.1 网页分类算法的选择53-55
  • 5.1.1 KNN分类算法53-54
  • 5.1.2 朴素贝叶斯算法54
  • 5.1.3 决策树分类算法54-55
  • 5.1.4 TF-IDF算法55
  • 5.1.5 各分类算法的比较55
  • 5.2 评价指标55-56
  • 5.3 实验数据集56-57
  • 5.4 分类结果分析57
  • 5.5 小结57-59
  • 6 总结与展望59-61
  • 6.1 总结59-60
  • 6.2 未来研究的展望60-61
  • 参考文献61-64
  • 作者简历64-66
  • 学位论文数据集66

【参考文献】

中国期刊全文数据库 前5条

1 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期

2 常红要;朱征宇;陈烨;张鹏;曾丽芳;;基于HTML标记用途分析的网页正文提取技术[J];计算机工程与设计;2010年24期

3 孙晓辉;刘建;王劲林;陈晓;;基于CSS的网页分割算法[J];微计算机应用;2008年09期

4 高琰;谷士文;谭立球;;基于多种策略的页面内容提取算法[J];西南交通大学学报;2007年04期

5 高乐;张健;田贤忠;;基于视觉的Web页面分块算法的改进与实现[J];计算机系统应用;2009年04期


  本文关键词:页面数据过滤技术研究与应用,由笔耕文化传播整理发布。



本文编号:381770

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/381770.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8bceb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com