伪装型垃圾网页检测技术的研究与实现
发布时间:2017-04-15 04:16
本文关键词:伪装型垃圾网页检测技术的研究与实现,由笔耕文化传播整理发布。
【摘要】:现如今,互联网的发展突飞猛进,遍布日常生活中的各个角落,给人们的生活带来了巨大的便利。而如何在互联网的汪洋大海中获取用户想要的信息,搜索引擎无疑是一个方便可靠的工具。然而,一些人通过不正当手段提高其页面在搜索引擎中的排名以达到他们恶意或非法盈利的目的。学者们将这种类型的网页统称为垃圾网页。本文重点研究伪装型垃圾网页,这类网页隐蔽性强,采用多副本方式进行欺诈。本文将采用相似性度量和分类相结合的方法对这种类型的垃圾网页进行检测。 本文综述了国内外学者目前对伪装型垃圾网页检测技术的研究,详细分析了伪装型垃圾网页形成原因和作弊方式。另外还综述了国内外学者对网页文本相似性度量技术的研究,详细介绍了计算文本相似度的各类方法,以便为实现伪装型垃圾网页检测提供理论基础。 本文根据伪装网页欺诈方式以及网页文本相似性度量方法,提出一套基于相似性度量和分类相结合的伪装型垃圾网页检测方案。在相似性度量模块,重点利用基于LDA (Latent Dirichlet Allocation)主题模型的方法设计并实现,然后在此基础上利用随机森林分类器对伪装型垃圾网页分类进行检测,获得了有效的结果。 本文构建了中文伪装网页样本集,通过前面提出的伪装型垃圾网页检测方法在实验数据样本集上做了几组对比实验,并且对实验结果进行了详尽的分析。
【关键词】:伪装型垃圾网页 相似性度量 分类 LDA主题模型 随机森林
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP393.092
【目录】:
- 摘要6-7
- Abstract7-10
- 第1章 绪论10-16
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-14
- 1.2.1 伪装型垃圾网页检测的研究现状11-12
- 1.2.2 文本相似性度量研究现状12-14
- 1.3 研究目标和研究内容14
- 1.4 论文的结构安排14-15
- 1.5 本章小结15-16
- 第2章 伪装型垃圾网页检测关键技术研究16-27
- 2.1 伪装型垃圾网页欺诈介绍16-19
- 2.1.1 欺诈原理16-17
- 2.1.2 作弊方式17-18
- 2.1.3 产生原因18-19
- 2.2 网页文本相似性度量研究19-21
- 2.2.1 基于向量空间模型的TF-IDF方法19-20
- 2.2.2 基于语义理解的相似度计算方法20
- 2.2.3 隐性语义索引20-21
- 2.2.4 基于主题模型的相似度计算方法21
- 2.3 伪装型垃圾网页检测技术研究21-24
- 2.3.1 基于统计的Cloaking检测方法21-23
- 2.3.2 基于语义的Cloaking检测方法23-24
- 2.4 系统技术基础24-26
- 2.4.1 Jsoup24-25
- 2.4.2 DOM25
- 2.4.3 HtmlUnit25-26
- 2.4.4 MySQL26
- 2.5 本章小结26-27
- 第3章 伪装型垃圾网页检测系统设计27-41
- 3.1 系统架构设计27-28
- 3.2 基于向量空间模型的网页文本相似性度量设计28-29
- 3.2.1 系统组成28
- 3.2.2 工作流程28-29
- 3.3 基于LDA主题模型的网页文本相似性度量设计29-33
- 3.3.1 基于LDA主题模型的文本建模29-32
- 3.3.2 LDA主题模型下计算网页文本相似度32-33
- 3.3.3 基于LDA主题模型的相似度计算流程33
- 3.4 伪装型垃圾网页分类检测设计33-35
- 3.4.1 网页的特征信息选取33-34
- 3.4.2 随机森林分类设计34-35
- 3.5 系统的数据库设计35-40
- 3.6 本章小结40-41
- 第4章 伪装型垃圾网页检测系统实现41-50
- 4.1 数据样本集的构建41-42
- 4.1.1 模拟普通用户和搜索引擎41
- 4.1.2 解析搜索结果页面获取网页信息41-42
- 4.2 基于向量空间模型的网页文本相似性度量实现42-43
- 4.2.1 中文自动分词的实现42
- 4.2.2 文本和特征向量的表示42-43
- 4.2.3 文本相似度的计算43
- 4.3 基于LDA主题模型的网页文本相似性度量实现43-45
- 4.3.1 参数估计的实现43-44
- 4.3.2 相似度计算的实现44-45
- 4.4 伪装型垃圾网页分类检测实现45-49
- 4.4.1 特征提取的实现45-47
- 4.4.2 随机森林分类检测的实现47-49
- 4.5 本章小结49-50
- 第5章 实验及结果分析50-57
- 5.1 实验数据集介绍50-51
- 5.2 实验环境介绍51
- 5.3 评测指标介绍51-52
- 5.4 分组实验说明52
- 5.5 实验结果分析52-56
- 5.5.1 第一组实验结果及分析52-53
- 5.5.2 第二组实验结果及分析53-56
- 5.6 本章小结56-57
- 第6章 总结与展望57-59
- 6.1 总结57
- 6.2 展望57-59
- 致谢59-60
- 参考文献60-64
- 攻读硕士学位期间发表的论文64
【参考文献】
中国期刊全文数据库 前9条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
3 晋耀红;基于语义的文本过滤系统的设计与实现[J];计算机工程与应用;2003年17期
4 潘谦红,王炬,史忠植;基于属性论的文本相似度计算[J];计算机学报;1999年06期
5 石晶;范猛;李万龙;;基于LDA模型的主题分析[J];自动化学报;2009年12期
6 王莉丽;朱焱;马永强;;基于朴素贝叶斯的伪装型垃圾网页检测[J];计算机应用;2013年S1期
7 李村合,刘竞;搜索引擎Cloaking技术研究[J];情报科学;2005年06期
8 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
9 霍华,冯博琴;基于压缩稀疏矩阵矢量相乘的文本相似度计算[J];小型微型计算机系统;2005年06期
本文关键词:伪装型垃圾网页检测技术的研究与实现,,由笔耕文化传播整理发布。
本文编号:307612
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/307612.html