基于随机森林算法的作弊网页检测方法研究
本文关键词:基于随机森林算法的作弊网页检测方法研究,由笔耕文化传播整理发布。
【摘要】:作弊网页(Web spam)是指那些通过不正当手段获得高搜索引擎排名的页面。它利用搜索引擎排名规则设计网页,对网页后台内容进行编码和修改,从而诱导用户使网站达到窃取更大化利润的目的。这种行为导致用户体验大幅下降,浪费搜索引擎公司大量的计算和存储空间,被公认为是互联网搜索所面临的最大挑战之一。有效的反作弊方法研究是一项重要的研究课题。本文对作弊网页检测技术进行了探讨和分析,在此基础上将数据预处理融入到随机森林算法中进行了优化研究。本文主要贡献如下:1.针对作弊网页数据集合中的类不平衡性问题,提出了一种改进的SMOTE算法,简记为BKM_SMOTE算法。不同于传统的SMOTE算法在构造新样本时,存在的数据结构变化现象和数据修正后的正负类边界模糊问题,本文引入聚类算法思想,运用二分K均值聚类算法对SMOTE算法存在的问题进行改进。BKM_SMOTE算法的基本思想为通过二分K均值(Bisecting K-Means)算法对负类样本进行聚类操作并计算簇心,通过在簇心到样本点的连线上进行插值,从而构造新样本。该算法在构造过程中达到对数据分布的描述,从而解决SMOTE算法的缺陷,实现了即保留原有数据集的结构,又较好地解决作弊网页数据集不平衡的问题,在一定程度上提升了随机森林算法在处理此类情况的分类效果。2.针对随机森林算法在作弊网页数据集严重失衡的情况下其分类效果不是很理想的问题,本文将BKM_SMOTE算法平衡后的数据集放入随机森林算法中进行处理,利用该平衡数据集进行训练和分类并记录分类结果。通过实验分析表明,检测系统对作弊网页的检测精度达到(84士0.75)%,处理单个网页的平均速度为702ms左右,相比目前正在使用的过滤器提升效果非常明显。
【关键词】:作弊网页 二分K均值算法 SMOTE算法 随机森林 不平衡数据集
【学位授予单位】:信阳师范学院
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP301.6
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 引言10-14
- 1.1 研究背景10-11
- 1.2 研究意义11-12
- 1.3 论文主要工作12-13
- 1.4 论文组织结构13-14
- 第2章 论文相关知识14-30
- 2.1 网页作弊方法分析14-15
- 2.2 机器学习15-16
- 2.3 分类算法16-26
- 2.3.1 朴素贝叶斯算法17-18
- 2.3.2 K最近邻(KNN)算法18
- 2.3.3 支持向量机算法18-20
- 2.3.4 决策树算法20-23
- 2.3.5 随机森林算法23-26
- 2.4 聚类算法26-29
- 2.4.1 基于K均值算法26-27
- 2.4.2 二分K均值算法27-29
- 2.5 小结29-30
- 第3章 基于随机森林算法的作弊网页检测方法30-39
- 3.1 作弊网页数据集分类问题的解决方法30-33
- 3.1.1 优化算法的方法30-31
- 3.1.2 优化数据的方法31-33
- 3.2 随机森林处理作弊网页数据集分类问题的改进-BKM_SMOTE算法33-34
- 3.3 作弊网页检测系统设计34-38
- 3.3.1 框架设计34-35
- 3.3.2 特征提取模块35-36
- 3.3.3 随机森林模块设计36
- 3.3.4 数据库设计36-38
- 3.3.5 反馈学习模块38
- 3.4 本章小结38-39
- 第4章 实现结果与分析39-48
- 4.1 数据集39-40
- 4.2 实验环境40
- 4.3 实验结果及分析40-46
- 4.3.1 随机森林使用BKM_SMOTE算法提升性能的实证分析40-43
- 4.3.2 作弊网页检测系统实证分析43-46
- 4.3.3 系统检测效率46
- 4.4 本章小结46-48
- 第5章 结论48-50
- 5.1 研究内容总结48
- 5.2 工作展望48-50
- 致谢50-51
- 参考文献51-53
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
本文关键词:基于随机森林算法的作弊网页检测方法研究,,由笔耕文化传播整理发布。
本文编号:481202
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/481202.html