当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于蚁群优化的网页作弊检测技术研究

发布时间:2017-05-02 04:02

  本文关键词:基于蚁群优化的网页作弊检测技术研究,由笔耕文化传播整理发布。


【摘要】:互联网已成为一个重要的信息和资源共享平台,互联网用户不仅可以在网上处理各种事务,还可以在网上搜索自己想要的信息。给定一个具体的查询,搜索引擎会根据自己的排名机制对互联网上的网页资源进行排序,然后将与用户查询相关的结果返回给用户,但是用户一般比较倾向于浏览搜索引擎返回结果的首页记录,因此,网站在搜索引擎返回结果中的位置就成为了网络服务提供者所关注的问题。一些黑帽SEO采用不正当的手段欺骗搜索引擎以获取网站的高排名,这种欺骗搜索引擎以获取高排名的行为被称为网页作弊。网页作弊不但降低了搜索引擎检索信息的质量,而且还给互联网用户造成了巨大的经济损失。因此,如何检测网页作弊已成为当前互联网最为迫切的任务之 网页作弊检测问题可以看作是一个二元分类问题,本文将数据集WEBSPAM-UK2006的直接特征、内容特征和链接特征结合起来构建实验数据集,然后采用基于蚁群优化的网页作弊检测算法来对网页作弊进行检测。在数据预处理阶段,本文首先采用k-means算法解决了数据不平衡问题,然后采用基于信息增益的特征选择算法筛选出实验特征子集,最后对实验特征子集进行基于信息熵的离散化处理。在分类模型训练阶段,本文采用蚁群优化算法从训练集中提取出分类规则并对分类规则进行修剪处理以形成分类模型。在分类检测阶段,将测试样本输入分类模型后,分类模型将能够很好地预测出测试样本的类别。 最后,本文在实验数据集WEBSPAM-UK2006上进行了多组实验,并将本文的检测算法与其他检测算法进行了对比。实验结果显示,本文提出的基于蚁群优化的检测算法能够获得非常好的检测效果。
【关键词】:网页作弊 分类问题 蚁群优化 数据不平衡 规则提取 分类模型
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
  • 摘要6-7
  • Abstract7-10
  • 第1章 绪论10-14
  • 1.1 研究背景和意义10-11
  • 1.2 研究目标和研究内容11-12
  • 1.3 论文的结构安排12-14
  • 第2章 网页作弊检测技术相关研究14-26
  • 2.1 常见的搜索引擎排名算法14-17
  • 2.1.1 TF-IDF算法14-15
  • 2.1.2 PageRank算法15-16
  • 2.1.3 HITS算法16-17
  • 2.2 常见的网页作弊技术17-21
  • 2.2.1 基于内容的网页作弊技术17-18
  • 2.2.2 基于链接的网页作弊技术18-20
  • 2.2.3 基于隐藏的网页作弊技术20-21
  • 2.3 网页作弊检测研究现状21-25
  • 2.3.1 基于内容的网页作弊检测技术21-22
  • 2.3.2 基于链接的网页作弊检测技术22-23
  • 2.3.3 基于隐藏的网页作弊检测技术23-25
  • 2.3.4 其它的网页作弊检测技术25
  • 2.4 本章小结25-26
  • 第3章 基于蚁群优化的分类算法研究26-37
  • 3.1 蚁群优化算法相关背景26
  • 3.2 蚁群优化算法的仿生机理26-28
  • 3.2.1 蚂蚁的觅食行为26-27
  • 3.2.2 蚂蚁的搜索策略27-28
  • 3.3 虚拟蚂蚁与真实蚂蚁的异同28-29
  • 3.4 蚁群优化算法机制分析29
  • 3.5 基于蚁群优化的分类算法研究29-36
  • 3.5.1 基于蚁群优化的分类原理29-30
  • 3.5.2 分类规则形成原理30-33
  • 3.5.3 规则修剪33
  • 3.5.4 分类规则的使用33-34
  • 3.5.5 基于蚁群优化的分类规则提取算法描述34-35
  • 3.5.6 基于蚁群优化的分类算法特点35-36
  • 3.6 本章小结36-37
  • 第4章 基于蚁群优化的网页作弊检测技术研究37-48
  • 4.1 基于蚁群优化的网页作弊检测方案设计37-38
  • 4.2 数据集平衡处理38-39
  • 4.3 特征选择39-42
  • 4.3.1 基于CHI的特征选择方法40-41
  • 4.3.2 基于信息增益的特征选择方法41-42
  • 4.4 特征离散化处理42-43
  • 4.4.1 基于信息熵的离散化处理方法42-43
  • 4.4.2 离散化过程描述43
  • 4.5 基于改进蚁群优化的网页作弊检测算法43-47
  • 4.5.1 基于蚁群优化的分类算法缺陷43-44
  • 4.5.2 基于改进蚁群优化的分类规则提取44
  • 4.5.3 分类规则形成过程44-45
  • 4.5.4 分类规则修剪与检测45
  • 4.5.5 分类规则提取算法描述45-47
  • 4.6 本章小结47-48
  • 第5章 实验结果及其分析48-56
  • 5.1 实验数据集及实验方法48-49
  • 5.1.1 实验数据集简介48-49
  • 5.1.2 十倍交叉验证方法49
  • 5.2 实验评价指标49-50
  • 5.3 实验结果与分析50-55
  • 5.3.1 实验参数设置50-51
  • 5.3.2 第一组实验及其分析51-52
  • 5.3.3 第二组实验及其分析52-53
  • 5.3.4 第三组实验及其分析53-55
  • 5.4 本章小结55-56
  • 总结与展望56-58
  • 总结56-57
  • 下一步工作57-58
  • 致谢58-59
  • 参考文献59-64
  • 攻读硕士学位期间发表的论文64

【参考文献】

中国期刊全文数据库 前2条

1 王和勇;樊泓坤;姚正安;李成安;;不平衡数据集的分类方法研究[J];计算机应用研究;2008年05期

2 叶志飞;文益民;吕宝粮;;不平衡分类问题研究综述[J];智能系统学报;2009年02期


  本文关键词:基于蚁群优化的网页作弊检测技术研究,,由笔耕文化传播整理发布。



本文编号:340214

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/340214.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d48a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com