当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于页面结构的作弊站点识别

发布时间:2017-09-08 03:04

  本文关键词:基于页面结构的作弊站点识别


  更多相关文章: 网页作弊 模板 同质聚类 用户行为 决策树


【摘要】:随着互联网的不断发展,网络信息呈现爆炸式的增长,搜索引擎成为用户获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站为了提高自己在搜索引擎中的排名,并不是通过提高网页质量,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊技术具有多样性、隐蔽性、进化性等特点,是搜索引擎面临的重大挑战之一。在网页作弊中,一种极具代表性的作弊方式是利用相同页面模板结构,通过填充不同的作弊内容,产生众多外观相似的作弊站。由于模板统一,可以统一管理,降低成本,该作弊方式被广泛使用。这类垃圾的特点是它们的网页视觉结构特征完全相同,一般由同一站长制作,常常伴随着附件作弊、夹杂、关键词堆砌等作弊手段。目前,检测此类作弊手段的主要方法是基于网页内容信息,判断网页中是否含有色情词或者赌博词,是否含有堆砌关键词等。这种方式存在以下两个问题:1.准确率低。色情赌博网页并不都是垃圾作弊网页,仅识别色情赌博会将色情赌博好站误判为垃圾页面。2.效率低下。同模板下的作弊页面数以百计,单纯的识别每条网页会使得工作量较大,重复性工作较多。为了批量解决此类垃圾,本文首先分析了浏览器渲染网页的过程和网页的HTML结构,提出了两种模板的定义方式,分别为结构为主的模板(DBT:Dom Biased Template)和样式为主的模板(CBT:Css Based Template)。基于两种的模板定义方式分别设计了模板抽取算法,抽取出站点的模板结构作为站点的指纹特征。并以准确率和召回率作为评测指标,验证了两种模板定义方式的有效性。通过对两种模板抽取算法的性能比较发现,DBT在召回率上比CBT更高,而CBT在准确率上优于DBT。然后,本文采用了DBT算法来计算模板的指纹特征。为了识别出作弊模板站点,首先根据每个站点的模板指纹对不同站点做了同质聚类,将含有相同的模板指纹的站点聚为一个模板簇。为了提高识别模板站点的准确率,本文提出了基于用户行为特征的优质页面挖掘方法,提出了用户访问忠诚度,访问深度等用户行为特征,利用历史封禁数据,以封禁率和误封率两个特征验证了用户行为特征在识别优质页面的效果。最后利用主题模型训练出了色情词表和赌博词表,定义了模板的色情率和游戏率特征,并使用决策树分类算法识别出作弊模板。
【关键词】:网页作弊 模板 同质聚类 用户行为 决策树
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP393.092
【目录】:
  • 摘要8-10
  • ABSTRACT10-12
  • 第1章 绪论12-15
  • 1.1 研究背景12-13
  • 1.2 本文研究的主要内容及意义13-14
  • 1.3 本文的主要结构14-15
  • 第2章 相关背景知识及问题描述15-27
  • 2.1 常见的搜索引擎排序算法15-17
  • 2.1.1 TF-IDF算法15-16
  • 2.1.2 PageRank算法16-17
  • 2.1.3 HITS算法17
  • 2.2 决策树分类算法17-19
  • 2.3 搜索引擎作弊技术19-21
  • 2.4 搜索引擎反作弊现状21-26
  • 2.4.1 基于内容分析的作弊检测21-22
  • 2.4.2 基于链接分析的作弊检测22-24
  • 2.4.3 基于隐藏技术的作弊检测24-25
  • 2.4.4 基于机器学习的作弊检测25
  • 2.4.5 基于用户行为分析的作弊检测25-26
  • 2.5 本章小结26-27
  • 第3章 基于页面结构和样式的模板定义27-37
  • 3.1 引言27
  • 3.2 基于结构的模板定义(DBT:Dom Based Template)27-32
  • 3.2.1 相关定义28
  • 3.2.2 算法设计28-32
  • 3.3 基于样式的模板定义(CBT:Css Based Template)32-34
  • 3.3.1 相关定义32-33
  • 3.3.2 算法设计33-34
  • 3.4 实验和结果34-36
  • 3.4.1 数据集和评测方法34-35
  • 3.4.2 实验结果35-36
  • 3.5 本章小结36-37
  • 第4章 基于页面结构的作弊模板识别37-51
  • 4.1 引言37
  • 4.2 DBT同质聚类37-38
  • 4.3 基于用户行为特征的优质页面挖掘38-44
  • 4.3.1 搜索引擎访问日志介绍39-40
  • 4.3.2 特征定义40-42
  • 4.3.3 实验及评测42-44
  • 4.4 基于决策树学习的作弊模板识别44-47
  • 4.4.1 特征抽取44-47
  • 4.4.2 决策树分类47
  • 4.5 实验结果47-51
  • 4.5.1 数据集的获取47-48
  • 4.5.2 实验结果分析48-51
  • 第5章 总结与展望51-53
  • 5.1 本文完成的工作51
  • 5.2 下一步工作51-53
  • 参考文献53-59
  • 致谢59-60
  • 攻读学位期间发表的学术论文目录60-61
  • 攻读学位期间参加的科研项目61-62
  • 学位论文评闽及答辩情况表62

【参考文献】

中国期刊全文数据库 前1条

1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期



本文编号:811499

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/811499.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户252f2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com