当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于链接权重的垃圾网页检测算法研究

发布时间:2020-09-10 08:26
   随着计算机的发展,人们与互联网的联系日益密切,与此同时,垃圾网页层出不穷,欺骗搜索引擎,影响用户的上网体验,成为影响互联网环境的一大因素。介绍了垃圾网页的概念,探究了垃圾网页常用的作弊手段与检测方法,垃圾网页常通过内容作弊与链接作弊以提高自身在搜索引擎中的重要性,现有算法可分为基于内容的检测算法与基于链接的检测算法以及其他。对于基于链接的垃圾网页检测算法,提出了一种改进算法。首先分析了现有算法的一些不足,网页在传播评分时以出度或入度平均分配分数,未有效处理垃圾网页通过各种方法指向高评分网页或被高评分网页指向的情况。针对这些不足,为每个链接赋予了一定权重,使得网页在传播分数时与链接权重相关,权重越大的链接所能传播的分数越高。出链作弊是指垃圾网页通过指向大量高评分网页以提升分数,但这一行为会得到区分识别。入链作弊是指垃圾网页通过将高评分网页指向自身,以获得来自高评分网页的分数,提出的算法使得高评分网页链接到低评分网页时也能受低评分网页影响导致自身评分下降。最后证明了所提出算法的收敛性。基于WEBSPAM-UK2006与WEBSPAM-UK2007数据集的实验,在不同实验指标下对比了PageRank,TrustRank以及Trust-Distrust Rank算法,结果表明提出的垃圾网页检测算法能有效地降低垃圾网页在全部网页中的排名,提高垃圾网页的检测效果。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.092
【部分图文】:

垃圾,网页,量桶,网数


图 4.1 UK2006 Spam Factor页数量桶结果如表 4.3 所示。表 4.3 UK2006 每个桶的垃圾网页数量桶垃圾网数量LinkWeightRank PageRank TrustRank T1 0 15 0 2 0 33 0 3 2 114 3 4 0 155 2 5 0 49 15 6 4 52 38 7 10 65 63 8 11 34 98 9 23 71 72 10 35 60 91 11 88 69 126 12 113 65 130 13 125 96 157

垃圾,网页


32图 4.2 UK2006 每个桶的垃圾网页数量从图 4.2 中可以看到,在 1-4 桶中,LinkWeightRank、TrustRank、T-Rank 的垃圾网页数量均较少,基本接近 0,而 PageRank 的垃圾网页数量相对较多,即使在数量最少的 1 号桶也有 15 个垃圾网页。从第 5 桶开始,LinkWeightRank 与 TrustRank和 T-Rank 的差距开始增大,LinkWeightRank 在 5-14 桶依然保持最低的垃圾网页数量

垃圾,网页


1 0 15 0 2 0 48 0 3 2 162 3 4 2 317 5 5 2 366 20 16 6 418 58 47 16 483 121 18 27 517 219 19 50 588 291 210 85 648 382 311 173 717 508 412 286 782 638 513 411 878 795 714 525 984 953 815 739 1128 1149 1016 1000 1312 1302 1217 1236 1517 1449 1318 1343 1740 1624 1519 1592 1870 1831 1720 1924 1924 1924 19

【相似文献】

相关期刊论文 前10条

1 程宽桐;算法分类及各种基本算法的比较与优选(上)[J];齐鲁珠坛;1996年04期

2 刘培;池忠军;;算法歧视的伦理反思[J];自然辩证法通讯;2019年10期

3 孙建丽;;算法自动化决策风险的法律规制研究[J];法治研究;2019年04期

4 吴珍珍;;基于分类规则算法对存款意愿倾向的研究[J];石河子科技;2018年02期

5 唐璐杨;唐小妹;李柏渝;刘小汇;;多源融合导航系统的融合算法综述[J];全球定位系统;2018年03期

6 周祉含;;西方新闻传播学的算法研究综述[J];新闻爱好者;2019年04期

7 赵春杰;;算法共谋的规制思路[J];市场周刊;2019年07期

8 金爽;;基于标签传播的社区发现算法研究与应用[J];电脑迷;2018年01期

9 孙建丽;;试论算法的法律保护模式[J];电子知识产权;2019年06期

10 程宽桐;算法分类及各种基本算法的比较与优选(下)[J];齐鲁珠坛;1996年05期

相关会议论文 前1条

1 李铁山;张锦;王东;陈波;;传感器网络中容错路由算法分类研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

相关博士学位论文 前7条

1 高阳;基于局部扩展的重叠社区发现算法研究[D];哈尔滨工业大学;2019年

2 贾洁茹;跨摄像机行人再识别中度量学习算法研究[D];北京交通大学;2019年

3 翟婷婷;面向流数据分类的在线学习算法研究[D];南京大学;2018年

4 段沛博;分布式约束优化算法的研究与应用[D];东北大学;2017年

5 罗春备;面向多尺度复杂场景的高效电磁仿真算法研究[D];浙江大学;2019年

6 邵彦超;油气井安全生产监控数据预测预警系统及算法研究[D];北京邮电大学;2016年

7 刘琼;乡村道路环境下农业机器人导航避障算法研究[D];西北农林科技大学;2017年

相关硕士学位论文 前10条

1 王强强;基于特征筛选脑电睡眠分期算法研究[D];重庆邮电大学;2019年

2 王們;有序学习算法及其在成绩预测中的应用[D];南京师范大学;2019年

3 朱小祥;基于社会网络的社区发现算法研究[D];南京航空航天大学;2019年

4 王乐;基于DT-SVM的校园霸凌检测算法[D];哈尔滨工业大学;2019年

5 项耀军;基于深度学习的商标检测算法研究[D];哈尔滨工业大学;2018年

6 杨子奇;面向大规模数据分类问题的监督学习算法研究与并行应用[D];哈尔滨工业大学;2018年

7 谢天;基于图的偏标记学习算法研究[D];战略支援部队信息工程大学;2019年

8 肖萍;大规模MIMO系统的低复杂度检测算法研究[D];西安电子科技大学;2019年

9 周姜炜;基于链接权重的垃圾网页检测算法研究[D];华中科技大学;2019年

10 李明洋;基于密度聚类算法的若干改进及应用研究[D];吉林财经大学;2019年



本文编号:2815603

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2815603.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d15d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com