复杂网络中节点重要性在垃圾网页检测中的应用
发布时间:2020-03-28 22:06
【摘要】:在现代社会人们通常使用网络来获取信息。但许多无良的商业网站利用网络制造垃圾网页来获取利润。这种行为已经严重干扰了网络的正常秩序。因此,检测垃圾网页工作已经成为亟需解决的重要课题。由于TrustRank算法认为高质量的网站一般不会指向垃圾网站,但现实中这种行为是存在的,因此论文对TrustRank算法进行改进,使用复杂网络中节点重要性的排序方法,提出了基于介数指标和集聚系数的垃圾网页检测算法BCTRank。BCTRank包括2个子算法——基于介数指标的种子集选取算法BCW和基于集聚系数的排序算法CTRank。论文主要工作如下。(1)在现实中,垃圾网页的制造者会在高质量的网页里添加外链,提升自己在网络中的排名。针对这种情况,论文提出了一种新的选取种子集的方法,即BCW算法。首先采用PCA来处理数据,在此基础上使用了介数指标对每个网页进行评分并且对不同的网页定义不同的权重,以此通过每个网页出链的评分与该网页的评分的加权求和来计算每个网页的重要性得分。然后,采用的种子集赋值方式是挑选出得分较高和较低的页面分别赋予不同的初值,使其共同组成种子集。(2)TrustRank排序算法认为网页的跳转概率都是相同的,但通常网页与网页间不应是“平等”的关系,针对此问题论文提出了CTRank算法。把集聚系数中的邻居数改为使用入链数来代替计算。根据改变后的集聚系数的得分和每个节点的出链情况,提出使用不同方法来差异化地计算转移矩阵。以此来改善TrustRank算法在计算转移矩阵时平均分配链接权重、而忽略网页重要性的问题。论文使用WEBSPAM-UK2007对算法的有效性进行评估。使用准确率、召回率以及F值等评价指标对网页的最终排序结果进行分析比较。实验最终结果证明了所提算法的有效性。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5;TP393.092
本文编号:2604977
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5;TP393.092
【参考文献】
相关期刊论文 前10条
1 杨博;陈贺昌;朱冠宇;赵学华;;基于超链接多样性分析的新型网页排名算法[J];计算机学报;2014年04期
2 孙佳龙;郭金运;郭淑艳;;利用夹角余弦和聚类分析的电离层TEC混沌预测[J];武汉大学学报(信息科学版);2014年04期
3 崔现东;刘江;黄韬;陈建亚;刘韵洁;;基于节点介数和替换率的内容中心网络网内缓存策略[J];电子与信息学报;2014年01期
4 刘建国;任卓明;郭强;汪秉宏;;复杂网络中节点重要性排序的研究进展[J];物理学报;2013年17期
5 任卓明;邵凤;刘建国;郭强;汪秉宏;;基于度与集聚系数的网络节点重要性度量方法研究[J];物理学报;2013年12期
6 江雪;孙乐;;用户查询意图切分的研究[J];计算机学报;2013年03期
7 李艳平;徐雅斌;陈俊伊;;搜索服务中基于云计算的垃圾网页识别研究[J];华中科技大学学报(自然科学版);2012年S1期
8 马宏远;王斌;;基于日志分析的搜索引擎查询结果缓存研究[J];计算机研究与发展;2012年S1期
9 潘巍;李战怀;伍赛;陈群;;基于消息传递机制的MapReduce图算法研究[J];计算机学报;2011年10期
10 乔少杰;彭京;李天瑞;李红;李太勇;王超;;基于中心性和PageRank的网页综合评分方法[J];西南交通大学学报;2011年03期
,本文编号:2604977
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2604977.html