基于链接相似度和作弊系数的Spam网页识别算法
发布时间:2020-12-26 03:31
Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。
【文章来源】:计算机工程与科学. 2015年10期 北大核心
【文章页数】:6 页
【部分图文】:
图1链接结构对比Figure1Linkstructurecontrast
意关联,互相关联的Spam网页之间的链接结构也存在着比较高的相似性,它们既共同指向一些网页,又被一些相同网页引用。基于链接结构,陈小飞等[15]提出了一种Spam网页过滤算法,根据链接结构的相似度(包含出链相似度和入链相似度),运用聚类降权的手段有效评估各链接的质量,达到降低排序、过滤Spam网页的效果。张勇实[16]对其提出了改进算法LSCB-SR,提高了Spam网页识别率。Figure2Linkstructureofthespampages图2Spam网页之间的链接结构如图3所示,假设b1为Spam网页,网页ai(i∈{1,2,3,4})与b1有直接或间接的链接关系,其中a1和a2都有出链直接指向b1,则可以判定a1和a2具有较高的链接作弊倾向,因为它们帮助b1达到目的。但是,不能因为b1有出链直接指向a3而判定a3为Spam网页,只能认为或许存在一定的作弊可能性,因为a3无法阻止b1指向它。另外,b1有出链间接指向a4,对于a4的判定更缺乏依据。对此,王洪伟等[17]提出了链接作弊系数的方法来解决。它的基本思路是:借鉴BadRank算法思想,从Spam网页开始,一个网页如有外链指向可能存在作弊行为的网页(链接作弊系数非零),则该网页也将被认为存在一定的链接作弊可能。通过一定次数的迭代,不仅仅局限于初始Spam网1984ComputerEngineering&Science计算机工程与科学2015,37(10)
伪造成正常网页(链接的多样性)的结构,以避开搜索引擎惩罚,所以对入链相似度还应给予适当的权重。4.2同类算法的准确率对比为了验证LSSR算法的有效性,实验选择与Anti-TrustRank算法、LSCB-SR算法在相同召回率下进行准确率的比较,三种算法取部分的相同参数,即:阈值Ti=0.3,Tp=0.25。此外,LSSR算法还设定λ=0.2以及d=0.85。三种算法在对应召回率下通过调整各自不同阈值T的取值,取得准确率的最大值,结果如图4所示。Figure4Comparisonofaccuracyandrecallrateamongsimilaralgorithms图4同类算法的准确率/召回率对比实验结果表明,在相同召回率下,LSSR算法的准确率高于LSCB-SR算法与Anti-TrustRank算法。调整阈值T的取值越低,召回率越大,满足条件的待判定节点越多(多数是间接指向Spam网页的节点),节点范围更广,此时LSSR算法还能保持较高的准确率,说明确实改进了式(5)中的衰减问题,所以它的适用性更好。5结束语本文为了提高Spam网页的识别率,在已有算法和研究成果的基础上,结合实际情况,对链接相似度算法和作弊系数算法提出了改进,并将两种算法组合成全新的LSSR算法。对比实验的结果表明,LSSR算法在拟实性、准确率和适用性方面均有一定提升。下一步研究工作可向算法的识别效率进行改进,待判定网页节点之间的层级(如首页、栏目页、内容页)属性差异研究也可以用来改进识别算法。参考文献:[1]HenzingerMR
【参考文献】:
期刊论文
[1]搜索引擎排序作弊的识别:基于文本内容和链接结构的分析[J]. 王洪伟,王伟,孟园. 系统工程理论与实践. 2015(02)
博士论文
[1]基于链接相似性分析的WEB结构挖掘方法研究[D]. 张勇实.哈尔滨工程大学 2012
本文编号:2938952
【文章来源】:计算机工程与科学. 2015年10期 北大核心
【文章页数】:6 页
【部分图文】:
图1链接结构对比Figure1Linkstructurecontrast
意关联,互相关联的Spam网页之间的链接结构也存在着比较高的相似性,它们既共同指向一些网页,又被一些相同网页引用。基于链接结构,陈小飞等[15]提出了一种Spam网页过滤算法,根据链接结构的相似度(包含出链相似度和入链相似度),运用聚类降权的手段有效评估各链接的质量,达到降低排序、过滤Spam网页的效果。张勇实[16]对其提出了改进算法LSCB-SR,提高了Spam网页识别率。Figure2Linkstructureofthespampages图2Spam网页之间的链接结构如图3所示,假设b1为Spam网页,网页ai(i∈{1,2,3,4})与b1有直接或间接的链接关系,其中a1和a2都有出链直接指向b1,则可以判定a1和a2具有较高的链接作弊倾向,因为它们帮助b1达到目的。但是,不能因为b1有出链直接指向a3而判定a3为Spam网页,只能认为或许存在一定的作弊可能性,因为a3无法阻止b1指向它。另外,b1有出链间接指向a4,对于a4的判定更缺乏依据。对此,王洪伟等[17]提出了链接作弊系数的方法来解决。它的基本思路是:借鉴BadRank算法思想,从Spam网页开始,一个网页如有外链指向可能存在作弊行为的网页(链接作弊系数非零),则该网页也将被认为存在一定的链接作弊可能。通过一定次数的迭代,不仅仅局限于初始Spam网1984ComputerEngineering&Science计算机工程与科学2015,37(10)
伪造成正常网页(链接的多样性)的结构,以避开搜索引擎惩罚,所以对入链相似度还应给予适当的权重。4.2同类算法的准确率对比为了验证LSSR算法的有效性,实验选择与Anti-TrustRank算法、LSCB-SR算法在相同召回率下进行准确率的比较,三种算法取部分的相同参数,即:阈值Ti=0.3,Tp=0.25。此外,LSSR算法还设定λ=0.2以及d=0.85。三种算法在对应召回率下通过调整各自不同阈值T的取值,取得准确率的最大值,结果如图4所示。Figure4Comparisonofaccuracyandrecallrateamongsimilaralgorithms图4同类算法的准确率/召回率对比实验结果表明,在相同召回率下,LSSR算法的准确率高于LSCB-SR算法与Anti-TrustRank算法。调整阈值T的取值越低,召回率越大,满足条件的待判定节点越多(多数是间接指向Spam网页的节点),节点范围更广,此时LSSR算法还能保持较高的准确率,说明确实改进了式(5)中的衰减问题,所以它的适用性更好。5结束语本文为了提高Spam网页的识别率,在已有算法和研究成果的基础上,结合实际情况,对链接相似度算法和作弊系数算法提出了改进,并将两种算法组合成全新的LSSR算法。对比实验的结果表明,LSSR算法在拟实性、准确率和适用性方面均有一定提升。下一步研究工作可向算法的识别效率进行改进,待判定网页节点之间的层级(如首页、栏目页、内容页)属性差异研究也可以用来改进识别算法。参考文献:[1]HenzingerMR
【参考文献】:
期刊论文
[1]搜索引擎排序作弊的识别:基于文本内容和链接结构的分析[J]. 王洪伟,王伟,孟园. 系统工程理论与实践. 2015(02)
博士论文
[1]基于链接相似性分析的WEB结构挖掘方法研究[D]. 张勇实.哈尔滨工程大学 2012
本文编号:2938952
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2938952.html