基于链接相似度和作弊系数的Spam网页识别算法

发布时间：2020-12-26 03:31

　　Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。

【文章来源】：计算机工程与科学. 2015年10期北大核心

【文章页数】：6 页

【部分图文】：

图１链接结构对比Ｆｉｇｕｒｅ１Ｌｉｎｋｓｔｒｕｃｔｕｒｅｃｏｎｔｒａｓｔ

链接结构,网页

意关联，互相关联的Ｓｐａｍ网页之间的链接结构也存在着比较高的相似性，它们既共同指向一些网页，又被一些相同网页引用。基于链接结构，陈小飞等［１５］提出了一种Ｓｐａｍ网页过滤算法，根据链接结构的相似度（包含出链相似度和入链相似度），运用聚类降权的手段有效评估各链接的质量，达到降低排序、过滤Ｓｐａｍ网页的效果。张勇实［１６］对其提出了改进算法ＬＳＣＢ－ＳＲ，提高了Ｓｐａｍ网页识别率。Ｆｉｇｕｒｅ２Ｌｉｎｋｓｔｒｕｃｔｕｒｅｏｆｔｈｅｓｐａｍｐａｇｅｓ图２Ｓｐａｍ网页之间的链接结构如图３所示，假设ｂ１为Ｓｐａｍ网页，网页ａｉ（ｉ∈｛１，２，３，４｝）与ｂ１有直接或间接的链接关系，其中ａ１和ａ２都有出链直接指向ｂ１，则可以判定ａ１和ａ２具有较高的链接作弊倾向，因为它们帮助ｂ１达到目的。但是，不能因为ｂ１有出链直接指向ａ３而判定ａ３为Ｓｐａｍ网页，只能认为或许存在一定的作弊可能性，因为ａ３无法阻止ｂ１指向它。另外，ｂ１有出链间接指向ａ４，对于ａ４的判定更缺乏依据。对此，王洪伟等［１７］提出了链接作弊系数的方法来解决。它的基本思路是：借鉴ＢａｄＲａｎｋ算法思想，从Ｓｐａｍ网页开始，一个网页如有外链指向可能存在作弊行为的网页（链接作弊系数非零），则该网页也将被认为存在一定的链接作弊可能。通过一定次数的迭代，不仅仅局限于初始Ｓｐａｍ网１９８４ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ＆Ｓｃｉｅｎｃｅ计算机工程与科学２０１５，３７（１０）

召回率,准确率,算法

伪造成正常网页（链接的多样性）的结构，以避开搜索引擎惩罚，所以对入链相似度还应给予适当的权重。４．２同类算法的准确率对比为了验证ＬＳＳＲ算法的有效性，实验选择与Ａｎｔｉ－ＴｒｕｓｔＲａｎｋ算法、ＬＳＣＢ－ＳＲ算法在相同召回率下进行准确率的比较，三种算法取部分的相同参数，即：阈值Ｔｉ＝０．３，Ｔｐ＝０．２５。此外，ＬＳＳＲ算法还设定λ＝０．２以及ｄ＝０．８５。三种算法在对应召回率下通过调整各自不同阈值Ｔ的取值，取得准确率的最大值，结果如图４所示。Ｆｉｇｕｒｅ４Ｃｏｍｐａｒｉｓｏｎｏｆａｃｃｕｒａｃｙａｎｄｒｅｃａｌｌｒａｔｅａｍｏｎｇｓｉｍｉｌａｒａｌｇｏｒｉｔｈｍｓ图４同类算法的准确率／召回率对比实验结果表明，在相同召回率下，ＬＳＳＲ算法的准确率高于ＬＳＣＢ－ＳＲ算法与Ａｎｔｉ－ＴｒｕｓｔＲａｎｋ算法。调整阈值Ｔ的取值越低，召回率越大，满足条件的待判定节点越多（多数是间接指向Ｓｐａｍ网页的节点），节点范围更广，此时ＬＳＳＲ算法还能保持较高的准确率，说明确实改进了式（５）中的衰减问题，所以它的适用性更好。５结束语本文为了提高Ｓｐａｍ网页的识别率，在已有算法和研究成果的基础上，结合实际情况，对链接相似度算法和作弊系数算法提出了改进，并将两种算法组合成全新的ＬＳＳＲ算法。对比实验的结果表明，ＬＳＳＲ算法在拟实性、准确率和适用性方面均有一定提升。下一步研究工作可向算法的识别效率进行改进，待判定网页节点之间的层级（如首页、栏目页、内容页）属性差异研究也可以用来改进识别算法。参考文献：［１］ＨｅｎｚｉｎｇｅｒＭＲ

【参考文献】：
期刊论文
[1]搜索引擎排序作弊的识别:基于文本内容和链接结构的分析[J]. 王洪伟,王伟,孟园. 系统工程理论与实践. 2015(02)

博士论文
[1]基于链接相似性分析的WEB结构挖掘方法研究[D]. 张勇实.哈尔滨工程大学 2012

本文编号：2938952

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2938952.html

上一篇：基于CORD平台的服务链优化部署技术研究
下一篇：互联网扫描行为研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|