当前位置:主页 > 管理论文 > 移动网络论文 >

主题相似度与链接权重相结合的垃圾网页排序检测

发布时间:2017-11-04 19:19

  本文关键词:主题相似度与链接权重相结合的垃圾网页排序检测


  更多相关文章: 垃圾网页检测 链接作弊 排序算法 主题相似度 非信任值传播


【摘要】:针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。
【作者单位】: 西南交通大学信息科学与技术学院;
【基金】:四川省学术和技术带头人培养资助项目~~
【分类号】:TP393.092
【正文快照】: 0引言随着互联网的飞速发展,网络信息数据不断膨胀。搜索引擎已成为人们获取信息的重要途径。然而,网页作弊者利用各种手段欺骗搜索引擎以获得高于其应得的排名,从而获取商业利益,这种行为称为Web spam。研究发现,2011年垃圾网页比例已达到20%[1]。随着Web 2.0的发展,用户能方

本文编号:1140763

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1140763.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09ad1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com