基于网络结构多样性分析的新型网页排名算法
发布时间:2017-11-07 09:28
本文关键词:基于网络结构多样性分析的新型网页排名算法
更多相关文章: 搜索引擎 排名算法 随机游走 浏览行为 链接分析 作弊检测 概率计数
【摘要】:随着互联网技术的快速发展,人们对搜索引擎的应用越来越广泛,搜索引擎中网页排名算法性能的优劣决定了搜索引擎的服务质量和用户的搜索体验。搜索引擎在对网页进行排名时通常会考虑网页入链的数量和质量,而在链接农场中的目标网页也包含大量入链,此种情况下,网页排名算法应该如何区分权威网页和作弊网页?此外,如今的网络结构特征是多样的,而用来刻画用户随机跳转行为的方法相对单一,如何在复杂的网络结构中灵活的建模用户浏览行为才能更准确的计算网页排名? 基于以上问题本文提出两种新型网页排名算法: (1)提出了基于超链接多样性分析的网页排名算法Drank。该算法认为超链接的来源多样性可以客观的反映网页的权威性,认为指向权威网页的超链接来源十分广泛,而指向作弊网页的超链接来源比较单一。具体计算方法为:首先,借鉴社会网络中社交圈的概念,通过网页间的链接关系统计每个网页的k-近邻集合,并以网页间k-近邻的重合度来定义网页来源的多样性。其次,基于作弊网页和权威网页间的链接结构区别,针对网络中较为常见的操纵子节点作弊和链接交换作弊分别提出两种链接权值调整策略。最后,基于随机游走模型提出了类似于PageRank算法的网页权威值计算方法。实验结果表明:Drank算法能够同时兼顾对权威网页的排名和对作弊网页的抑制。 (2)提出了基于用户浏览行为分析的网页排名算法。该算法认为网页中包含的链接越数量越多用户沿着链继续浏览的可能性越大,即随机跳转的概率越小,同时,随机跳转到某一页面的概率与该页面的权威性成正比。具体计算方法为:首先,,基于以上思想对用户浏览行为进行建模。该模型将随机跳转概率具体化,根据网页的链接结构和权威性得分来计算随机跳转概率。其次,基于网页自身的链接结构特性及其与邻居节点之间的链接关系,分别提出了两种抑制网页作弊的链接权值调整策略。最后,基于随机游走模型提出了一种无参数的权威性计算方法。实验结果表明:该算法在无参数和无先验信息的条件下,能够很好的寻找权威网页和抑制作弊网页。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.3
【相似文献】
中国硕士学位论文全文数据库 前1条
1 陈贺昌;基于网络结构多样性分析的新型网页排名算法[D];吉林大学;2014年
本文编号:1151829
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1151829.html