基于链接分析的搜索引擎反作弊技术研究
发布时间:2020-07-15 14:20
【摘要】:随着互联网的飞速发展和广泛普及,人们网上活动日益频繁。资料显示,目前搜索引擎已经成为因特网的入口,成为人们在网络中获取信息的主要方式。 搜索引擎通过分析用户提交的关键词,将之与索引库中已建立的网页进行对比,将相关性最高的网页返回给用户。由于搜索引擎一般索引了数以亿级的网页,而用户通常只关注前10~20条搜索结果,因而对返回结果页的排序成为搜索引擎的一个关键。而对网站建设者来说,获得更好地排名意味着巨大的利益,而建设与维护一个高质量的网站,往往需要花费大笔精力。于是,从搜索引擎诞生的那天开始,作弊也随之而生。作弊是指针对搜索引擎排序算法中存在的漏洞与不足,采取欺骗的手段,获得网站的不正当排名。目前,针对搜索引擎的排序原理,作弊一般分为内容作弊与链接作弊。作弊不仅增加搜索引擎的运行与维护成本,而且降低搜索效率,影响用户感受。因此,进行搜索引擎的反作弊研究,提出有效地反作弊技术对网络的健康发展与信息的迅速传播具有重要意义。 本文在已有的链接反作弊技术的基础上,提出通过分析网站或网页的Rank时间序列值,挖掘出作弊页的序列特征。主要内容概括如下: 1.首先对搜索引擎的原理,网络结构模型及基于链接的排名算法PageRank与HITS进行分析介绍,然后着重分析了目前针对基于链接的搜索引擎最为普遍的一种作弊方式:链接工厂及其联盟。最终,在分析了各种作弊与反作弊技术的基础上,我们提出可以结合现有反作弊技术,通过分析网页Rank的时间序列值检测作弊网页,并通过实验证实了这种方法的有效性与可行性。 2.设计并实现了一个提取DR(Domain Rank)异常值序列的实验。实验利用了企业生产实践中数据比较新比较全的特点,结合链接作弊的特征,分析了DR值序列在作弊检测中的作用,并对实验中海量数据的处理方法进行了介绍。实验通过对比选取不同的统计特征得到的不同可疑作弊页,对实验结果进行了详细的分析,证实了DR值序列分析在反作弊研究中的合理性与有效性。同时,实验充分考虑了对异常值抽取策略的扩展性兼容,以便后续实验。最后,文章对以后还需要做的工作做了进行了总结展望。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【图文】:
第 2 章 基于链接分析的搜索引擎排序算法题等。查询接口是接受用户查询并返回查询结果的用户界面,目前主流的搜索引擎并不拘泥于基于关键词的查询,而是注重查询接口界面的设计,如检索过程中对用户的提示,返回的查询结果表示方式;注重为用户提供更加多元化的服务等等。搜索引擎流程如图 2-1 所示[17]。
图 2-2 网络链接示意图0 1 0 0 00 0 1 1 00 1 0 0 00 0 0 0 10 0 0 0 00 0 0 0 0 ransition Matrix)定来链接数量,如下:1/ ( ) if <j, i> 0 else.{out j 阵为:0 0 0 0
以用户体验为核心,这也是它与搜索引擎作弊的本质不同。3.1.2现状近年来,互联网的快速发展大大促进了基于 Web 的电子商务的发展。对于电子商务网站来说,网站流量意味着交易机会和商业利润。而网站流量的大小很大程度上取决于该网站的网页在搜索引擎结果中的排名是否靠前。在商业利益的驱使下,商业网站拥有者利用包括作弊在内的各种手段提高自己网站的排名。为了研究互联网上到底存在多少作弊网页, Alexandros Ntoulas 等在一个包含 105,484,686 个网页的数据集上进行了两个实验[9]。在第一个实验中,他们对属于不同顶级域名的网页进行统计,以便发现作弊网页在不同域名上的分布状况。在 8 个最常见的顶级域名上的统计结果如图 3-1 图 3-1 所示:由图 3-1 可见,在.biz 域名上儿乎 70%的网页都是作弊网页;在.us 域名上的作弊网页比例也达到了 35%;而在.edu 域名上几乎没有作弊网页。
本文编号:2756605
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【图文】:
第 2 章 基于链接分析的搜索引擎排序算法题等。查询接口是接受用户查询并返回查询结果的用户界面,目前主流的搜索引擎并不拘泥于基于关键词的查询,而是注重查询接口界面的设计,如检索过程中对用户的提示,返回的查询结果表示方式;注重为用户提供更加多元化的服务等等。搜索引擎流程如图 2-1 所示[17]。
图 2-2 网络链接示意图0 1 0 0 00 0 1 1 00 1 0 0 00 0 0 0 10 0 0 0 00 0 0 0 0 ransition Matrix)定来链接数量,如下:1/ ( ) if <j, i> 0 else.{out j 阵为:0 0 0 0
以用户体验为核心,这也是它与搜索引擎作弊的本质不同。3.1.2现状近年来,互联网的快速发展大大促进了基于 Web 的电子商务的发展。对于电子商务网站来说,网站流量意味着交易机会和商业利润。而网站流量的大小很大程度上取决于该网站的网页在搜索引擎结果中的排名是否靠前。在商业利益的驱使下,商业网站拥有者利用包括作弊在内的各种手段提高自己网站的排名。为了研究互联网上到底存在多少作弊网页, Alexandros Ntoulas 等在一个包含 105,484,686 个网页的数据集上进行了两个实验[9]。在第一个实验中,他们对属于不同顶级域名的网页进行统计,以便发现作弊网页在不同域名上的分布状况。在 8 个最常见的顶级域名上的统计结果如图 3-1 图 3-1 所示:由图 3-1 可见,在.biz 域名上儿乎 70%的网页都是作弊网页;在.us 域名上的作弊网页比例也达到了 35%;而在.edu 域名上几乎没有作弊网页。
【参考文献】
相关期刊论文 前4条
1 闫永权;张大方;;基于频繁的Markov链预测模型[J];计算机应用研究;2007年03期
2 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
3 郭天印;Markov预测与决策的Excel实现[J];陕西工学院学报;2003年01期
4 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
本文编号:2756605
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2756605.html