搜索引擎排序作弊的识别:基于文本内容和链接结构的分析
发布时间:2021-03-21 06:03
搜索引擎排序作弊通过提高网页与搜索请求的相关性,达到提高搜索排名的目的.为此,根据作弊网页的特征,引入作弊倾向系数这一概念来衡量网页作弊的可能性.网页作弊通过多种手段实现,鉴于此本文基于网页内容本身的名词密度特征,衡量页面内容作弊的可能性,由于搜索关键词大部分为名词,超过一定名词比例阈值的页面,其内容作弊的可能性越大.根据页面的链接特征,衡量页面链接作弊的可能性,从黑名单页面通过迭代计算链接作弊系数,并根据与黑名单页面的距离设置权重.最终从上述两方面特征来综合考量页面的作弊倾向系数.选取PageRank,TrustRank,BadRank为基线实验,实验结果验证了关于检索词性分析的假设以及链接作弊检测算法的有效性.
【文章来源】:系统工程理论与实践. 2015,35(02)北大核心CSSCIEICSCD
【文章页数】:13 页
【部分图文】:
图2某网络结构图??给定网络图G=〈P,?L>,页面p?e?页面p的链接作弊倾向系数可由公式(2)计算.??
第2期?王洪伟,等:搜索引擎排序作弊的识别:基于文本内容和链接结构的分析?453??xlO5??16.?1?1?1?1?1?1?1?1?1???14?-??12?-?-??10?-?-??_?I??^?8?"I????4?-?■?....????????■?■? ̄??2?-?V^.?-??°0?10?20?30?40?50?60?70?80?90?100??句法类型??图3高频句法类型折线图??根据表4,3个词以内的纯名词组合垄断了三甲,而排名5个词以内的纯名词组合出现频率至少是前45??名,占高频句法组合的44.51%;而排名前100的句法类型中,包含名词的则有79种,共计5148401个查询,??占到高频词性标注结果中的81.24%,由此可以推断名词是搜索引擎查询中使用最广泛的关键词,验证了本文??的假设.??3.2基于链接作弊倾向的反作弊试验??采用C++对本文算法以及相关的排序算法编程实现,数据处理过程在SQL?Server?2005中进行.由于??素材中无法包含相应的网页内容,将公式(6)的网页作弊倾向系数完全由链接作弊倾向系数决定,即内容作??弊倾向系数为0,而基本的排名算法采用经典的PageRank算法.??实验素材来自搜狗实验室,共包含3537379个网页8456740条链接.以网站为研究对象,对网页预处理.??去除网站的自反链接以及重复链接.同时,去掉没有链出链接的网站,因为这类网站对PageRank算法是无??效的.最后,得到6031个网站,以及相互间的27994条链接.然而,上述6031个网站中,有3888个网站只??有链
的排名进行对比,通过公式(10),测试新算法的反作弊性能.??Srank(叫-y->m ̄丑(五.)—?(10)??其中,m表示排名次序,以200为单位,得到10个区间.分子表示原排名位于前m的种子页面中,经过新算??法处理后的排名之和;分母代表排名前m的种子页面,在PageRank算法(如果与其他算法对比,则使用其??他算法的排名)中的排名之和.当Srank(m>0时,说明新算法对旧算法有反作弊性能提升,反之则没有.??令阻尼系数d?=?0.85,调整a的不同取值,观察反作弊效果.由图4可知,在a的不同取值下,新算法较??PageRank算法的反作弊性能均有提升.当a?=?0时.公式(5)的惩罚因子由作弊页面的关联度决定,因此针??对作弊相关页面的惩罚力度较a的其它取值更大:当a?=?1时,惩罚因子则由作弊倾向系数决定,此时针对??全局的惩罚力度较强,并不针对直接将链接指向作弊页面的网页,同时将链接指向这种页面的页面也会受到??一定的连带惩罚;当a?=?0.5时,则综合考虑了两方面因子,并且这两方面因子在惩罚因子中的权重一样,所??以其针对种子页面的反作弊表现介于a?=?0与a?=?1之间.??3?I?I?I?I?I?I?I?1???□??=0??0?S? ̄^ ̄?=0.25??“????木?a=0.5?‘?_??/?—^ ̄?=0.75??2?_?/?^―———it??=i?■??0??1?1?1?1?1?1?I?I?I??200?400?600?800?1000?1200?1400?1600?1800?2000??m??图4新算法与PageRank算法的对
【参考文献】:
期刊论文
[1]上下文对用户搜索行为的影响[J]. 何秀,牛之贤,孙静宇. 情报杂志. 2012(10)
[2]元搜索引擎中排序融合算法的优化研究[J]. 董乐,谢红薇. 计算机应用与软件. 2012(10)
[3]一种抵抗链接作弊的PageRank改进算法[J]. 贺志明,王丽宏,张刚,程学旗. 中文信息学报. 2012(05)
[4]基于网站影响力的网页排序算法[J]. 张芳,郭常盈. 计算机应用. 2012(06)
[5]基于JavaScript的网页重定向作弊技术研究[J]. 王暾. 计算机与数字工程. 2012(03)
[6]搜索引擎垃圾网页检测模型研究[J]. 贾志洋,夏幼明,高炜,王勇刚. 重庆文理学院学报(自然科学版). 2011(05)
[7]反搜索引擎作弊的相关探讨[J]. 李俊. 网络与信息. 2011(01)
[8]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
[9]搜索引擎应对网站作弊的搜索策略和用户的检索策略[J]. 刘俊熙. 现代情报. 2007(06)
本文编号:3092463
【文章来源】:系统工程理论与实践. 2015,35(02)北大核心CSSCIEICSCD
【文章页数】:13 页
【部分图文】:
图2某网络结构图??给定网络图G=〈P,?L>,页面p?e?页面p的链接作弊倾向系数可由公式(2)计算.??
第2期?王洪伟,等:搜索引擎排序作弊的识别:基于文本内容和链接结构的分析?453??xlO5??16.?1?1?1?1?1?1?1?1?1???14?-??12?-?-??10?-?-??_?I??^?8?"I????4?-?■?....????????■?■? ̄??2?-?V^.?-??°0?10?20?30?40?50?60?70?80?90?100??句法类型??图3高频句法类型折线图??根据表4,3个词以内的纯名词组合垄断了三甲,而排名5个词以内的纯名词组合出现频率至少是前45??名,占高频句法组合的44.51%;而排名前100的句法类型中,包含名词的则有79种,共计5148401个查询,??占到高频词性标注结果中的81.24%,由此可以推断名词是搜索引擎查询中使用最广泛的关键词,验证了本文??的假设.??3.2基于链接作弊倾向的反作弊试验??采用C++对本文算法以及相关的排序算法编程实现,数据处理过程在SQL?Server?2005中进行.由于??素材中无法包含相应的网页内容,将公式(6)的网页作弊倾向系数完全由链接作弊倾向系数决定,即内容作??弊倾向系数为0,而基本的排名算法采用经典的PageRank算法.??实验素材来自搜狗实验室,共包含3537379个网页8456740条链接.以网站为研究对象,对网页预处理.??去除网站的自反链接以及重复链接.同时,去掉没有链出链接的网站,因为这类网站对PageRank算法是无??效的.最后,得到6031个网站,以及相互间的27994条链接.然而,上述6031个网站中,有3888个网站只??有链
的排名进行对比,通过公式(10),测试新算法的反作弊性能.??Srank(叫-y->m ̄丑(五.)—?(10)??其中,m表示排名次序,以200为单位,得到10个区间.分子表示原排名位于前m的种子页面中,经过新算??法处理后的排名之和;分母代表排名前m的种子页面,在PageRank算法(如果与其他算法对比,则使用其??他算法的排名)中的排名之和.当Srank(m>0时,说明新算法对旧算法有反作弊性能提升,反之则没有.??令阻尼系数d?=?0.85,调整a的不同取值,观察反作弊效果.由图4可知,在a的不同取值下,新算法较??PageRank算法的反作弊性能均有提升.当a?=?0时.公式(5)的惩罚因子由作弊页面的关联度决定,因此针??对作弊相关页面的惩罚力度较a的其它取值更大:当a?=?1时,惩罚因子则由作弊倾向系数决定,此时针对??全局的惩罚力度较强,并不针对直接将链接指向作弊页面的网页,同时将链接指向这种页面的页面也会受到??一定的连带惩罚;当a?=?0.5时,则综合考虑了两方面因子,并且这两方面因子在惩罚因子中的权重一样,所??以其针对种子页面的反作弊表现介于a?=?0与a?=?1之间.??3?I?I?I?I?I?I?I?1???□??=0??0?S? ̄^ ̄?=0.25??“????木?a=0.5?‘?_??/?—^ ̄?=0.75??2?_?/?^―———it??=i?■??0??1?1?1?1?1?1?I?I?I??200?400?600?800?1000?1200?1400?1600?1800?2000??m??图4新算法与PageRank算法的对
【参考文献】:
期刊论文
[1]上下文对用户搜索行为的影响[J]. 何秀,牛之贤,孙静宇. 情报杂志. 2012(10)
[2]元搜索引擎中排序融合算法的优化研究[J]. 董乐,谢红薇. 计算机应用与软件. 2012(10)
[3]一种抵抗链接作弊的PageRank改进算法[J]. 贺志明,王丽宏,张刚,程学旗. 中文信息学报. 2012(05)
[4]基于网站影响力的网页排序算法[J]. 张芳,郭常盈. 计算机应用. 2012(06)
[5]基于JavaScript的网页重定向作弊技术研究[J]. 王暾. 计算机与数字工程. 2012(03)
[6]搜索引擎垃圾网页检测模型研究[J]. 贾志洋,夏幼明,高炜,王勇刚. 重庆文理学院学报(自然科学版). 2011(05)
[7]反搜索引擎作弊的相关探讨[J]. 李俊. 网络与信息. 2011(01)
[8]PageRank算法的分析及其改进[J]. 王德广,周志刚,梁旭. 计算机工程. 2010(22)
[9]搜索引擎应对网站作弊的搜索策略和用户的检索策略[J]. 刘俊熙. 现代情报. 2007(06)
本文编号:3092463
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3092463.html