搜索引擎排名算法及作弊检测技术研究
本文关键词:搜索引擎排名算法及作弊检测技术研究,,由笔耕文化传播整理发布。
《山东大学》 2010年
搜索引擎排名算法及作弊检测技术研究
王向阳
【摘要】: 随着信息技术的发展,互联网成为人们获取信息的重要来源。搜索引擎作为互联网信息检索的入口,在信息获取的过程中扮演着举足轻重的角色。搜索引擎排名算法负责将最有价值的网页优先推荐给用户,它在提高检索服务质量方面起着重要作用。基于链接分析的排名算法(如PageRank)在今天的搜索引擎中取得了巨大的成功,这种排名思想可以应用到很多其他的信息检索系统中。 然而搜索引擎排名算法目前面临着一个严重问题,那就是搜索引擎作弊。搜索引擎作弊是指通过不正当的手段,使某些网页在搜索结果中获得高于其实际价值的排名的欺骗行为。搜索引擎作弊不但会增加搜索引擎运行成本、降低搜索性能,而且严重影响用户体验。因此进行搜索引擎作弊检测、剔除互联网上的作弊内容,不论对搜索引擎还是对搜索用户都具有重要意义。 本文工作主要包括两个方面:1.将链接分析思想应用到文献检索系统中,提出了一个基于PageRank的文献质量评价算法;2.提出了一个利用扩展策略和链接相似度检测搜索引擎作弊的方法。主要内容概括如下: 1.首先对搜索引擎排名算法做了详细的总结分析。在深入研究了搜索引擎排名算法的相关理论和技术的基础上,我们提出了搜索引擎排名算法在文献检索系统中的一个应用:基于PageRank的科技文献质量评价算法。该算法将PageRank思想引入到引文分析中,并综合考虑科技文献发表机构、作者、被引次数、发表时间等因素,改进了传统的文献质量评价方法。实验证实,该算法的评价结果比传统方法更符合人们的期望。 2.在对各类搜索引擎作弊技术及目前各种作弊检测技术作了研究综述的基础上,提出了一个基于扩展策略和链接相似度的链接作弊检测方法。我们的方法从一个较小的作弊网页种子集合开始,利用网页间的链接相似关系扩展种子集合,逐步发现更多的作弊网页。目前网页间的链接相似度直接沿用引文分析中的度量指标:Cocitation、Bibcoupling和Amsler。由于忽视了网页间链接关系与论文间引文关系的区别,用这些指标度量网页间链接相似度会出现问题。我们对这些指标进行了修正,提出了三种适用于Web网页的新链接相似度,并将这三种新链接相似度应用到基于扩展策略的链接作弊检测方法中。 3.通过实验验证了提出的机遇扩展策略和链接相似度的作弊检测方法。我们在一个公开数据集WEBSPAM-UK2006上测试了我们的方法,对结果进行了比较分析,并与其他检测方法做了对比。首先比较了在基于扩展的方法中新提出的链接相似度与旧链接相似度的检测效果,我们发现新链接相似度的检测准确率更高,但检测结果数量相对较少。其次比较了三种新链接相似度的检测效果,结果显示三种新链接相似度的检测性能各有所长。最后我们将我们的检测方法与两种优秀的检测算法ATR和BRW做了对比,结果表明我们的方法在检测准确率和检测结果数量方面均优于ATR和BRW。
【关键词】:
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库 前10条
1 杨望;;Web Spam技术的发展与防御[J];中国教育网络;2011年07期
2 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期
3 李晓鑫;;XiaoQBot网络爬虫设计与实现[J];硅谷;2011年13期
4 余光华;;网站优化对搜索引擎的影响[J];现代计算机(专业版);2011年12期
5 王福海;;基于PageRank的主题过滤算法改进[J];科技信息;2011年15期
6 张明蕾;;对“人肉搜索”的社会学解读[J];电视时代;2010年04期
7 冯庆峰;;信息时代如何获取信息[J];成功(教育);2011年08期
8 林丽华;;用好SOSO的微博搜索功能[J];电脑迷;2011年16期
9 王民川;;Mp3资源下载器的设计策略解析[J];教育教学论坛;2011年21期
10 ;15条经典实用的网站优化技巧[J];计算机与网络;2010年17期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
6 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 张冠群;杜建清;杨家海;;基于搜索引擎的网站流量估算模型[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
9 石淑华;;利用搜索引擎检索网络生物信息的方法与技巧[A];山西省科学技术情报学会学术年会论文集[C];2004年
10 梁循;何洋波;;企业内嵌搜索引擎的定价问题[A];中国运筹学会第八届学术交流会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 林嘉澍;[N];经济观察报;2006年
2 刘文君;[N];大众科技报;2007年
3 主持人 本报记者 姜晨怡 本报实习生 冯志云;[N];科技日报;2011年
4 本报记者 朱杰;[N];中国计算机报;2009年
5 商报记者 吴辰光;[N];北京商报;2011年
6 闫辉;[N];计算机世界;2005年
7 何锬坡;[N];珠海特区报;2008年
8 本报记者 符王润 通讯员 湛立;[N];广东科技报;2009年
9 本报记者 张磊;[N];中国消费者报;2010年
10 记者 李大庆;[N];科技日报;2010年
中国博士学位论文全文数据库 前10条
1 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
2 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
3 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
4 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
5 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年
6 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
9 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
10 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
本文关键词:搜索引擎排名算法及作弊检测技术研究,由笔耕文化传播整理发布。
本文编号:152612
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/152612.html