当前位置:主页 > 管理论文 > 移动网络论文 >

垃圾网页检测的关键技术研究

发布时间:2017-07-31 18:03

  本文关键词:垃圾网页检测的关键技术研究


  更多相关文章: 垃圾网页检测 非信任值排序算法 离群点挖掘 级联检测 多类特征


【摘要】:网页作弊是指作弊者运用各种手段欺骗搜索引擎,使网页在搜索结果中获得高于其本身应得排名的行为。垃圾网页的泛滥严重危害了搜索引擎公司、合法网站和各类用户的利益,因此研究垃圾网页检测技术已成为一项艰巨而重要的任务。针对链接作弊,排序算法是一种有效手段。但由于Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低,且多数排序算法没有考虑网页内容特性,因此本文改进Anti-TrustRank和加权非信任值排序(Weighted Anti-TrustRank, WATR)算法,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即结合主题与链接的非信任排序(Distrust Rank based on Topic and Link integration,TLDR)。其中,主题相似度权重运用隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型计算,链接权重根据链接结构计算。实验结果表明,与Anti-TrustRank和WATR相比,TLDR算法能使网页得到更合理的非信任值,检测性能有明显的提高。针对内容和链接作弊,本文从Web信息源质量、Web内容质量和Web应用质量三个子维度量化了网页质量,从危害度特性和主题特性两方面量化了语义特征,并与内容和链接特征共同构建了区分度高的特征集。此外,分类算法常用来解决垃圾网页检测问题,但分类算法性能易受数据分布不均衡的影响,而离群点挖掘算法正适用于不均衡的情况。因此本文采用基于熵的离群点挖掘(Entropy-based Outlier Mining, EOM)算法,并设计了级联检测框架,将检测分为内容特性检测、链接特性检测和语义特性检测三级进行。通过多组对比实验表明,本文的质量和语义特征能有效提高检测性能,EOM级联检测框架检测性能较高,且在数据分布不均衡的情况下相对于分类算法更具优势。
【关键词】:垃圾网页检测 非信任值排序算法 离群点挖掘 级联检测 多类特征
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
  • 摘要6-7
  • Abstract7-10
  • 第1章 绪论10-16
  • 1.1 研究背景和意义10
  • 1.2 国内外研究现状10-14
  • 1.3 论文的研究内容和组织结构14-16
  • 1.3.1 论文的主要研究内容14-15
  • 1.3.2 论文的各章节内容安排15-16
  • 第2章 垃圾网页检测的相关技术16-26
  • 2.1 基于内容和链接作弊的垃圾网页16-19
  • 2.1.1 基于内容作弊的垃圾网页16-17
  • 2.1.2 基于链接作弊的垃圾网页17-19
  • 2.2 垃圾网页检测技术19-25
  • 2.2.1 排序检测19-21
  • 2.2.2 分类检测21-24
  • 2.2.3 离群点挖掘24-25
  • 2.3 本章小结25-26
  • 第3章 针对链接作弊的垃圾网页排序检测26-38
  • 3.1 非信任值的传播原理26-27
  • 3.2 隐含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)27-28
  • 3.3 主题相似度权重28-29
  • 3.4 链接权重与计算示例29-30
  • 3.5 种子集选取30
  • 3.6 结合主题相似度与链接权重的排序算法30-32
  • 3.7 排序检测实验32-36
  • 3.7.1 数据集33
  • 3.7.2 参数设置与评价指标33-34
  • 3.7.3 实验结果与分析34-36
  • 3.8 本章小结36-38
  • 第4章 基于离群点挖掘的垃圾网页级联检测机制38-51
  • 4.1 级联检测框架38
  • 4.2 特征提取38-42
  • 4.2.1 内容和链接特征39
  • 4.2.2 质量特征39-40
  • 4.2.3 语义特征40-42
  • 4.3 基于熵的离群点挖掘算法的级联检测42-49
  • 4.3.1 信息熵43
  • 4.3.2 基于熵的离散化43-44
  • 4.3.3 基于最小熵交换的检测方法44-46
  • 4.3.4 基于熵的排序46-48
  • 4.3.5 级联检测48-49
  • 4.4 本章小结49-51
  • 第5章 基于离群点挖掘的垃圾网页的级联检测实验51-58
  • 5.1 数据准备与评价指标51-52
  • 5.2 实验结果与分析52-57
  • 5.2.1 实验一 基于熵的离群点挖掘算法级联检测结果53-54
  • 5.2.2 实验二 各类特征对比结果54-55
  • 5.2.3 实验三 基于熵的离群点挖掘算法与分类算法对比结果55-56
  • 5.2.4 实验四 基于熵的离群点挖掘算法的级联检测的交叉验证结果56-57
  • 5.3 本章小结57-58
  • 总结与展望58-60
  • 1 总结58
  • 2 展望58-60
  • 致谢60-61
  • 参考文献61-66
  • 攻读硕士学位期间发表的论文66

【相似文献】

中国期刊全文数据库 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

中国重要会议论文全文数据库 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国重要报纸全文数据库 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

中国博士学位论文全文数据库 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年

2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

3 张W,

本文编号:600402


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/600402.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3045***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com