当前位置:主页 > 管理论文 > 移动网络论文 >

集成PCA降维与分类算法的垃圾网页检测

发布时间:2017-09-17 08:18

  本文关键词:集成PCA降维与分类算法的垃圾网页检测


  更多相关文章: 垃圾网页 垃圾网页检测 主成分分析 AdaBoost 支持向量机


【摘要】:针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。
【作者单位】: 西南交通大学信息科学与技术学院;
【关键词】垃圾网页 垃圾网页检测 主成分分析 AdaBoost 支持向量机
【基金】:中央高校基本科研业务费专项基金项目(SWJTU11ZT08)
【分类号】:TP393.092;TP18
【正文快照】: 0引言相关研究显示,人们通常只对搜索引擎返回的前几页内容感兴趣[1]。所以对于网站而言,提升自己在搜索引擎结果中的排名有助于吸引更多的潜在客户,从而获取更多利益。基于此目的,网络上出现了大量的通过各种作弊手段来欺骗搜索引擎,提高自己排名的作弊网页,称为Web Spam[2]

【相似文献】

中国硕士学位论文全文数据库 前1条

1 邱齐辉;基于决策树和贝叶斯算法的垃圾网页检测的研究和实现[D];北京工业大学;2012年



本文编号:868305

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/868305.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dda57***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com