集成PCA降维与分类算法的垃圾网页检测
发布时间:2017-09-17 08:18
本文关键词:集成PCA降维与分类算法的垃圾网页检测
更多相关文章: 垃圾网页 垃圾网页检测 主成分分析 AdaBoost 支持向量机
【摘要】:针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。
【作者单位】: 西南交通大学信息科学与技术学院;
【关键词】: 垃圾网页 垃圾网页检测 主成分分析 AdaBoost 支持向量机
【基金】:中央高校基本科研业务费专项基金项目(SWJTU11ZT08)
【分类号】:TP393.092;TP18
【正文快照】: 0引言相关研究显示,人们通常只对搜索引擎返回的前几页内容感兴趣[1]。所以对于网站而言,提升自己在搜索引擎结果中的排名有助于吸引更多的潜在客户,从而获取更多利益。基于此目的,网络上出现了大量的通过各种作弊手段来欺骗搜索引擎,提高自己排名的作弊网页,称为Web Spam[2]
【相似文献】
中国硕士学位论文全文数据库 前1条
1 邱齐辉;基于决策树和贝叶斯算法的垃圾网页检测的研究和实现[D];北京工业大学;2012年
,本文编号:868305
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/868305.html