当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于关联属性主成分分析的SVM技术应用于Web Spam分类

发布时间:2017-09-02 03:20

  本文关键词:基于关联属性主成分分析的SVM技术应用于Web Spam分类


  更多相关文章: 垃圾网页 关联属性 主成分分析 支持向量机


【摘要】:垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。
【作者单位】: 山东师范大学信息科学与工程学院;山东省分布式计算机软件新技术重点实验室;
【关键词】垃圾网页 关联属性 主成分分析 支持向量机
【基金】:基于特征建模优化及判别学习的web spam识别技术研究,国家自然科学基金(61170145) 基于特征建模与优化的web垃圾页面识别技术研究,教育部博士点基金(20113704110001) Spam页面特征优化模型及非线性识别技术,山东省自然科学基金(ZR2010FM021)
【分类号】:TP393.092
【正文快照】: 1引言中国互联网络信息中心(CNNIC)2015年7月发布的《中国互联网发展状况统计报告》显示,我国搜索引擎用户规模达5.36亿,使用率为80.3%[1]。搜索引擎已成为用户访问互联网资源,获取各类信息的主要工具。然而搜索引擎的广泛使用却使得垃圾网页愈加泛滥,这严重降低了搜索引擎的

【相似文献】

中国期刊全文数据库 前10条

1 黎夏,叶嘉安;主成分分析与Cellular Automata在空间决策与城市模拟中的应用[J];中国科学(D辑:地球科学);2001年08期

2 黄炎磊;;主成分聚类分析在区域经济评价中的应用——以广东省城镇居民可支配收入为例[J];福建电脑;2009年09期

3 许延鑫;熊继平;;基于二次主成分分析模型解决病情确诊问题[J];微型机与应用;2009年19期

4 刘聪;汪明;;R软件在主成分分析中的应用研究[J];电脑知识与技术;2011年13期

5 赵丽红;张西礼;徐心和;;基于二维对称主成分分析的人脸识别[J];仪器仪表学报;2008年06期

6 邹东升;佘龙华;;改进的主成分分析方法在磁浮系统中的应用[J];振动、测试与诊断;2009年01期

7 王丽华;秦婵婵;徐洪波;;基于完全二维对称主成分分析的人脸识别[J];计算机工程;2010年12期

8 李薇;曹萍;;基于主成分分析的软件外包人才创新能力的定量评价[J];天津理工大学学报;2012年06期

9 栾大龙;铉一民;姚彬;赵焕丛;;基于粗糙集—主成分分析的企业创新能力评价实证研究[J];计算机工程与应用;2007年04期

10 姚灿;蔡建峰;;陕西省互联网络发展与产业发展关系的实证研究[J];情报杂志;2007年09期

中国重要会议论文全文数据库 前10条

1 么彩莲;魏宁;;关于主成分分析的改进方法探讨[A];中国现场统计研究会第12届学术年会论文集[C];2005年

2 陈明星;缪柏其;靳韬;;利率影响因素的主成分分析与因子分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

3 孙晓东;胡劲松;焦s,

本文编号:776080


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/776080.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aae0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com