当前位置:主页 > 管理论文 > 移动网络论文 >

基于多视图典型相关分析的垃圾网页检测

发布时间:2018-10-12 14:49
【摘要】:首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。
[Abstract]:Firstly, the features of spam pages are divided into two different views, one is based on content feature and the other is based on link feature, and then the feature extraction is done by using canonical correlation analysis and its improved method to generate two new sets of features. Then, the new two view features are combined to generate single view data, and the classification algorithm is constructed by using this set of data as training data. The experimental results show that the identification accuracy of garbage pages can be effectively improved by using multi-view canonical correlation analysis technology and considering garbage pages as two-view data.
【作者单位】: 山东师范大学信息科学与工程学院;山东省分布式计算机软件新技术重点实验室;
【基金】:国家自然科学基金资助项目(61170145) 国家教育部高等学校博士点专项基金资助项目(20113704110001) 山东省自然科学基金和科技攻关计划资助项目(ZR2010FM021,2008B0026,2010G0020115)
【分类号】:TP393.092

【参考文献】

相关博士学位论文 前1条

1 孙廷凯;增强型典型相关分析研究与应用[D];南京航空航天大学;2006年

【二级参考文献】

相关期刊论文 前4条

1 孙权森,曾生根,杨茂龙,王平安,夏德深;基于典型相关分析的组合特征抽取及脸像鉴别[J];计算机研究与发展;2005年04期

2 孙平,徐宗本,申建中;基于核化原理的非线性典型相关判别分析[J];计算机学报;2004年06期

3 孙权森,曾生根,王平安,夏德深;典型相关分析的理论及其在特征融合中的应用[J];计算机学报;2005年09期

4 徐兴忠;多组变量的典型相关系数和典型相关变量[J];科学通报;1996年13期

【相似文献】

相关硕士学位论文 前1条

1 邱齐辉;基于决策树和贝叶斯算法的垃圾网页检测的研究和实现[D];北京工业大学;2012年



本文编号:2266533

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2266533.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户01e13***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com