基于拟合特征分布的垃圾网页检测方法
本文选题:垃圾网页 + 内容特征 ; 参考:《计算机工程与设计》2013年08期
【摘要】:为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测。实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率。
[Abstract]:In order to detect garbage pages effectively, by analyzing the distribution of page content features and link features, it is found that the distribution of normal page features is regular and the distribution of garbage page features is scattered. According to the difference between the normal web page feature distribution and the garbage page feature distribution, the distribution function is proposed to fit the normal page feature distribution, and the difference between the normal web page and the garbage page proportion and the distribution function is calculated. Using the C4.5 decision tree as the threshold value, the garbage pages are detected. The experimental results show that the proposed method can effectively reduce the number of normal web pages classified by errors and improve the accuracy.
【作者单位】: 山东师范大学信息科学与工程学院;山东省分布式计算机软件新技术重点实验室;
【基金】:国家自然科学基金项目(61170145) 教育部高等学校博士点专项基金项目(20113704110001) 山东省自然科学基金和科技攻关计划基金项目(ZR2010FM021、2008B0026、2010G0020115)
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 贾志洋;崔博文;王勇刚;石宜金;;搜索引擎垃圾网页技术分析[J];情报探索;2011年07期
2 段宇峰;网站特征的定量研究(一)——对大学网站链接特征的探讨[J];情报理论与实践;2005年01期
3 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
4 蒋涛;张彬;;一种反Web Spam页面的方法[J];微型电脑应用;2007年04期
5 蒋涛;张彬;;一种反Web Spam页面的方法[J];计算机与数字工程;2007年11期
6 张晓宇;吴向前;张平洋;;农业网站中垃圾网页过滤方法的研究[J];网络安全技术与应用;2011年01期
7 张付志;石占伟;郭学敏;;一种抗击链接垃圾页面的PageRank改进算法[J];信息安全与通信保密;2009年08期
8 沈阳;;一种网页自动保存和链接推荐方法[J];微计算机信息;2007年06期
9 程光;龚俭;丁伟;;大规模互联网活动IP流分布研究[J];计算机科学;2003年04期
10 林俊武;张建中;;基于端到端数据的矩的网络时延估计算法[J];计算机工程;2011年10期
相关会议论文 前2条
1 李毅;顾健;;反垃圾邮件产品检测技术研究及检测工具开发[A];第二十次全国计算机安全学术交流会论文集[C];2005年
2 刘玮;廖祥文;许洪波;;基于内容特征的垃圾博客过滤[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
相关重要报纸文章 前3条
1 本报记者 朱杰;统一应用识别引擎提升UTM性能[N];中国计算机报;2009年
2 ;构筑校园反垃圾邮件防线[N];中国计算机报;2004年
3 亿中邮信息技术有限公司 市场部经理 马志杰;将垃圾邮件拒之门外[N];中国电脑教育报;2004年
相关博士学位论文 前4条
1 郭振滨;互联网测量与建模研究[D];北京交通大学;2012年
2 李东方;Web 2.0环境下互联网信息过滤理论与方法研究[D];中国科学技术大学;2009年
3 姜志宏;大规模P2PTV系统测量与建模研究[D];国防科学技术大学;2011年
4 史伟;基于复杂网络的拓扑与信息传输问题研究[D];天津大学;2010年
相关硕士学位论文 前10条
1 李e,
本文编号:1859849
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1859849.html