当前位置:主页 > 管理论文 > 移动网络论文 >

基于朴素贝叶斯的伪装型垃圾网页检测

发布时间:2018-10-29 09:32
【摘要】:针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。
[Abstract]:Aiming at the problems of hiding, fraud and difficult to detect, the binary classification method is used to detect the camouflaged garbage pages. The method decomposes web pages into content features and link features, and uses naive Bayesian (NB) algorithm to classify and detect masquerade spam pages. Finally, the NB algorithm and several common classification algorithms are tested on the same data set. The results show that the comprehensive evaluation F1 value of the naive Bayesian algorithm is 94.644.It is obviously higher than the other classification algorithms. It can effectively detect the camouflaged spam pages and improve the quality of network information retrieval.
【作者单位】: 西南交通大学信息科学与技术学院;
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期

2 张彬;蒋涛;徐雨明;;Web Spam技术研究综述(英文)[J];衡阳师范学院学报;2008年06期

相关硕士学位论文 前1条

1 段晶;朴素贝叶斯分类及其应用研究[D];大连海事大学;2011年

【共引文献】

相关期刊论文 前7条

1 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期

2 胡军;杨先芬;刘喜亮;黄慎;;基于属性agent模型的新闻信息网页筛选技术[J];计算机应用研究;2009年05期

3 孙明柱;魏海平;;基于结构树的网页正文内容抽取方法[J];科学技术与工程;2011年28期

4 余一骄;刘芹;;基于语义的中文网页检索[J];计算机科学;2012年08期

5 朱志宁;黄青松;;快速的中文网页分类方法实现[J];山西电子技术;2008年04期

6 张素智;樊得强;;网页去重方法研究及算法设计[J];郑州轻工业学院学报(自然科学版);2010年02期

7 朱兴统;左敬龙;张晶华;;改进量子粒子群优化支持向量机的网页分类[J];湖南科技大学学报(自然科学版);2012年03期

相关硕士学位论文 前10条

1 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年

2 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年

3 彭浩林;基于内容的敏感信息过滤系统研究[D];武汉科技大学;2011年

4 王莎莎;元搜索引擎结果合成技术的研究[D];燕山大学;2011年

5 汪光庆;基于SVM的网页分类技术研究[D];中国石油大学;2011年

6 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年

7 王舟;面向论坛信息文本的有效数据抽取研究[D];华中科技大学;2011年

8 樊德强;WEB个性化信息采集与管理关键技术研究[D];郑州轻工业学院;2011年

9 胡银娥;基于粗糙集的朴素贝叶斯分类算法研究[D];长沙理工大学;2012年

10 冯静;基于向量空间模型的中文网页自动分类技术研究[D];中国石油大学;2008年

【二级参考文献】

相关期刊论文 前10条

1 孙艺军;;冠心病的基本病机为气虚血瘀[J];长春中医药大学学报;2011年01期

2 李秀玉;;中西医结合治疗冠心病心衰60例临床观察[J];湖南中医杂志;2010年02期

3 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期

4 石洪波,黄厚宽,王志海;基于Boosting的TAN组合分类器[J];计算机研究与发展;2004年02期

5 眭俊明;姜远;周志华;;基于频繁项集挖掘的贝叶斯分类算法[J];计算机研究与发展;2007年08期

6 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期

7 邓维斌;王国胤;王燕;;基于Rough Set的加权朴素贝叶斯分类算法[J];计算机科学;2007年02期

8 马光志,陈凤华;基于关联规则的ABN分类器构造[J];计算机工程与科学;2005年05期

9 陈永惠;;“益气活血化痰汤”治疗冠心病68例临床观察[J];江苏中医药;2011年02期

10 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期

【相似文献】

相关期刊论文 前10条

1 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期

2 李君;张顺颐;王浩云;李翠莲;;基于贝叶斯网络的Peer-to-Peer识别方法[J];应用科学学报;2009年02期

3 谢伟全;叶强;李一军;;基于用户知识的中文电子邮件分类[J];计算机应用研究;2007年03期

4 徐治国;;基于朴素贝叶斯的垃圾邮件分类系统的设计[J];盐城工学院学报(自然科学版);2008年02期

5 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期

6 王旭仁;许榕生;;基于机器学习的入侵检测系统研究[J];计算机工程;2006年14期

7 杨柳;熊德意;;基于内容的反垃圾邮件过滤器研究[J];电脑知识与技术(学术交流);2007年06期

8 闫鹏;郑雪峰;朱建勇;肖峗泓;;一种基于嵌入式特征选择的垃圾邮件过滤模型[J];小型微型计算机系统;2009年08期

9 唐继勇;宋华;孙浩;邓亚平;;基于粗糙集理论与核匹配追踪的入侵检测[J];计算机应用;2010年05期

10 王德文;赵文清;朱永利;;一个基于粗糙集理论的邮件分类模型[J];计算机工程与应用;2006年18期

相关会议论文 前10条

1 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年

2 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

3 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

4 张少波;刘明;贾晓静;朱卫东;;数据包分类算法研究与设计[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(下册)[C];2010年

5 王超;辛阳;;C5.0分类算法在网络入侵检测中的应用[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

6 丁山山;陈世平;;智能Agent技术在个性化WEB信息代理中的应用研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

7 余磊;邓亚平;王江波;李钦;陈云;;一种多维IP包分类算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年

8 李毅;顾健;顾铁军;;基于朴素贝叶斯方法的邮件样本预筛选[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

9 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年

10 陈鑫;梁海洁;廖腾峰;;基于TSVM分类器和混合型特征选择方法的入侵检测研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

相关重要报纸文章 前10条

1 ;SecuiWALL独创分类算法[N];计算机世界;2002年

2 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年

3 阮光尘邋朱元春;多层构建邮件免疫机能[N];中国计算机报;2007年

4 沈生;多管齐下清理网上垃圾[N];中国计算机报;2004年

5 ;三星防火墙为人保“保险”[N];计算机世界;2002年

6 ;百兆防火墙[N];计算机世界;2002年

7 ;关注移动应用 诺基亚打造Nokia Access Mobilizer[N];网络世界;2003年

8 ;锐捷网络落户山东莱阳[N];网络世界;2004年

9 ;确保电信网安全[N];中国计算机报;2002年

10 刘宏伟;整合是一种趋势[N];中国计算机报;2004年

相关博士学位论文 前10条

1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

2 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年

3 左申正;基于机器学习的网络异常分析及响应研究[D];北京邮电大学;2010年

4 何召卫;受限本体相似[D];北京邮电大学;2008年

5 李战春;入侵检测中的机器学习方法及其应用研究[D];华中科技大学;2007年

6 柳斌;P2P流的测量与识别方法研究[D];华中科技大学;2008年

7 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年

8 彭元喜;高速IP分组分类算法及其实现技术的研究[D];国防科学技术大学;2001年

9 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年

10 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年

相关硕士学位论文 前10条

1 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年

2 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年

3 张舰波;基于内容的垃圾邮件智能过滤系统研究[D];贵州大学;2008年

4 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年

5 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年

6 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年

7 蒋道霞;基于机器学习的入侵检测系统的设计与实现[D];南京理工大学;2005年

8 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年

9 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年

10 成宝国;基于统计方法的垃圾邮件处理技术研究[D];西北大学;2006年



本文编号:2297315

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2297315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ed10f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com