垃圾博客检测技术的研究与实现
发布时间:2019-09-11 18:11
【摘要】:随着Web2.0的飞速发展,人们正在从网络内容的使用者向网络内容的提供者转变,网络上出现了各种各样的用户生成内容,其中以博客最具代表性。随着博客的飞速发展,博客数量激增,博客已经成为人们日常生活中必不可少的一部分。博客的到来正在逐渐改变着人们日常生活中的交流方式,人们通过在博客中发帖子来表达自己的心情或者心得体会。博客的飞速发展也带来了大量的垃圾博客。垃圾博客的泛滥不仅浪费了大量的网络带宽资源和网络存储空间,更恶劣的是它严重损害了Web的可信度和博客的内容质量,降低了用户进行网络信息共享的满意度。 垃圾博客的检测是一个分类问题。传统的垃圾博客检测过程中存在三点不足之处:一、把博客中的博文看做是一个网页分别进行检测,没有把一个博客看做是一个整体;二、在博客的特征提取方面,只是提取了博客的内容特征和链接特征,没有考虑博客区别于网页的特征;三、单分类器越来越不适用于日益复杂的数据形式。本文对这些不足之处进行了研究,在对垃圾博客进行检测时,把一个博客中的所有博文看做一个集合,在博客的特征方面本文中不仅提取了基于内容和链接的特征,而且经过对垃圾博客的研究加入了5个统计特征和博客的3个时间动态性特征。在分类器方面,本文设计了基于旋转森林的SVM集成分类器对垃圾博客进行检测。 最后,本文设计了多组实验进行对比。实验结果表明,本文设计的垃圾博客检测系统有着良好的效果。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
本文编号:2534591
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【参考文献】
相关期刊论文 前4条
1 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
2 刘玮;廖祥文;许洪波;王丽宏;;基于统计特征的垃圾博客过滤[J];中文信息学报;2008年06期
3 王海凤;萨智海;;DOM技术在数据转换中的应用[J];内蒙古工业大学学报(自然科学版);2008年04期
4 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
,本文编号:2534591
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2534591.html