垃圾微博信息过滤技术的研究
本文关键词:垃圾微博信息过滤技术的研究,由笔耕文化传播整理发布。
【摘要】:社交网络以其用户量大,信息传播速度快,范围广,互动性强的特点成为目前最大且活跃的社交平台。如新浪微博,微信朋友圈,Google+等社交网络平台已经成为互联网用户生活的重要组成部分。社交网络在给人们的生活带来便利的同时,其本身也成为了一些广告,传销分子散布垃圾微博信息的工具。所以,社交网络中垃圾微博信息的过滤和微博僵尸账号的识别已经成为了重要的热点研究课题。 本文以新浪微博为研究平台,采用数据挖掘和机器学习的方法,从分类和排序的两种角度识别新浪微博中的僵尸账号,从而有效地过滤垃圾微博信息,主要工作分为以下四个部分: 首先:采用统计机器学习中的在线主动学习算法,设计并实现了基于逻辑回归,朴素贝叶斯,支持向量机三种统计机器学习模型的在线分类系统,分别对单条微博信息进行分类。 其次:从分类的角度,由于微博属于短文本,可以提取到的有价值的特征少,,特征向量稀疏,机器学习分类器对单条微博的分类效果有限。因此,引入序贯概率比模型,根据第一部分前端分类器对每个账号发布的单条微博分类结果序列,来对微博账号进行分类,从而有效识别微博僵尸账号。 再次:以账号为单位,从用户社交行为和微博内容两方面提取账号的特征,通过数据分析选取有效的特征,采用libSVM的分类器进行离线建模和微博账号分类。 最后:从排序的角度,通过对微博平台上某个领域的子网中账号之间的社交关系,构建这个子网的社交关系矩阵,采用PageRank算法对子网中账号的价值度进行排序,根据排序结果来对账号进行群体划分,从而确定微博僵尸账号的群体范围。 综上所述,本文从账号发布的微博内容和账号的社交行为等方面提取特征,采用统计机器学习的方法对微博僵尸账号进行检测识别,有效地从源头上减少社交网络平台中的垃圾微博信息。
【关键词】:垃圾信息过滤 机器学习 序贯概率比 PageRank
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 课题研究的目的和意义10-11
- 1.2 国内外研究现状11-14
- 1.3 本文研究的主要内容14
- 1.4 论文组织结构14-16
- 第2章 基于内容的垃圾微博过滤技术16-31
- 2.1 垃圾微博过滤方法16-17
- 2.1.1 人工审核的方式16
- 2.1.2 恶意链接黑名单过滤16-17
- 2.1.3 基于微博内容的统计机器学习方法17
- 2.2 微博的内容特征提取17-18
- 2.2.1 微博的内容特征17
- 2.2.2 基于字节流的 n-grams 的特征提取方式17-18
- 2.3 在线主动学习垃圾微博过滤框架18-19
- 2.4 机器学习算法19-26
- 2.4.1 贝叶斯算法20-23
- 2.4.2 逻辑回归算法23-24
- 2.4.3 支持向量机24-26
- 2.5 实验数据集以及评价指标26-28
- 2.6 实验结果分析28-30
- 2.7 本章小结30-31
- 第3章 基于序贯概率比的微博僵尸账号检测31-42
- 3.1 序贯概率比算法31-34
- 3.1.1 基于贝努利分布的序贯概率比模型32-33
- 3.1.2 基于高斯分布的序贯概率比模型33-34
- 3.2 基于高斯分布的序贯概率比微博僵尸账号检测方法34-38
- 3.3 微博账号标注和实验结果分析38-41
- 3.3.1 微博账号标注38-39
- 3.3.2 实验结果分析39-41
- 3.4 本章小结41-42
- 第4章 基于行为特征的微博僵尸账号检测42-48
- 4.1 用户社交行为特征42-44
- 4.1.1 账号信誉度42
- 4.1.2 发布微博时间区间和时间间隔42-43
- 4.1.3 账号粉丝数的变化量43-44
- 4.1.4 账号所发微博的点赞数44
- 4.2 微博内容特征44-46
- 4.2.1 超链接和阿拉伯数字44-45
- 4.2.2 热门话题和提到45
- 4.2.3 实词的长度45-46
- 4.3 基于账号特征微博僵尸账号检测方法46-47
- 4.4 实验结果分析47
- 4.5 本章小结47-48
- 第5章 基于 PageRank 的微博僵尸账号检测48-54
- 5.1 PageRank 算法介绍48-49
- 5.2 PageRank 算法在微博僵尸账号检测中的应用49-52
- 5.2.1 平均分配的 PageRank 算法的实例化49-51
- 5.2.2 不平均分配的 PageRank 算法的实例化51-52
- 5.3 实验数据和试验结果分析52-53
- 5.4 本章小结53-54
- 结论54-55
- 参考文献55-59
- 攻读硕士学位期间发表的学术论文59-60
- 致谢60
【相似文献】
中国期刊全文数据库 前10条
1 树子;;把一切垃圾短信拒之门外[J];数字通信;2007年12期
2 王炳晨;;全球共网,筑起反垃圾墙——Cloudmark Fingerprinting技术全面对抗垃圾信息[J];微电脑世界;2007年08期
3 李志宇;;对付垃圾短信消费者动力不足[J];通信世界;2008年23期
4 江林芯;蒋艳青;;四川成立12321网络不良与垃圾信息举报受理中心[J];通信与信息技术;2010年01期
5 杨风雷;黎建辉;;用户生成内容中的垃圾意见研究综述[J];计算机应用研究;2011年10期
6 孙升芸;田萱;;产品垃圾评论检测研究综述[J];计算机科学;2011年S1期
7 程德杰;;互联网时代垃圾信息的预防和遏制[J];互联网天地;2012年05期
8 孙升芸;田萱;何军;;基于评论行为的商品垃圾评论的识别研究[J];计算机工程与设计;2012年11期
9 常汉生;;期刊中垃圾信息的初步分析与处理[J];武汉科技大学学报(社会科学版);2006年05期
10 ;关于开展垃圾短信息整治专项行动工作方案的通知[J];信息安全与通信保密;2008年07期
中国重要报纸全文数据库 前10条
1 ;立法打击垃圾信息成为共识[N];网络世界;2005年
2 李韬;保卫手机[N];计算机世界;2006年
3 程蓉 记者 王春;上海:呼吁立法控制垃圾信息[N];科技日报;2006年
4 谷慧;垃圾短信重打不下[N];民营经济报;2006年
5 通讯员 周 莺;上海市人大代表呼吁制定反垃圾信息法[N];人民代表报;2006年
6 刘恒 通讯员 田源;重庆联通大力整治垃圾短信[N];人民邮电;2006年
7 周戎;巴基斯坦:垃圾信息不胜烦[N];光明日报;2008年
8 洪黎明;部开通网络不良与垃圾信息举报受理中心[N];人民邮电;2008年
9 中国互联网协会秘书长 黄澄清;治理垃圾信息 营造绿色网络[N];人民邮电;2008年
10 周净;垃圾短信人均每周12条[N];消费日报;2008年
中国博士学位论文全文数据库 前1条
1 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 吉超;论垃圾短信的法律规制[D];内蒙古大学;2012年
2 李春野;我国垃圾信息的法律规制[D];吉林大学;2010年
3 石晶;一种高效垃圾短信过滤系统的实现[D];电子科技大学;2010年
4 李文龙;论垃圾短信的法律规制[D];延边大学;2009年
5 贾晓舟;中国“垃圾短信”法律治理探究[D];吉林大学;2013年
6 张婷;一种基于数据挖掘技术的垃圾短信用户预识别方法[D];兰州大学;2013年
7 刘梦玲;广告型垃圾短信法律问题研究[D];中国政法大学;2009年
8 黄诚;智能手机垃圾短信过滤技术的研究[D];华中科技大学;2012年
9 付少波;我国手机垃圾短信法律问题研究[D];西南政法大学;2011年
10 李恺明;广东移动通信垃圾信息分析与治理方案设计[D];北京邮电大学;2011年
本文关键词:垃圾微博信息过滤技术的研究,由笔耕文化传播整理发布。
本文编号:258023
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/258023.html