微博网络水军识别技术研究
本文关键词:微博网络水军识别技术研究,由笔耕文化传播整理发布。
【摘要】:随着移动互联网时代的到来,以微博为代表的社会化媒体成为热点信息传播的重要平台。同时,网络中活跃的大量水军用户受利益驱动,散布网络谣言与虚假信息,严重干扰正常的网络秩序,影响社会和谐稳定。目前,针对微博网络中水军用户识别的研究,主要存在以下问题:(1)传统传播模型刻画不够准确,无法有效发现水军的存在;(2)网络水军隐藏策略的升级,使传统基于内容与基于行为的识别方法对新型水军识别准确率低;(3)微博用户数据存在海量高维问题,同时现实中常伴有数值缺失,使得现有算法无法实现高效检测。针对以上问题,本文从微博网络结构与传统信息传播模型入手,分析了影响网络信息传播的几大因素,建立一种基于局域信息的微博网络信息传播模型,并通过分析正常传播与水军鼓动的非正常传播的差异,实现对水军群体的定位。然后通过对传播者用户关系网络的分析,提出一种融合关系图特征的微博水军识别方法,对新型微博造势水军有更好的识别效果。最后,为解决微博用户数据的海量高维性对识别时间的挑战以及存在的数值缺失问题,提出一种基于MapReduce随机森林的微博水军识别算法,提高对网络水军的识别效率。主要工作和研究成果如下:1.针对传统传播模型刻画不准确的问题,提出一种基于局域信息的微博网络信息传播模型。该模型中引入网络结构中的局域信息,同时考虑到每个传播者的影响力差异,从而细粒度展现信息传播过程,通过观察微博网络中用户个体对传播路径的影响,发现网络中掺杂水军干扰的非正常信息传播,为微博网络中的水军识别和管控防范策略的制定奠定基础。2.传统基于用户内容特征和行为特征的识别方法对新型造势水军识别率低,针对该问题,提出一种用户关系图特征表示与提取方法,并在贝叶斯网络、C4.5决策树和朴素贝叶斯三种常用的机器学习框架下融合包括关系图特征在内的多种特征识别水军用户,通过实验验证了方法的有效性。仿真结果表明,添加关系图特征后对水军账号的识别准确率、召回率提高5%以上,从而验证了关系图特征在水军识别中的有效性。3.针对水军识别中存在特征项缺失和用户数据量庞大的问题,提出一种基于MapReduce随机森林的微博水军识别算法。利用随机森林算法的随机性解决水军识别中的过拟合和特征项的数值缺失问题;通过采用MapReduce模型实现算法的并行化,提高对水军数据的处理速度,以更好的满足舆论热点事件中对水军检测的实时性要求。仿真实验表明,该算法可以获得近似线性的加速比,有效提高水军识别的时间效率,同时对数据缺失问题有较好的鲁棒性,较RBF神经网络、贝叶斯网络算法准确率提高10%。
【关键词】:微博网络 网络水军 信息传播模型 关系图 机器学习 MapReduce 随机森林
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
- 摘要4-5
- ABSTRACT5-12
- 第一章 绪论12-20
- 1.1 研究背景和意义12-13
- 1.2 国内外研究现状13-16
- 1.2.1 信息传播研究现状14-15
- 1.2.2 水军识别研究现状15-16
- 1.3 问题提出16-17
- 1.4 本文主要内容和章节安排17-20
- 1.4.1 主要内容17-19
- 1.4.2 章节安排19-20
- 第二章 微博网络传播及其水军识别概述20-24
- 2.1 微博网络传播方式20-21
- 2.2 微博水军识别技术21-24
- 2.2.1 内容检测21-22
- 2.2.2 用户行为分析22-23
- 2.2.3 人工标注23-24
- 第三章 基于局域信息的微博网络信息传播模型24-34
- 3.1 引言24
- 3.2 相关工作24-25
- 3.3 信息传播特征分析25-26
- 3.3.1 正常情况的信息传播25-26
- 3.3.2 水军干扰的信息传播26
- 3.4 基于局域信息的微博网络信息传播模型26-29
- 3.4.1 模型建立26-27
- 3.4.2 传播机制及符号说明27
- 3.4.3 模型推导27-29
- 3.4.4 考虑感染概率随用户影响力递变的影响29
- 3.5 实验分析29-33
- 3.5.1 实验数据29-30
- 3.5.2 微博网络对比实验30-31
- 3.5.3 参数敏感性对比实验31-33
- 3.6 本章小结33-34
- 第四章 基于关系图特征的微博水军识别方法34-48
- 4.1 引言34
- 4.2 相关工作34
- 4.3 用户关系图特征34-40
- 4.3.1 用户关系图34-36
- 4.3.2 图特征提取36-38
- 4.3.3 其他特征38-40
- 4.4 基于关系图特征的水军识别方法40-42
- 4.4.1 朴素贝叶斯算法40-41
- 4.4.2 贝叶斯网络41
- 4.4.3 C4.5决策树41-42
- 4.5 实验分析42-46
- 4.5.1 实验数据42-43
- 4.5.2 评价指标43
- 4.5.3 实验结果与分析43-46
- 4.6 本章小结46-48
- 第五章 基于MapReduce随机森林的微博水军识别算法48-60
- 5.1 引言48
- 5.2 相关工作48-49
- 5.2.1 MapReduce48-49
- 5.2.2 随机森林的基本思想49
- 5.3 基于MapReduce随机森林的水军识别算法设计49-55
- 5.3.1 用户特征向量50-51
- 5.3.2 属性选择度量51-52
- 5.3.3 算法设计52-54
- 5.3.4 算法分析54-55
- 5.4 实验分析55-59
- 5.4.1 实验准备55
- 5.4.2 评价指标55-56
- 5.4.3 结果与分析56-59
- 5.5 本章小结59-60
- 第六章 总结与展望60-62
- 6.1 全文总结60
- 6.2 本文的主要创新点60-61
- 6.3 未来研究工作展望61-62
- 致谢62-64
- 参考文献64-68
- 作者简历攻读硕士学位期间完成的主要工作68
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
3 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
4 杨毕玉;核电站松动件检测分析研究[D];浙江大学;2016年
5 王宇恒;推荐系统中随机森林算法的优化与应用[D];浙江大学;2016年
6 张玉桃;旅客社会网络中的家庭出行预测及其行为特征分析[D];北京交通大学;2016年
7 张兴;基于Spark大数据平台的火电厂节能分析[D];太原理工大学;2016年
8 蔡晓路;基于随机森林的类风湿关节炎证型判别模型研究[D];北京中医药大学;2016年
9 杨丽;音频场景分析与识别方法研究[D];南京大学;2013年
10 朱琪;基于最大平衡度与最大共识的改进随机森林算法研究[D];吉林大学;2016年
本文关键词:微博网络水军识别技术研究,,由笔耕文化传播整理发布。
本文编号:362394
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/362394.html