面向新浪微博的水军识别技术的研究与实现
本文关键词:面向新浪微博的水军识别技术的研究与实现,由笔耕文化传播整理发布。
【摘要】:在当今诸如twitter、新浪微博这样的社交网络新媒体已经成为人们获取信息、分享经历、与人交流的重要方式之一。随着这类公开性和即时性兼具的网络社交媒体被越来越多的人使用,在微博平台聚集了大量用户信息和关注度的同时网络水军用户数量也不断膨胀。网络水军的激增致使社交网络媒体中充斥了大量的虚假意见和垃圾信息,社交网络环境急剧恶化。因此水军识别已经成为了研究者们最为关注的问题之一。水军识别技术的研究不仅可以提高社交网络中用户的体验质量,还可以规范社交网络舆论导向,避免非公正信息传播造成的不良影响。水军检测技术具有的去重功能,可被广泛应用于舆情分析,影响力分析等一系列研究当中。所以,研究水军识别技术具有重要的实际意义。本文针对今年中文微博的发展形势,以一家独大的新浪微博为研究对象,设计并实现了一种基于用户特征的水军识别方法,主要的工作和成果如下:(1)构造了适用于水军识别的用户特征向量。基于新浪微博用户特点,从用户信息,用户行为,博文文本内容三方面入手,不仅介绍了常用于水军识别的关注数、粉丝数、发帖规律、URL率、博文文本相似度等特征,还提出并采集了话题迁移率特征。利用CDF(累计分布函数)对各特征重要性进行了分析,构建了可用于水军识别的用户特征向量。(2)针对微博短文本聚类算法进行了系统性的研究和设计。一方面,为了获得话题迁移率特征,定义了扩类式K-means算法,并利用其扩类式操作,对经过分割处理的文本数据进行话题扩类式划分,从而获得了用户话题迁移率特征。另一方面,采用了Simhash算法对所有经过规范化的文本进行标记和赋值,并利用Hamming Distance计算文本相近程度并聚类,从而获得博文文本相似度特征。(3)建立了基于Logistic Regression(逻辑回归)的水军识别模型。研究分析了各类机器学习方法在水军识别领域的应用。由于逻辑回归算法具有较为简单的实现和便捷性,选用了逻辑回归算法构建识别模型。利用已标记数据集对模型进行训练,通过梯度下降算法实现了对特征系数的求取,从而搭建起了具有自动识别能力的水军识别模型。通过交叉验证法检验了逻辑回归水军识别模型的分类性能。并依托多种实验手段检测了水军识别模型对训练集样本大小、输入特征等内容的敏感性。
【关键词】:新浪微博 水军识别 特征向量 短文本聚类 逻辑回归 扩类式K-means
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要9-10
- ABSTRACT10-12
- 第一章 绪论12-19
- 1.1 研究背景12-15
- 1.1.1 微博简介12-13
- 1.1.2 微博水军及其研究意义13-15
- 1.2 研究现状15-16
- 1.3 研究内容及创新点16-17
- 1.4 论文的组织结构17-19
- 第二章 相关技术研究19-31
- 2.1 监督学习19-23
- 2.1.1 C4.519-21
- 2.1.2 朴素贝叶斯(Na?ve Bayes)21
- 2.1.3 支持向量机(SVM)21-23
- 2.1.4 逻辑回归(Logistic Regression)23
- 2.2 文本聚类算法23-28
- 2.2.1 划分方法24-25
- 2.2.2 层次方法25-26
- 2.2.3 基于密度的方法26-27
- 2.2.4 基于网格的方法27-28
- 2.3 文本相似性算法28-30
- 2.3.1 Shingle算法28
- 2.3.2 Simhash算法28-30
- 2.4 本章小结30-31
- 第三章 微博用户特征及量化方法设计31-40
- 3.1 用户信息特征31-33
- 3.1.1 粉丝数,关注数以及FFR(Follower to Friend Ratio)31-32
- 3.1.2 用户亲密度32-33
- 3.1.3 用户博文数33
- 3.2 用户行为特征33-37
- 3.2.1 用户提及率34
- 3.2.2 文本URL率34-35
- 3.2.3 文本话题标签率35
- 3.2.4 发帖规律35-37
- 3.3 博文文本内容特征37-39
- 3.3.1 博文文本相似度37-38
- 3.3.2 话题迁移率特征38-39
- 3.4 本章小结39-40
- 第四章 面向水军识别的用户特征向量模型构建40-56
- 4.1 微博数据获取40-43
- 4.1.1 新浪微博API40-43
- 4.1.2 数据的获取43
- 4.2 用户特征建模43-55
- 4.2.1 微博博文预处理及用户行为特征获取44-46
- 4.2.2 博文文本相似度特征模块46-47
- 4.2.3 话题迁移率特征模块47-50
- 4.2.4 特征选取和分析50-55
- 4.3 本章小结55-56
- 第五章 基于逻辑回归算法的水军识别模型56-66
- 5.1 基于逻辑回归算法的水军识别模型构建56-62
- 5.1.1 水军的形式化定义56
- 5.1.2 模型构建56-62
- 5.2 实验结果分析62-65
- 5.2.1 训练样本不同规模比对实验62-63
- 5.2.2 交叉验证实验63-64
- 5.2.3 多特征比对实验64-65
- 5.3 本章总结65-66
- 第六章 总结与展望66-68
- 6.1 本文总结66-67
- 6.2 工作展望67-68
- 致谢68-70
- 参考文献70-74
- 作者在学期间取得的学术成果74
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:277361
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/277361.html