基于机器学习的水军识别及话题影响力分析研究
发布时间:2021-08-30 03:01
随着互联网的高速发展和迅速普及,新浪微博已经成为了当前社会受众最大的综合性社交平台。截止到2017年6月,新浪微博月活跃用户数已经达到3.61亿,与上年同期比较增长了28%。但其快速发展也伴随着一系列问题,其中就包括水军在微博平台兴起、并逐渐呈现快速增长的趋势。微博水军的存在极大程度的影响了微博话题的质量,致使很多不真实的话题内容干扰网民们的思考以及对话题趋势的判断,进而造成社交环境不健康等严重问题。本文通过研究水军用户与正常用户的属性区别,基于改进的逻辑回归算法对水军用户建立特征识别模型,进而筛除水军用户和其所发表的微博信息后对微博内容进行话题检测,然后针对话题层次上的微博进行影响力分析,找出能代表当前话题意见领袖的微博。通过对话题检测和分析话题层面的微博影响力找出微博中的意见领袖来了解当前微博最新最热的资讯及其舆论方向。本文针对水军的用户特征属性、行为特征属性和时间特征属性结合改进的逻辑回归算法应用Tensorflow学习框架训练得出微博水军识别模型,通过对比实验结果发现改进的方法能够有效的识别出微博水军;同时利用LDA主题概率模型和改进的Single-pass增量聚类算法的结合,...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 水军识别的国内外研究现状
1.2.2 微博话题检测的国内外研究现状
1.2.3 影响力分析的国内外研究现状
1.3 本文的研究内容及贡献
1.4 本文结构
第2章 相关理论和技术
2.1 水军的定义
2.2 有监督学习和无监督学习
2.2.1 朴素贝叶斯
2.2.2 C4.5决策树
2.2.3 逻辑回归
2.3 微博文本话题检测
2.3.1 微博数据的预处理
2.3.2 文本模型表示
2.3.3 文本相似度计算
2.3.4 聚类算法
2.4 影响力分析
2.5 本章小结
第3章 基于改进的逻辑回归算法的微博水军识别
3.1 用户特征选取
3.1.1 用户账号属性
3.1.2 用户行为属性
3.1.3 用户时间属性
3.2 逻辑回归算法改进
3.2.1 逻辑回归的核心函数
3.2.2 梯度下降迭代求解参数
3.3 基于改进的逻辑回归算法的水军识别实验
3.3.1 数据处理
3.3.2 实验结果及分析
3.4 本章小结
第4章 基于Single-pass增量聚类算法的微博话题检测
4.1 文本预处理
4.1.1 微博文本内容过滤
4.1.2 微博文本词形变化
4.1.3 微博文本分词
4.1.4 去除微博文本停用词
4.2 基于LDA主题模型的文本表示
4.3 基于改进的Single-pass算法的文本聚类
4.3.1 原Single-pass增量聚类算法
4.3.2 改进的Single-pass增量聚类算法
4.4 话题检测实验
4.4.1 实验数据
4.4.2 实验参数预设
4.4.3 评价指标
4.4.4 实验结果分析
4.5 本章小结
第5章 微博话题影响力分析方法
5.1 总体框架
5.2 影响力分析方法
5.2.1 有关影响力分析的基本理论
5.2.2 基于话题的微博影响力传播因子
5.2.3 微博影响力评价模型
5.3 案例分析及结论
5.4 本章小结
结论
参考文献
附录 (攻读硕士期间发表的论文和专利)
致谢
【参考文献】:
期刊论文
[1]基于SOM聚类的微博话题发现[J]. 宋莉娜,冯旭鹏,刘利军,黄青松. 计算机应用研究. 2018(03)
[2]正则化在逻辑回归与神经网络中的应用研究[J]. 朱劲夫,刘明哲,赵成强,苏世熙. 信息技术. 2016(07)
[3]结合时序和语义的中文微博话题检测与跟踪方法[J]. 陈铁明,王小号,庞卫巍,江颉. 网络与信息安全学报. 2016(05)
[4]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[5]基于关系图特征的微博水军发现方法[J]. 程晓涛,刘彩霞,刘树新. 自动化学报. 2015(09)
[6]基于综合指数和熵值法的微博水军自动识别[J]. 袁旭萍,王仁武,翟伯荫. 情报杂志. 2014(07)
[7]面向微博的概率图水军识别模型[J]. 韩忠明,许峰敏,段大高. 计算机研究与发展. 2013(S2)
[8]基于Base64的URL参数压缩算法[J]. 钟思志,林秋霞,潘晓晓,傅仰耿,吴英杰. 福州大学学报(自然科学版). 2013(05)
[9]基于线索树双层聚类的微博话题检测[J]. 马彬,洪宇,陆剑江,姚建民,朱巧明. 中文信息学报. 2012(06)
[10]MB-SinglePass:基于组合相似度的微博话题检测[J]. 周刚,邹鸿程,熊小兵,黄永忠. 计算机科学. 2012(10)
硕士论文
[1]基于分布式表达的微博话题检测与情感分类研究[D]. 杨宇婷.东北林业大学 2016
[2]基于主题模型的微博话题挖掘[D]. 汪进祥.北京邮电大学 2015
[3]基于SVM的微博话题跟踪方法及其应用[D]. 罗杰.北京理工大学 2015
[4]基于LDA模型的微博话题与事件检测[D]. 吴楠.哈尔滨工业大学 2014
[5]改进的K均值算法在中文文本聚类中的研究[D]. 李梅.安徽大学 2010
[6]社交网络结构研究[D]. 刘耀庭.浙江大学 2008
本文编号:3371926
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 水军识别的国内外研究现状
1.2.2 微博话题检测的国内外研究现状
1.2.3 影响力分析的国内外研究现状
1.3 本文的研究内容及贡献
1.4 本文结构
第2章 相关理论和技术
2.1 水军的定义
2.2 有监督学习和无监督学习
2.2.1 朴素贝叶斯
2.2.2 C4.5决策树
2.2.3 逻辑回归
2.3 微博文本话题检测
2.3.1 微博数据的预处理
2.3.2 文本模型表示
2.3.3 文本相似度计算
2.3.4 聚类算法
2.4 影响力分析
2.5 本章小结
第3章 基于改进的逻辑回归算法的微博水军识别
3.1 用户特征选取
3.1.1 用户账号属性
3.1.2 用户行为属性
3.1.3 用户时间属性
3.2 逻辑回归算法改进
3.2.1 逻辑回归的核心函数
3.2.2 梯度下降迭代求解参数
3.3 基于改进的逻辑回归算法的水军识别实验
3.3.1 数据处理
3.3.2 实验结果及分析
3.4 本章小结
第4章 基于Single-pass增量聚类算法的微博话题检测
4.1 文本预处理
4.1.1 微博文本内容过滤
4.1.2 微博文本词形变化
4.1.3 微博文本分词
4.1.4 去除微博文本停用词
4.2 基于LDA主题模型的文本表示
4.3 基于改进的Single-pass算法的文本聚类
4.3.1 原Single-pass增量聚类算法
4.3.2 改进的Single-pass增量聚类算法
4.4 话题检测实验
4.4.1 实验数据
4.4.2 实验参数预设
4.4.3 评价指标
4.4.4 实验结果分析
4.5 本章小结
第5章 微博话题影响力分析方法
5.1 总体框架
5.2 影响力分析方法
5.2.1 有关影响力分析的基本理论
5.2.2 基于话题的微博影响力传播因子
5.2.3 微博影响力评价模型
5.3 案例分析及结论
5.4 本章小结
结论
参考文献
附录 (攻读硕士期间发表的论文和专利)
致谢
【参考文献】:
期刊论文
[1]基于SOM聚类的微博话题发现[J]. 宋莉娜,冯旭鹏,刘利军,黄青松. 计算机应用研究. 2018(03)
[2]正则化在逻辑回归与神经网络中的应用研究[J]. 朱劲夫,刘明哲,赵成强,苏世熙. 信息技术. 2016(07)
[3]结合时序和语义的中文微博话题检测与跟踪方法[J]. 陈铁明,王小号,庞卫巍,江颉. 网络与信息安全学报. 2016(05)
[4]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟. 科技导报. 2016(02)
[5]基于关系图特征的微博水军发现方法[J]. 程晓涛,刘彩霞,刘树新. 自动化学报. 2015(09)
[6]基于综合指数和熵值法的微博水军自动识别[J]. 袁旭萍,王仁武,翟伯荫. 情报杂志. 2014(07)
[7]面向微博的概率图水军识别模型[J]. 韩忠明,许峰敏,段大高. 计算机研究与发展. 2013(S2)
[8]基于Base64的URL参数压缩算法[J]. 钟思志,林秋霞,潘晓晓,傅仰耿,吴英杰. 福州大学学报(自然科学版). 2013(05)
[9]基于线索树双层聚类的微博话题检测[J]. 马彬,洪宇,陆剑江,姚建民,朱巧明. 中文信息学报. 2012(06)
[10]MB-SinglePass:基于组合相似度的微博话题检测[J]. 周刚,邹鸿程,熊小兵,黄永忠. 计算机科学. 2012(10)
硕士论文
[1]基于分布式表达的微博话题检测与情感分类研究[D]. 杨宇婷.东北林业大学 2016
[2]基于主题模型的微博话题挖掘[D]. 汪进祥.北京邮电大学 2015
[3]基于SVM的微博话题跟踪方法及其应用[D]. 罗杰.北京理工大学 2015
[4]基于LDA模型的微博话题与事件检测[D]. 吴楠.哈尔滨工业大学 2014
[5]改进的K均值算法在中文文本聚类中的研究[D]. 李梅.安徽大学 2010
[6]社交网络结构研究[D]. 刘耀庭.浙江大学 2008
本文编号:3371926
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3371926.html