基于热量模型的微博舆情实时监控系统研究
发布时间:2021-01-17 23:10
互联网技术的不断进步,导致人们的交流方式随之发生改变,大量的网络社交平台应运而生,其中,微博毫无疑问占据重要地位。微博,以它的及时、自主和极强的互动性等特点,区别于传统媒体,在新时代的互联网大潮中得到了迅速的发展。目前,微博已经成为大众化的互联网舆论平台,是互联网用户发布分享信息的重要途经。而正是因为微博极强的互动性、自主性和快速性,导致其舆情事件的爆发往往类似于传染病毒的扩散爆发,这给舆情的监控带来了巨大的挑战。本文面向微博舆情的实时监控问题,主要针对情感分析和用户影响力分析两大问题开展研究。首先针对情感分类问题,本文提出了基于集成学习的情感分类算法。该算法首先利用微博爬虫爬取目标相关微博信息,获得原始数据。然后对原始数据进行分词,去除停用词等预处理,再利用TF-IDF方法提取特征向量,并使用SVD方法对特征向量进行降维,最后使用Stacking集成策略集合五个基础分类器构成情感分类模型对数据进行情感分类判别。之后针对用户影响力分析问题,提出了基于Page Rank和HITS的影响力分析算法,在该算法中,首先利用微博爬虫爬取目标微博用户关系网络,分别用Page Rank算法和HITS...
【文章来源】:济南大学山东省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
情感分析整体模型结构图
济南大学硕士学位论文203.4集成学习本文利用Stacking的交叉机制,在兼顾计算时间少和准确率高的前提下,将训练集分为5等分进行5折交叉验证。这样做的好处是每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会,易于找到模型泛化能力性能最优的超参值,结合我们数据集的大小,我们最终选择5折交叉验证法进行实验。通过多次测试,最终我们在第一层的基分类器中,从诸多分类算法模型中,选取了五个结果最好的分类模型当作Stacking集成学习的第一层分类模型。在第一层我们将GDBT,RandomForest,Adaboost,KNN,NB等模型进行交叉验证,利用第一层的训练模型来训练四折的训练集,来预测一折的小数据集,步骤重复五次,预测值刚好和训练数据的长度吻合,得到的结果输入第二层,作为第二层模型的训练来源,由逻辑回归进行融合得到最终的结果。整体模型融合如图3.2所示。图3.2集成模型数据训练模型图
济南大学硕士学位论文23场景下可以提取到有效的特征值,并且将融合单模型的Stacking融合方法作为强分类器的方法是可行的。3.6不平衡数据在实际生活中,舆情往往具有极端性,网民的情绪的激烈对抗很难能够出现理智的平衡。从而导致获取的文本数据正负不平衡。考虑这种情况,又对本文提出的方法在不平衡数据集上做了相关实验。本文在之前的数据集中,随机抽取了1000条正面数据和1000条负面数据。又将1000条负面数据分别随机抽取200,400,600,800,1000条,混入1000条正面数据中,构成不平衡数据集,用来模拟现实生活中的数据不平衡情况。以下分别展示不同情感分类模型5种数据不平衡状况下的分类结果,可以看出本文提出的基于集成学习的情感分类模型在数据不平衡状况下,表现依然优秀。图3.3正负向数据比例为5:1时分类模型结果图
【参考文献】:
期刊论文
[1]基于深度学习和知乎的情感分析系统[J]. 贾宏志,徐亚峰. 软件. 2019(10)
[2]基于多部情感词典和规则集的中文微博情感分析研究[J]. 吴杰胜,陆奎. 计算机应用与软件. 2019(09)
[3]多维特征融合的网络舆情突发事件演化话题图谱研究[J]. 刘雅姝,张海涛,徐海玲,魏萍. 情报学报. 2019(08)
[4]大数据时代舆情的内涵与分析方法[J]. 李彪. 青年记者. 2019(19)
[5]结合实体词与句子语义的地理实体关系抽取[J]. 王海波,王姬卜,黄宗财,牛永勇,吴升. 测绘科学技术学报. 2018(06)
[6]基于LDA和AdaBoost多特征组合的微博情感分析[J]. 曾子明,杨倩雯. 数据分析与知识发现. 2018(08)
[7]MPOPTM:一种基于热量模型的微博舆情预测模型[J]. 谢凯,梁刚,杨文太,杨进,许春. 现代计算机(专业版). 2018(09)
[8]Microblog Topic Mining Based on FR-DATM[J]. LIU Bingyu,WANG Cuirong,WANG Yiran,ZHANG Kun,WANG Cong. Chinese Journal of Electronics. 2018(02)
[9]基于XGBoost算法的电商评论文本情感识别模型[J]. 苏兵杰,周亦鹏,梁勋鸽. 物联网技术. 2018(01)
[10]基于SVM的酒店客户评论情感分析[J]. 石强强,赵应丁,杨红云. 计算机与现代化. 2017(03)
博士论文
[1]面向文本情感分析的主题建模及应用研究[D]. 张鹏.山西大学 2018
[2]面向微博突发话题的舆情分析若干关键技术研究[D]. 董国忠.哈尔滨工程大学 2017
[3]社交网络舆情传播与控制研究[D]. 于淼.哈尔滨工程大学 2016
硕士论文
[1]面向微博电影评论的情感分类研究[D]. 李明.云南财经大学 2014
[2]网络电影评论的情感挖掘分析[D]. 郭伟.吉林大学 2010
本文编号:2983771
【文章来源】:济南大学山东省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
情感分析整体模型结构图
济南大学硕士学位论文203.4集成学习本文利用Stacking的交叉机制,在兼顾计算时间少和准确率高的前提下,将训练集分为5等分进行5折交叉验证。这样做的好处是每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会,易于找到模型泛化能力性能最优的超参值,结合我们数据集的大小,我们最终选择5折交叉验证法进行实验。通过多次测试,最终我们在第一层的基分类器中,从诸多分类算法模型中,选取了五个结果最好的分类模型当作Stacking集成学习的第一层分类模型。在第一层我们将GDBT,RandomForest,Adaboost,KNN,NB等模型进行交叉验证,利用第一层的训练模型来训练四折的训练集,来预测一折的小数据集,步骤重复五次,预测值刚好和训练数据的长度吻合,得到的结果输入第二层,作为第二层模型的训练来源,由逻辑回归进行融合得到最终的结果。整体模型融合如图3.2所示。图3.2集成模型数据训练模型图
济南大学硕士学位论文23场景下可以提取到有效的特征值,并且将融合单模型的Stacking融合方法作为强分类器的方法是可行的。3.6不平衡数据在实际生活中,舆情往往具有极端性,网民的情绪的激烈对抗很难能够出现理智的平衡。从而导致获取的文本数据正负不平衡。考虑这种情况,又对本文提出的方法在不平衡数据集上做了相关实验。本文在之前的数据集中,随机抽取了1000条正面数据和1000条负面数据。又将1000条负面数据分别随机抽取200,400,600,800,1000条,混入1000条正面数据中,构成不平衡数据集,用来模拟现实生活中的数据不平衡情况。以下分别展示不同情感分类模型5种数据不平衡状况下的分类结果,可以看出本文提出的基于集成学习的情感分类模型在数据不平衡状况下,表现依然优秀。图3.3正负向数据比例为5:1时分类模型结果图
【参考文献】:
期刊论文
[1]基于深度学习和知乎的情感分析系统[J]. 贾宏志,徐亚峰. 软件. 2019(10)
[2]基于多部情感词典和规则集的中文微博情感分析研究[J]. 吴杰胜,陆奎. 计算机应用与软件. 2019(09)
[3]多维特征融合的网络舆情突发事件演化话题图谱研究[J]. 刘雅姝,张海涛,徐海玲,魏萍. 情报学报. 2019(08)
[4]大数据时代舆情的内涵与分析方法[J]. 李彪. 青年记者. 2019(19)
[5]结合实体词与句子语义的地理实体关系抽取[J]. 王海波,王姬卜,黄宗财,牛永勇,吴升. 测绘科学技术学报. 2018(06)
[6]基于LDA和AdaBoost多特征组合的微博情感分析[J]. 曾子明,杨倩雯. 数据分析与知识发现. 2018(08)
[7]MPOPTM:一种基于热量模型的微博舆情预测模型[J]. 谢凯,梁刚,杨文太,杨进,许春. 现代计算机(专业版). 2018(09)
[8]Microblog Topic Mining Based on FR-DATM[J]. LIU Bingyu,WANG Cuirong,WANG Yiran,ZHANG Kun,WANG Cong. Chinese Journal of Electronics. 2018(02)
[9]基于XGBoost算法的电商评论文本情感识别模型[J]. 苏兵杰,周亦鹏,梁勋鸽. 物联网技术. 2018(01)
[10]基于SVM的酒店客户评论情感分析[J]. 石强强,赵应丁,杨红云. 计算机与现代化. 2017(03)
博士论文
[1]面向文本情感分析的主题建模及应用研究[D]. 张鹏.山西大学 2018
[2]面向微博突发话题的舆情分析若干关键技术研究[D]. 董国忠.哈尔滨工程大学 2017
[3]社交网络舆情传播与控制研究[D]. 于淼.哈尔滨工程大学 2016
硕士论文
[1]面向微博电影评论的情感分类研究[D]. 李明.云南财经大学 2014
[2]网络电影评论的情感挖掘分析[D]. 郭伟.吉林大学 2010
本文编号:2983771
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2983771.html
最近更新
教材专著