新浪微博话题流行度预测研究
本文选题:新浪微博 切入点:话题预测 出处:《华中师范大学》2016年硕士论文 论文类型:学位论文
【摘要】:近几年,新浪微博已经从流行转变到主流再转变到家喻户晓,它改变着我们线上线下的生活方式,甚至取代传统媒体成为我们发布和获取信息的主要渠道。虽然微博信息是碎片化的、零散的,但当大量的微博在讨论同一个话题时,这些零散的信息碎片就能聚合起来,迅速传播话题信息,让话题成为焦点,从而产生了一种新型的话语权。由于新浪微博的流行,以及热门话题的影响力,对微博话题未来流行趋势预测蕴含着巨大商机,成为市场营销和社会舆情监督的重要课题。目前对微博话题的预测研究主要基于信息流的时间序列、意见领袖的参与度和微博网络拓扑结构。本文基于上述研究成果对话题流行度的影响因素进行了总结,提出一种将预测看作是对话题多元特征分类的方法,对微博话题流行趋势进行预测。本文利用五种最常用的分类模型(朴素贝叶斯、k-最近邻,决策树,逻辑斯蒂回归和支持向量机)来做预测,故研究的主要任务是用有效的特征向量来描述微博话题。本文首先对新浪微博热门话题的影响因素进行分析,对热门微博传播路径可视化后发现微博早期流行度,用户影响力和话题自带属性是推动话题流行的重要因素。根据这些影响因素分别从早期传播动态、用户影响力和话题内容三个方面抽取特征,构造了三个相互补充的特征子集。本文基于新浪微博平台采集了2166个话题,近162.5万条微博数据,对预测模型进行试验分析。结果显示,利用分类模型输入特征集合进行预测的结果比输入特征子集的结果要更准确。在五种分类模型中,决策树C4.5的F度量结果要优于其他四个分类模型。论文首先介绍了新浪微博的迅猛发展和受欢迎的原因,并对国内外相关研究的成果和方向做了述评;第二章介绍了微博的相关理论和分类预测技术;第三章主要论述了影响微博话题流行度的因素;在第四章中对微博相关概念做了形式化定义,详细的给出了特征向量的计算方法,提出了新浪微博话题热度预测模型的框架和流程;第五章主要对论文提出的模型做验证,并详细介绍了新浪微博数据爬取和预处理的具体流程。在最后一章,对论文的主要工作和创新点进行了总结,并提出研究的改进方向。
[Abstract]:In recent years, Sina Weibo has changed from popular to mainstream to household name. It has changed our way of life both online and offline. Even replacing the traditional media as the main channel for us to publish and obtain information. Although Weibo's information is fragmented and fragmented, when a large number of Weibo is discussing the same topic, these scattered pieces of information can converge. The rapid dissemination of topic information has made the topic a focal point, thus creating a new type of discourse power. Due to the popularity of Sina Weibo and the influence of hot topics, there is a huge business opportunity to predict the future trend of Weibo topic. It has become an important topic in marketing and supervision of social public opinion. At present, the research on the prediction of Weibo's topic is mainly based on the time series of information flow. Based on the above research results, this paper summarizes the influencing factors of topic popularity, and proposes a method of classifying multiple features of topics by using prediction as a method. This paper uses five most commonly used classification models (naive Bayesian nearest neighbor, decision tree, logistic regression and support vector machine) to predict the trend of Weibo. Therefore, the main task of the study is to describe Weibo's topic with effective feature vectors. Firstly, this paper analyzes the influencing factors of popular topics in Sina Weibo, and after visualizing the path of transmission of popular Weibo, finds out the early prevalence of Weibo. User influence and topic characteristics are important factors to promote topic popularity. According to these factors, the characteristics are extracted from three aspects: early communication dynamics, user influence and topic content. Three complementary feature subsets are constructed. Based on the Sina Weibo platform, this paper collects 2166 topics and nearly one million six hundred and twenty-five thousand Weibo data, and makes an experimental analysis of the prediction model. The results show that, The prediction results using the input feature set of the classification model are more accurate than the results of the input feature subset. The F-metric result of decision tree C4.5 is superior to the other four classification models. Firstly, the paper introduces the rapid development of Sina Weibo and the reasons for its popularity, and reviews the research achievements and directions at home and abroad. The second chapter introduces Weibo's related theory and classification and prediction technology; the third chapter mainly discusses the factors that influence the popularity of the topic of Weibo; in Chapter 4th, it gives a formal definition of the relevant concepts of Weibo. The calculation method of feature vector is given in detail, and the framework and flow of heat prediction model of Sina Weibo topic are put forward. Chapter 5th mainly verifies the model proposed in this paper. In the last chapter, the main work and innovation of the paper are summarized, and the improvement direction of the research is put forward.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G206
【相似文献】
相关期刊论文 前10条
1 师瑞峰;周一民;;基于数据挖掘的人口数据预测模型综述[J];计算机工程与应用;2008年09期
2 姚光圻;赵荣黎;;场强预测模型分析及应用[J];移动通讯装备;1987年05期
3 唐芸,秦秀华,苏杰南;一种简易预测模型的应用[J];林业调查规划;2002年02期
4 吴学雁;辜敏;漆晨曦;;综合运用各种建模方法提高预测模型的准确度[J];广东通信技术;2006年06期
5 张飞飞;吴杰;吕智慧;;云计算资源管理中的预测模型综述[J];计算机工程与设计;2013年09期
6 廖灿平,柳玉柏;科技期刊发行量的灰色预测模型[J];编辑学报;1990年04期
7 刘晓雁,方忆冈;“读者需求”预测模型[J];晋图学刊;1997年02期
8 张慧敏;宋东;郭勇;王彦松;;故障预测模型的评价方法研究[J];测控技术;2013年05期
9 谢开贵,何斌,郑继明;灰色预测模型建模方法探讨[J];重庆邮电学院学报;1998年03期
10 胡代平,王浣尘;建立支持宏观经济决策研讨厅的预测模型系统[J];系统工程学报;2001年05期
相关会议论文 前10条
1 鄢小彬;肖新平;;基于灰色马尔可夫模型的煤矿安全预测[A];第九届中国青年信息与管理学者大会论文集[C];2007年
2 罗荣桂;黄敏镁;;基于自适应神经模糊推理系统的服务业发展预测模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
3 王亮;刘豹;徐德民;;预测模型的选择及其智能化实现[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
4 肖健华;吴今培;;基于支持向量机的预测模型及应用[A];2003年中国智能自动化会议论文集(下册)[C];2003年
5 李阳旭;邓辉文;;一种新的企业市场预测模型及其比较研究[A];2004年中国管理科学学术会议论文集[C];2004年
6 马志元;;城市区域经济、人口、能源、环境综合系统预测模型及应用[A];中国城市建设与环境保护实践——城市建设与环境保护学术研讨会论文集[C];1997年
7 李兆芹;姚克敏;;一种新的疾病发病率预测模型研究[A];首届长三角气象科技论坛论文集[C];2004年
8 李兆芹;姚克敏;;一种新的疾病发病率预测模型研究[A];首届长三角科技论坛——气象科技发展论坛论文集[C];2004年
9 张晓f^;;全球煤炭产量的灰色预测模型[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
10 肖会敏;樊为刚;;基于神经网络的粮食产量预测模型[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
相关重要报纸文章 前10条
1 刘庆;“预测模型”要缓行[N];网络世界;2006年
2 特约记者 刘京涛;华东化工销售员工设计价格预测模型见成效[N];中国石油报;2010年
3 南方日报记者 彭琳 实习生 周鹏程;预测世界杯之外 大数据还能做什么[N];南方日报;2014年
4 本报记者 张超;预测模型:推算SARS起落潮[N];科技日报;2003年
5 本报记者 段佳;机器“品肉师”替您“尝鲜”[N];大众科技报;2010年
6 BMC首席IT技术官 Mahendra Durai IDC顾问 Eric Hatcher Randy Perry;预测智能:管理复杂基础架构的锁钥[N];中国计算机报;2010年
7 张琳 赵伟;巧用Excel构建利润预测模型[N];财会信报;2007年
8 杨宜勇(作者为国家发改委经济研究所副所长);发挥信息化对就业的“增补效应”[N];第一财经日报;2005年
9 本报记者 汤浔芳 实习记者 董文萍;“孵化器”模式:大数据的垂直运营样本[N];21世纪经济报道;2014年
10 本报记者 安丰;深部找矿的探镜[N];中国国土资源报;2006年
相关博士学位论文 前10条
1 师懿;城市交通规划环评中空气污染预测模型研究[D];中国地质大学;2015年
2 张丽;牦牛肉用品质特性及近红外预测模型和产量等级系统的研究[D];中国农业科学院;2015年
3 吴利丰;分数阶灰色预测模型及其应用研究[D];南京航空航天大学;2015年
4 王菲;肉牛饲料有效能值预测模型的建立与评价[D];中国农业大学;2016年
5 文江平;农村地区成人2型糖尿病发生风险相关生物标志物的筛选及预测模型的建立[D];中国人民解放军医学院;2016年
6 白云鹏;华法林稳态剂量预测模型在瓣膜置换术后抗凝治疗中的应用[D];天津医科大学;2016年
7 周闯;原发性肝癌术后转移复发分子预测模型的优化整合与临床转化[D];复旦大学;2012年
8 孙忠林;煤矿安全生产预测模型的研究[D];山东科技大学;2009年
9 王冬光;控制技术在投资预测模型建立中的应用研究[D];哈尔滨工程大学;2005年
10 张丽峰;中国能源供求预测模型及发展对策研究[D];首都经济贸易大学;2006年
相关硕士学位论文 前10条
1 刘冰;基于神经网络的纤维热磨过程能耗预测模型的研究[D];东北林业大学;2015年
2 张念;铁路轨道几何不平顺趋势预测的关键算法研究[D];西南交通大学;2015年
3 田振伟;城市能源预测模型的研究与应用[D];昆明理工大学;2015年
4 吴迪;基于模糊决策树算法的安全库存量预测模型[D];中国地质大学(北京);2015年
5 齐雯;采用灰色预测模型改进的HHT算法在故障诊断中的应用[D];华南理工大学;2015年
6 王萍;膀胱癌遗传分数的计算及发病风险预测模型的构建[D];复旦大学;2013年
7 石大宏;基于序列的蛋白质—核苷酸绑定位点预测研究[D];南京理工大学;2015年
8 熊盛华;基于BP神经网络的混合预测模型的实例研究[D];兰州大学;2015年
9 赵Z,
本文编号:1611141
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/1611141.html