当前位置:主页 > 经济论文 > 经济发展论文 >

基于LDA和随机森林的活跃微博预测研究

发布时间:2018-04-01 15:22

  本文选题:活跃微博 切入点:主题模型 出处:《合肥工业大学》2017年硕士论文


【摘要】:随着移动互联网的快速发展,微博以其丰富及时的信息、舒适的用户体验在人们的生活中被广泛应用。微博已经成为人们信息交流、展示自我的一个重要平台。当下,微博平台的用户规模巨大,而且涵盖的社会阶层十分广泛。微博用户每天在微博平台产生海量内容,这些内容既有普通民众对日常生活的记录分享,也有政府、企业以及其他组织发布的关于社会事务的公告。总的来说,对社会热点事件的关注与探讨才是微博平台的主流,从这个意义来说,微博是当下社会的一个缩影。鉴于微博平台如此巨大的社会影响力,微博活跃内容的及时掌控对微博平台的内容分发控制、网络舆情管理有着及其重要的理论意义和应用价值。目前微博预测已经成为研究热点,其涉及的范畴也非常广泛。本文就活跃微博的预测进行了研究,研究的主要内容包括研究问题建模和解决问题的基于LDA和随机森林的活跃微博预测模型。对于研究问题建模,本文首先分析了和微博“互动”相关的三个操作(点赞、转发、评论),并通过权重求解的方式构建了微博互动的数学模型;然后本文分析了微博活跃度和互动值以及微博活跃度与粉丝数之间的相关性;最后给出了微博是否活跃的数学判定模型。对于活跃微博预测模型,本文首先根据影响微博活跃因素的分析以及研究特体的特殊性分析,设计了爬虫并爬取了相关微博数据。然后基于预处理后的数据集,本文利用微博活跃判定模型对微博是否活跃进行标注,构造特征集。接着本文使用LDA建模的方式的对微博博文的主题进行发掘,经过Gibbs采样之后获得文档-主题的概率分布矩阵,概率矩阵经过离散化处理之后并入原始特征集获得优化后的(即包含主题信息的)特征集。对于预测模型的算法选择,本文基于微博平台的的数据特点,对比分析了多种预测算法;然后选择了和数据特点契合度较高的随机森林模型;最后本文对随机森林算法进行了平衡化处理。最后本文在模型训练、参数调优的基础上,采用对比实验的方式对本文的活跃微博预测模型进行效果验证。实验结果表明,本文提出的基于随机森林算法和LDA主题模型的活跃微博预测模型取得了良好的预测效果,是切实可行的。
[Abstract]:With the rapid development of mobile Internet, Weibo is widely used in people's life with its rich and timely information and comfortable user experience.Weibo has become an important platform for people to exchange information and show themselves.At present, Weibo platform user scale is huge, and the social stratum that covers is very wide.Weibo users generate huge amounts of content every day on the Weibo platform, which includes records of daily life shared by ordinary people and announcements on social affairs issued by governments, enterprises and other organizations.In general, the focus and discussion on social hot issues is the mainstream of Weibo's platform. In this sense, Weibo is a microcosm of the present society.In view of the huge social influence of Weibo platform, the timely control of Weibo's active content has important theoretical significance and application value to the content distribution control of Weibo platform, and the management of network public opinion is of great theoretical significance and application value.At present Weibo forecast has become the research hotspot, its scope is also very extensive.In this paper, the prediction of active Weibo is studied. The main contents of the study include problem modeling and problem solving based on LDA and stochastic forest active Weibo prediction model.For the modeling of research problems, this paper first analyzes the three operations related to Weibo's "interaction" (likes, forwards, comments), and constructs the mathematical model of Weibo interaction by solving the weights.Then, this paper analyzes the correlation between Weibo's activity and interaction value, as well as Weibo's activity and the number of fans, and finally gives a mathematical model to determine whether Weibo is active or not.For the active Weibo prediction model, according to the analysis of the active factors and the particularity analysis of the special body, the crawler is designed and crawling the data of Weibo.Then, based on the preprocessed data set, this paper uses Weibo active decision model to label Weibo and construct the feature set.Then this paper uses LDA modeling method to excavate the theme of Weibo's blog, after Gibbs sampling, we get the probability distribution matrix of document-topic.The probability matrix is discretized and incorporated into the original feature set to obtain the optimized feature set.For the algorithm selection of the prediction model, based on the data characteristics of Weibo platform, this paper compares and analyzes various prediction algorithms, and then selects the random forest model with high consistency with the data characteristics.Finally, the stochastic forest algorithm is balanced.Finally, on the basis of model training and parameter optimization, this paper verifies the effect of active Weibo prediction model by contrast experiment.The experimental results show that the active Weibo prediction model based on stochastic forest algorithm and LDA subject model has good prediction effect and is feasible.
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:F224;F49

【相似文献】

相关期刊论文 前10条

1 马景义;谢邦昌;;拟适应再加权分类随机森林[J];统计与信息论坛;2010年03期

2 张启敏,聂赞坎;随机森林发展系统解的存在性和唯一性(英文)[J];应用数学;2003年04期

3 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期

4 袁敏;胡秀珍;;随机森林方法预测膜蛋白类型[J];生物物理学报;2009年05期

5 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期

6 方正;李益洲;肖嘉敏;李功兵;文志宁;李梦龙;;基于复杂网络的随机森林算法预测氨基酸突变对蛋白质稳定性的影响(英文)[J];化学研究与应用;2011年05期

7 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期

8 曹正凤;谢邦昌;纪宏;;一种随机森林的混合算法[J];统计与决策;2014年04期

9 张光亚;方柏山;;基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J];生物工程学报;2008年02期

10 马景义;吴喜之;谢邦昌;;拟自适应分类随机森林算法[J];数理统计与管理;2010年05期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前6条

1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年

2 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年

3 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

4 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

6 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年



本文编号:1696108

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjifazhanlunwen/1696108.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户533ba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com