基于Hadoop的微博热点信息的聚类提取应用研究
本文关键词:基于Hadoop的微博热点信息的聚类提取应用研究
更多相关文章: 微博 热点信息 hadoop平台 聚类提取 主题模型LDA
【摘要】:时至今日微博已经成为人们生活服务和娱乐休闲信息分享和交流的主要平台。通过从海量微博数据中快速有效的聚类提取出相关的政治、社会、民生、医疗等有价值的微博热点信息,对于广大微博用户、政府机关以及企业,更加有效地关注舆情的发展态势,进一步对舆论引导和对事态的把控具有重要意义。然而,随着微博数据和用户信息的爆炸式增长,用户要在海量的微博信息中找到感兴趣的热点话题越来越困难。因此,微博热点信息的聚类提取系统也成为微博平台上不可或缺的模块之一。本研究从实际应用的角度出发,主要解决的问题是如何高效、快速、准确地从微博文本库中聚类提取出用户感兴趣的热点信息,以满足用户的需求。本论文的主要研究工作有:1.本文对微博文本信息特征以及微博的交互性特点和特有架构进行了分析和研究,并且根据微博发表的时间,提出了微博随着发表的时间衰减度算法。2.对主题概率模型的思想进行了分析与研究,并且基于概率主题模型LDA的概率主题计算公式提取出概率主题集合,进行系统建模,同时将TF-IDF算法、及改进算法和余弦系数相似度算法,应用到微博热点信息的聚类提取计算中去,实现了微博热点词元和热点话题的提取。3.通过将发表该条微博的用户在当前时刻的总关注人数和某个话题在各条微博中的出现概率值乘积的计算结果作为该话题的热度值,同时借鉴了一种有效的关联度算法,将热点词元和热点话题进行关联。将最终的关联结果推荐给用户。4.详细地研究了Hadoop云计算平台的关键技术,通过基于Hadoop云计算平台进行仿真实验,将实验提取出的微博热点话题结果应用准确率、召回率以及F1值等评价标准对进行了验证,证明了算法的有效性。同时,实验结果表明在hadoop平台下可以有效的解决处理海量微博数据的性能瓶颈问题,充分利用分布式并行及虚拟化技术的优势,显著提升运算效率。
【关键词】:微博 热点信息 hadoop平台 聚类提取 主题模型LDA
【学位授予单位】:内蒙古农业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要3-4
- Abstract4-10
- 1 引言10-15
- 1.1 研究背景和意义10-12
- 1.2 国内外研究现状12-13
- 1.2.1 国外研究现状12
- 1.2.2 国内研究现状12-13
- 1.3 论文结构13-14
- 1.4 本章小结14-15
- 2 相关工作与技术综述15-21
- 2.1 微博文本特征表示15
- 2.2 分词处理15
- 2.3 概率主题模型应用思想及以微博为研究对象的建模应用15-16
- 2.4 LDA概率模型思想简介及以微博为研究对象的建模应用16-17
- 2.5 文本热点词元提取算法17-19
- 2.5.1 TF-IDF公式原理18
- 2.5.2 微博主题特征词的提取算法18-19
- 2.6 相似度计算及聚类算法19
- 2.7 本章小结19-21
- 3 微博热点信息聚类提取计算21-26
- 3.1 微博发表日期及衰减度计算21
- 3.2 基于LDA模型的微博文本内容的相似度计算及聚类分析21-24
- 3.3 基于微博用户影响力因素对微博热度值的计算24
- 3.4 微博热点话题的关联及推荐24-25
- 3.5 本章小结25-26
- 4 Hadoop云计算平台关键技术简介及微博热点信息聚类提取的实现26-39
- 4.1 Hadoop云计算平台概念及发展趋势26-27
- 4.2 分布式文件系统架构27-29
- 4.3 分布式数据处理-MapReduce及实现机制29-30
- 4.4 MapReduce编程模型30-31
- 4.5 基于Hadoop平台的微博热点信息聚类提取的研究与实现31-38
- 4.5.1 统计每条微博中单词的出现次数34
- 4.5.2 计算微博单词词频TF34
- 4.5.3 计算微博单词的TF-IDF值34-35
- 4.5.4 计算主题特征词的权重35
- 4.5.5 基于概率主题模型LDA的微博文本信息的相似度计算实现35-37
- 4.5.6 基于微博用户影响力计算微博的热度值37
- 4.5.7 热点词元与话题的关联计算37-38
- 4.6 本章小结38-39
- 5 实验设计及结果分析39-46
- 5.1 云计算平台搭建硬件解决方案39
- 5.2 微博实验数据获取39
- 5.3 实验设计39-40
- 5.3.1 评价标准39-40
- 5.3.2 分词处理40
- 5.4 实验结果40-44
- 5.4.1 基于模型LDA的微博热点信息聚类提取结果评价40-42
- 5.4.2 基于Hadoop云计算平台对算法效率提升的结果评价42-44
- 5.5 本章小结44-46
- 6 总结与展望46-48
- 6.1 总结46-47
- 6.2 展望47-48
- 致谢48-49
- 参考文献49-51
- 作者简介51
【参考文献】
中国期刊全文数据库 前10条
1 孙卫华;张庆永;;微博客传播形态解析[J];传媒观察;2008年10期
2 高学东;吴玲玉;;基于高维聚类技术的中文关键词提取算法[J];中国管理信息化;2011年09期
3 林大云;;基于Hadoop的微博信息挖掘[J];计算机光盘软件与应用;2012年01期
4 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
5 吴颜;沈洁;顾天竺;陈晓红;李慧;张舒;;协同过滤推荐系统中数据稀疏问题的解决[J];计算机应用研究;2007年06期
6 张晓艳;王挺;;话题发现与追踪技术研究[J];计算机科学与探索;2009年04期
7 李勇;张克亮;李伟刚;;基于微博的网络舆情分析系统设计[J];计算技术与自动化;2013年02期
8 田鹏;王伟军;刘蕤;;Web2.0技术应用对知识分享行为影响研究[J];情报科学;2011年05期
9 谈成访;汪材印;张亚康;;基于LDA模型的中文微博热点话题发现[J];宿州学院学报;2014年04期
10 陈彦舟;曹金璇;;基于Hadoop的微博舆情监控系统[J];计算机系统应用;2013年04期
中国硕士学位论文全文数据库 前8条
1 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
2 左晓娜;微博的传播机制及影响力研究[D];陕西师范大学;2011年
3 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
4 林洋港;概率主题模型在文本分类中的应用研究[D];中国科学技术大学;2009年
5 顾涛;基于Hadoop的Web信息提取和垃圾信息过滤研究与实现[D];电子科技大学;2012年
6 张可;微博语言特征研究[D];陕西师范大学;2012年
7 朱亚涛;基于微博平台的信息推荐技术研究[D];首都师范大学;2013年
8 李妍;微博数据预处理及话题检测方法研究[D];河北师范大学;2014年
,本文编号:925970
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/925970.html