基于地理坐标的微博事件检测与分析研究
发布时间:2017-09-20 20:33
本文关键词:基于地理坐标的微博事件检测与分析研究
更多相关文章: 微博 事件检测 可视化分析 地理坐标分析 信息检索
【摘要】:随着计算机网络和web2.0技术的深入发展和应用,微博改变了传统的社交网络形式,并迅速在社会上流行起来。用户不仅可以在微博平台上及时接触热点社会信息,并且可以通过对微博内容的分享和转发提升相关资讯的传播范围和影响力。微博具有的独特社交网络形式极大地方便了人们进行信息的获取、传播与分享。移动智能设备和无线网络技术的全面发展,让人们可以将现实世界中发生的社会事件“随时随地”的发布到微博平台上。社会性的重大事件往往首先会在微博内容中反映出来,从而引发大量用户的关注并产生巨大的影响力。因此,微博事件检测的意义深远,也是当前微博研究的热点之一。本文的研究目标在于利用数据挖掘算法,从内容繁杂、海量短小的微博数据中检测出有意义的事件信息,帮助用户在有限的时间范围内获取更多有价值的事件资讯,协助相关政府部门进行微博舆情管控和社会行政决策。首先,针对国内具有代表性的微博网站,通过使用微博网络开放接口收集带有地理坐标的微博数据;其次,将这些数据作为训练样本,使用K-means、KNN和决策树三种数据挖掘算法,根据微博数据的发布数、转发数、评论数、用户活跃度和移动强度五个指标来构建微博的地理规律性特征;最后,将日常地区性的微博数据特征与该地区微博特征的地理规律性进行比较,从而检测出该区域是否有事件发生。本文在运用K-means、KNN和决策树数据挖掘算法对微博数据分析的基础之上,提出了基于地理坐标的微博事件检测框架,并且运用R语言对微博事件的发展趋势进行了可视化分析。利用微博事件检测框架检测出的事件信息具有较大的参考价值,尤其是微博用户对该事件的情感和该事件的发展趋势都值得我们分析和思考,为以后应对类似的事件提供借鉴。因此,本文将信息检索的相关理论和技术引入到了微博事件的组织和管理中。为了用户便于检索已检测出的微博事件,本文在开源搜索引擎Lucene的基础之上,同时结合mmseg中文分词技术和jsp动态网页技术,实现了微博事件检索系统,帮助用户了解过往微博事件的内容和发展趋势。最后通过实验分析微博事件检测框架的可行性,并且结合“沙尘暴”事件的具体案例,实现微博事件的精确检索。
【关键词】:微博 事件检测 可视化分析 地理坐标分析 信息检索
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;G206
【目录】:
- 摘要6-7
- Abstract7-11
- 1 引言11-17
- 1.1 研究背景及意义11-13
- 1.1.1 研究背景11-12
- 1.1.2 研究意义12-13
- 1.2 国内外研究现状13-15
- 1.3 研究内容与方法15-17
- 2 微博地理数据的采集、检测及相关技术综述17-25
- 2.1 微博地理数据的采集方法17-18
- 2.1.1 网络爬虫抓取17-18
- 2.1.2 基于开放API的微博数据获取18
- 2.2 微博开放平台18-22
- 2.2.1 开放平台的概念18-19
- 2.2.2 OAuth2.0授权19-22
- 2.3 微博事件检测算法22-23
- 2.4 Lucene&Solr和R语言23-25
- 2.4.1 Lucene&Solr介绍23-24
- 2.4.2 R语言24-25
- 3 微博特征地理规律性构建过程和指标25-42
- 3.1 微博数据获取及预处理25-30
- 3.1.1 微博数据获取25-29
- 3.1.2 微博数据预处理29-30
- 3.2 微博地理规律性构建指标30-34
- 3.2.1 微博发布数量31
- 3.2.2 微博评论数量31-32
- 3.2.3 微博转发数量32-33
- 3.2.4 微博用户活跃度33
- 3.2.5 微博用户移动强度33-34
- 3.3 微博数据库设计34-35
- 3.4 微博的时空分布特征35-38
- 3.4.1 微博的时间分布特征35-37
- 3.4.2 微博的空间分布特征37-38
- 3.5 微博地理规律性的构建38-42
- 3.5.1 微博数据的边界划分38-39
- 3.5.2 微博地理规律性指标的抽取39
- 3.5.3 微博地理规律性的构建39-42
- 4 微博事件检测框架42-48
- 4.1 微博事件的摘要抽取42-43
- 4.2 微博事件检测的流程43-45
- 4.3 微博事件的分类45
- 4.4 微博事件发展趋势分析45-47
- 4.5 微博事件检索47-48
- 5 实验数据与结果分析48-56
- 5.1 数据分析48-52
- 5.2 结果分析52-54
- 5.3 北京“沙尘暴”事件检索54-56
- 6 总结与展望56-58
- 6.1 总结56-57
- 6.2 展望57-58
- 参考文献58-62
- 附录62-66
- 攻读硕士学位期间发表的学术论文66-67
- 致谢67
【参考文献】
中国期刊全文数据库 前10条
1 赖胜强;;影响用户微博信息转发的因素研究[J];图书馆工作与研究;2015年08期
2 陈卓群;王平;;面向中文微博摘录式摘要方法研究[J];情报科学;2015年03期
3 胡珑瑛;董靖巍;;微博用户转发动机实证分析[J];中国软科学;2015年02期
4 李天龙;李明德;张宏邦;;微博舆情生成机制研究[J];情报杂志;2014年09期
5 亓峰;刘昆;张超;王德原;;圆和维诺图相交模拟基站覆盖算法[J];北京邮电大学学报;2014年S1期
6 孙青云;王俊峰;赵宗渠;高梦超;;一种基于模拟登录的微博数据采集方案[J];计算机技术与发展;2014年03期
7 迟呈英;李红;;基于改进TF* PDF算法的网络新闻热点话题检测和跟踪[J];计算机应用与软件;2013年12期
8 冯永;韩楠;贾东风;;云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪[J];计算机应用;2013年12期
9 陈吉荣;乐嘉锦;;基于Hadoop生态系统的大数据解决方案综述[J];计算机工程与科学;2013年10期
10 杨霞;吴东伟;;R语言在大数据处理中的应用[J];科技资讯;2013年23期
,本文编号:890239
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/890239.html