热门微博话题事件主题聚类分析
发布时间:2017-07-26 16:28
本文关键词:热门微博话题事件主题聚类分析
【摘要】:在当今的社会中,以互联网为载体,产生了与电视、报纸、广播等传统媒体近乎对等的网络媒体,这些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一,典型的代表有网络视频网站、微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过这些平台,网民随时随地发表身边的新鲜事,或者发表对热门微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许多有价值的信息。因此对这些平台上的内容进行研究,有着许多重要的意义,比如舆情分析、新媒体营销、品牌维护等。微博是基于关注关系形成的社交网络,用户可以发表少于140个字的文本,对别人的微博进行点赞、评论、转发。随着近几年的发展,用户数快速增长,每天都会生成海量的数据。随着数据量的爆炸式增长,用户越来越感觉到,从这些数据中获取自己关心的有价值的信息越来越难。第一,微博内容五花八门,良莠不齐,充斥着许多垃圾信息;第二,对于特定事件,每个人看问题的角度或者目的不同,掺杂的情感也不同,所以都会有一些不同的看法;第三,随着事件讨论热度变化,或者一些新的情况出现,事件的舆论发生改变,如何准确获取这些演变,也是一个值得研究的问题。对微博的分析研究,有助于我们发现其中蕴含的-舆论观点,感情倾向,为决策和预测提供可靠而宝贵的信息支撑。本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法,文本挖掘的相关理论。接着详述了LDA (Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良特征;2.使用LDA主题模型对数据建模,然后进行主题聚类,分析主题的变化,提出了主题词及其权重作为二元组的元素结合动态阈值进行新主题发现的方法;3.提出了“一篇短文本有且仅有一个主要主题”假设。基于这个假设,使用文本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了一种先主题聚类再文本分类的方法。实验中,面向有关巴黎恐怖袭击微博数据和百度知道数据,采用本文提出的算法,对实验结果进行分析,以验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题,这些新主题对应着话题下的一些热门子话题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。
【关键词】:文本挖掘 微博 LDA主题模型 主题演变
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-5
- Abstract5-9
- 第一章 绪论9-14
- 1.1 研究背景9-11
- 1.1.1 微博的发展9-10
- 1.1.2 研究目的和意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 社交网络研究11
- 1.2.2 微博情感分析11-12
- 1.2.3 微博内容研究12-13
- 1.3 论文主要工作13-14
- 第二章 文本挖掘概述14-27
- 2.1 文本表示14-18
- 2.1.1 中文分词和停用词14-16
- 2.1.2 词频和逆文档频率16-17
- 2.1.3 向量空间模型17-18
- 2.2 文本分类18-22
- 2.2.1 分类的相关问题18-19
- 2.2.2 常见分类算法19-22
- 2.3 文本聚类22-26
- 2.3.1 聚类的相关问题22-23
- 2.3.2 扁平聚类算法23-24
- 2.3.3 层次聚类24-26
- 2.4 本章小结26-27
- 第三章 LDA主题模型27-41
- 3.1 隐性语义索引29-33
- 3.1.1 隐性语义索引29-30
- 3.1.2 概率隐性语义索引30-32
- 3.1.3 一元混合模型32-33
- 3.2 LDA主题模型33-40
- 3.2.1 LDA主题模型简介33-34
- 3.2.2 LDA数学基础34-36
- 3.2.3 LDA主题模型36-40
- 3.3 本章小结40-41
- 第四章 微博主题分析和基于主题聚类的短文本分类41-63
- 4.1 主题聚类41-42
- 4.2 微博短文本分类42-45
- 4.3 算法设计与实验分析45-62
- 4.3.1 实验数据集和实验环境45-47
- 4.3.2 词级特征选择:新词发现、分词、特征词选择47-55
- 4.3.3 主题演化和新主题发现55-59
- 4.3.4 短文本分类实验59-62
- 4.4 本章小结62-63
- 第五章 总结与展望63-65
- 5.1 全文工作总结63
- 5.2 未来工作展望63-65
- 参考文献65-69
- 致谢69
【参考文献】
中国期刊全文数据库 前10条
1 吕超镇;姬东鸿;吴飞飞;;基于LDA特征扩展的短文本分类[J];计算机工程与应用;2015年04期
2 吴信东;李毅;李磊;;在线社交网络影响力分析[J];计算机学报;2014年04期
3 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
4 唐晓波;房小可;;基于文本聚类与LDA相融合的微博主题检索模型研究[J];情报理论与实践;2013年08期
5 薛素芝;鲁燃;任圆圆;;基于速度增长的微博热点话题发现[J];计算机应用研究;2013年09期
6 周胜臣;瞿文婷;石英子;施询之;孙韵辰;;中文微博情感分析研究综述[J];计算机应用与软件;2013年03期
7 程亮;邱云飞;孙鲁;;微博谣言检测方法研究[J];计算机应用与软件;2013年02期
8 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期
9 奉国和;吴敬学;;KNN分类算法改进研究进展[J];图书情报工作;2012年21期
10 孙艳;周学广;付伟;;基于主题情感混合模型的无监督文本情感分析[J];北京大学学报(自然科学版);2013年01期
中国博士学位论文全文数据库 前2条
1 陈晓美;网络评论观点知识发现研究[D];吉林大学;2014年
2 陈t熀,
本文编号:577323
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/577323.html