微博热点话题感知关键技术的研究
发布时间:2017-05-26 13:16
本文关键词:微博热点话题感知关键技术的研究,,由笔耕文化传播整理发布。
【摘要】:微博平台作为WEB2.0时代的新产物,近年来发展迅速,已经成为了社会舆情传播的重要载体。对微博上舆论信息的挖掘、提取、分析和监管也就成了重中之重。微博热点话题感知不但可以挖掘热点词汇、热门事件,还能了解社会动态和民心所向,具有很强的社会意义和现实意义。 本文的主要工作如下: (1)针对微博文本中存在着的大量广告微博和其余噪声微博,本文在文本聚类模块之前加入了广告过滤模块和噪声过滤模块,改进了传统的文本话题感知机制,提升了文本聚类的效率。根据广告用户共同的行为特征,本文使用了C4.5决策树分类算法对微博进行了过滤,并对C4.5算法的连续属性分割阈值选择进行了优化。在噪声过滤模块中,本文提出了基于特征值词频的噪声记分过滤算法,将不含高频特征词条的微博文本视为噪声滤除。为了防止特征值集合过大,又考虑到微博话题的实时性,给文本词频统计的过程加上了滑动窗口。此外,由于不同词性的词对表征话题具有不同的贡献度,本文在记分算法中对词条进行了词性加权。该记分算法能对噪声微博进行有效过滤。 (2)在话题感知模块中,针对微博话题的时效性,本文在传统的夹角余弦距计算方法中加入了一个时间参数,提升了文本相似度计算的准确性。在文本聚类模块中,针对K-means聚类算法的K值和话题中心难以确立的问题,本文在聚类算法之前加入了一个基于特征值集合的初步划分过程,优化了K-means算法的K值确立和中心选择方法,提升了算法的性能。传统的微博话题热度评估算法只考虑了用户的参与度,本文在此基础上结合了微博传播的影响力,对话题热度的计算方法进行了改进,使话题热度的评估更加客观全面。 最后,本文使用JAVA语言对微博热点话题感知系统进行了实现,并设计了一系列实验对所改进的算法进行了验证。实验证明,本文提出的改进机制在微博热点话题感知中具有良好的性能。
【关键词】:微博 文本 分类 聚类 热点话题
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-18
- 1.1 研究背景和意义12-14
- 1.1.1 研究背景12
- 1.1.2 微博热点话题感知的意义12-14
- 1.2 基本概念介绍14-15
- 1.3 国内外研究现状15-16
- 1.3.1 TDT中的噪声过滤15
- 1.3.2 TDT中的聚类算法15-16
- 1.4 论文的组织结构16-18
- 2 微博热点话题感知机制18-25
- 2.1 传统的文本话题感知机制18-19
- 2.2 改进的文本话题感知机制19-23
- 2.2.1 微博文本的类别分布19-20
- 2.2.2 微博和其他网络信息平台的对比20-21
- 2.2.3 改进的微博热点话题感知机制21-23
- 2.2.4 对带有微话题标志的微博的处理23
- 2.3 本章小结23-25
- 3 微博过滤模块25-41
- 3.1 数据采集模块25-26
- 3.2 预处理模块26-27
- 3.3 文本表示模块27-30
- 3.3.1 文本模型化27-28
- 3.3.2 文本降维策略28-29
- 3.3.3 特征值权重计算29-30
- 3.4 广告微博过滤模块30-36
- 3.4.1 广告用户行为分析30-31
- 3.4.2 分类算法的比对和选择31-32
- 3.4.3 C4.5决策树分类算法及其优化32-34
- 3.4.4 基于用户行为分类的广告微博过滤机制34-36
- 3.5 噪声微博过滤模块36-40
- 3.5.1 噪声微博文本分析36
- 3.5.2 基于特征值词频和词性的噪声记分过滤36-40
- 3.6 本章小结40-41
- 4 话题感知模块41-55
- 4.1 微博文本聚类模块41-50
- 4.1.1 传统的文本相似度计算方法41-42
- 4.1.2 结合了时间参数的文本相似度计算42
- 4.1.3 聚类算法的比对和选择42-46
- 4.1.4 基于特征值集合的K-MEANS聚类算法46-50
- 4.2 微博主题词提取模块50
- 4.3 微博热度评估模块50-53
- 4.4 本章小结53-55
- 5 系统设计和实验分析55-65
- 5.1 微博热点话题感知系统的设计和实现55-57
- 5.1.1 系统的总体架构55-56
- 5.1.2 系统的编程实现56-57
- 5.2 微博热点话题感知系统实验分析57-62
- 5.2.1 微博过滤模块测评标准57
- 5.2.2 微博广告过滤模块实验分析57-58
- 5.2.3 微博噪声过滤模块实验分析58-59
- 5.2.4 话题感知模块测评标准59-60
- 5.2.5 话题感知模块实验分析60-62
- 5.3 微博热点话题感知系统输出展示62-64
- 5.4 本章小结64-65
- 6 总结与展望65-67
- 6.1 工作总结65-66
- 6.2 研究展望66-67
- 参考文献67-70
- 作者简历及攻读硕士学位期间取得的研究成果70-72
- 学位论文数据集72
【参考文献】
中国期刊全文数据库 前4条
1 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
2 刘涛;尹红健;;基于半监督学习的K-均值聚类算法研究[J];计算机应用研究;2010年03期
3 周刚;邹鸿程;熊小兵;黄永忠;;MB-SinglePass:基于组合相似度的微博话题检测[J];计算机科学;2012年10期
4 田鹏;王伟军;刘蕤;;Web2.0技术应用对知识分享行为影响研究[J];情报科学;2011年05期
本文关键词:微博热点话题感知关键技术的研究,由笔耕文化传播整理发布。
本文编号:396967
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/396967.html