当前位置:主页 > 文艺论文 > 广告艺术论文 >

微博热点话题感知关键技术的研究

发布时间:2017-05-26 13:16

  本文关键词:微博热点话题感知关键技术的研究,,由笔耕文化传播整理发布。


【摘要】:微博平台作为WEB2.0时代的新产物,近年来发展迅速,已经成为了社会舆情传播的重要载体。对微博上舆论信息的挖掘、提取、分析和监管也就成了重中之重。微博热点话题感知不但可以挖掘热点词汇、热门事件,还能了解社会动态和民心所向,具有很强的社会意义和现实意义。 本文的主要工作如下: (1)针对微博文本中存在着的大量广告微博和其余噪声微博,本文在文本聚类模块之前加入了广告过滤模块和噪声过滤模块,改进了传统的文本话题感知机制,提升了文本聚类的效率。根据广告用户共同的行为特征,本文使用了C4.5决策树分类算法对微博进行了过滤,并对C4.5算法的连续属性分割阈值选择进行了优化。在噪声过滤模块中,本文提出了基于特征值词频的噪声记分过滤算法,将不含高频特征词条的微博文本视为噪声滤除。为了防止特征值集合过大,又考虑到微博话题的实时性,给文本词频统计的过程加上了滑动窗口。此外,由于不同词性的词对表征话题具有不同的贡献度,本文在记分算法中对词条进行了词性加权。该记分算法能对噪声微博进行有效过滤。 (2)在话题感知模块中,针对微博话题的时效性,本文在传统的夹角余弦距计算方法中加入了一个时间参数,提升了文本相似度计算的准确性。在文本聚类模块中,针对K-means聚类算法的K值和话题中心难以确立的问题,本文在聚类算法之前加入了一个基于特征值集合的初步划分过程,优化了K-means算法的K值确立和中心选择方法,提升了算法的性能。传统的微博话题热度评估算法只考虑了用户的参与度,本文在此基础上结合了微博传播的影响力,对话题热度的计算方法进行了改进,使话题热度的评估更加客观全面。 最后,本文使用JAVA语言对微博热点话题感知系统进行了实现,并设计了一系列实验对所改进的算法进行了验证。实验证明,本文提出的改进机制在微博热点话题感知中具有良好的性能。
【关键词】:微博 文本 分类 聚类 热点话题
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-12
  • 1 引言12-18
  • 1.1 研究背景和意义12-14
  • 1.1.1 研究背景12
  • 1.1.2 微博热点话题感知的意义12-14
  • 1.2 基本概念介绍14-15
  • 1.3 国内外研究现状15-16
  • 1.3.1 TDT中的噪声过滤15
  • 1.3.2 TDT中的聚类算法15-16
  • 1.4 论文的组织结构16-18
  • 2 微博热点话题感知机制18-25
  • 2.1 传统的文本话题感知机制18-19
  • 2.2 改进的文本话题感知机制19-23
  • 2.2.1 微博文本的类别分布19-20
  • 2.2.2 微博和其他网络信息平台的对比20-21
  • 2.2.3 改进的微博热点话题感知机制21-23
  • 2.2.4 对带有微话题标志的微博的处理23
  • 2.3 本章小结23-25
  • 3 微博过滤模块25-41
  • 3.1 数据采集模块25-26
  • 3.2 预处理模块26-27
  • 3.3 文本表示模块27-30
  • 3.3.1 文本模型化27-28
  • 3.3.2 文本降维策略28-29
  • 3.3.3 特征值权重计算29-30
  • 3.4 广告微博过滤模块30-36
  • 3.4.1 广告用户行为分析30-31
  • 3.4.2 分类算法的比对和选择31-32
  • 3.4.3 C4.5决策树分类算法及其优化32-34
  • 3.4.4 基于用户行为分类的广告微博过滤机制34-36
  • 3.5 噪声微博过滤模块36-40
  • 3.5.1 噪声微博文本分析36
  • 3.5.2 基于特征值词频和词性的噪声记分过滤36-40
  • 3.6 本章小结40-41
  • 4 话题感知模块41-55
  • 4.1 微博文本聚类模块41-50
  • 4.1.1 传统的文本相似度计算方法41-42
  • 4.1.2 结合了时间参数的文本相似度计算42
  • 4.1.3 聚类算法的比对和选择42-46
  • 4.1.4 基于特征值集合的K-MEANS聚类算法46-50
  • 4.2 微博主题词提取模块50
  • 4.3 微博热度评估模块50-53
  • 4.4 本章小结53-55
  • 5 系统设计和实验分析55-65
  • 5.1 微博热点话题感知系统的设计和实现55-57
  • 5.1.1 系统的总体架构55-56
  • 5.1.2 系统的编程实现56-57
  • 5.2 微博热点话题感知系统实验分析57-62
  • 5.2.1 微博过滤模块测评标准57
  • 5.2.2 微博广告过滤模块实验分析57-58
  • 5.2.3 微博噪声过滤模块实验分析58-59
  • 5.2.4 话题感知模块测评标准59-60
  • 5.2.5 话题感知模块实验分析60-62
  • 5.3 微博热点话题感知系统输出展示62-64
  • 5.4 本章小结64-65
  • 6 总结与展望65-67
  • 6.1 工作总结65-66
  • 6.2 研究展望66-67
  • 参考文献67-70
  • 作者简历及攻读硕士学位期间取得的研究成果70-72
  • 学位论文数据集72

【参考文献】

中国期刊全文数据库 前4条

1 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期

2 刘涛;尹红健;;基于半监督学习的K-均值聚类算法研究[J];计算机应用研究;2010年03期

3 周刚;邹鸿程;熊小兵;黄永忠;;MB-SinglePass:基于组合相似度的微博话题检测[J];计算机科学;2012年10期

4 田鹏;王伟军;刘蕤;;Web2.0技术应用对知识分享行为影响研究[J];情报科学;2011年05期


  本文关键词:微博热点话题感知关键技术的研究,由笔耕文化传播整理发布。



本文编号:396967

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/396967.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a504f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com