中文微博客热点话题发现技术研究
发布时间:2019-07-31 09:05
【摘要】:随着互联网的发展以及Web2.0的出现,微博(Microblog)逐渐成为人们相互沟通、发表言论以及获取新闻的重要工具,因此及时发现微博中热点话题具有重要的现实意义。但是微博文本内容短小、特征词稀疏以及规模庞大,传统的文本处理方法并不适合对其处理。因此,如何快速、准确地发现微博热点话题已成为当前自然语言处理的一个研究热点。本文主要工作包括以下三个方面: (1)针对微博数据文本内容短小、特征词稀疏、数据噪声大以及文档数据规模庞大等特征,本文利用具有优秀降维能力的LDA主题模型对微博数据建模,其不仅有效解决了文本相似性计算的复杂度,,还避免了传统文本建模方法存在的数据稀疏性问题。 (2)基于划分的K-means具有算法简单、收敛速度快等优点,但它对初始聚类中心数K非常敏感。而基于层次聚类的CURE算法对孤立点不敏感,擅长处理非球型或大小不均的簇,且准确度高。综合CURE算法的高准确性和K-means算法高效率的特点,本文采用了CURE和K-means结合的两阶段聚类策略,这样既缓和了K-means算法对初始点敏感的问题,又不损失聚类的效率。 (3)深入研究MapReduce编程模型和K-means聚类算法,针对K-means聚类算法特点,给出了MapReduce编程模型实现K-means聚类算法的方法,对海量微博短文本数据进行快速聚类。经实验测试,明显改善了聚类效率。 结合以上的研究方法,完成了微博热点话题发现系统的设计与实现,该系统集成了数据获取与预处理模块、热点话题发现模块和数据展示模块三大块。
【图文】:
图 1.1 2010-2013 年第一季度新浪、腾讯微博注册人数与中国互联网用户比较内外研究现状从微博诞生以来,它就扮演一种重要的传播媒介,非常迅速地改变着人息的方式。对于微博数据的深入挖掘,可以用于企事业单位的行政管理助灾害预警部门尽早发现险情,还可以帮助政府机关单位及时了解社会姓心声。前世界各地有很多学者在对微博数据进行研究与分析,其中朱少龙等人对包含特定关键词的微博数据进行分类的方法,辅助企业在较短的时间些产品和服务的用户评论,这样有助于企业及时更新自己的产品、改进务,帮助企业树立更好的形象,进而增加企业的收入;日本地震频繁爆发Twitter 用户在发生地震时经常发布大量关于地震的消息,Sakaki 等人[4]针件,设计了一套用于区分 Twitter 用户发布的内容是否和地震有关的分
西安建筑科技大学硕士学位论文2 相关技术研究检测与追踪测与追踪(Topic Detection and Tracking, TDT)主要是指“在闻等来源的数据流中自动发现主题并把主题相关的内容联系在话题检测与跟踪研究主要包 6 个步骤,其分别为数据采集、预信息到向量空间的转换、话题发现(检测)、话题追踪。其中话 TDT 的核心,是整个处理过程的重中之重。具体流程如图 2.
【学位授予单位】:西安建筑科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092
【图文】:
图 1.1 2010-2013 年第一季度新浪、腾讯微博注册人数与中国互联网用户比较内外研究现状从微博诞生以来,它就扮演一种重要的传播媒介,非常迅速地改变着人息的方式。对于微博数据的深入挖掘,可以用于企事业单位的行政管理助灾害预警部门尽早发现险情,还可以帮助政府机关单位及时了解社会姓心声。前世界各地有很多学者在对微博数据进行研究与分析,其中朱少龙等人对包含特定关键词的微博数据进行分类的方法,辅助企业在较短的时间些产品和服务的用户评论,这样有助于企业及时更新自己的产品、改进务,帮助企业树立更好的形象,进而增加企业的收入;日本地震频繁爆发Twitter 用户在发生地震时经常发布大量关于地震的消息,Sakaki 等人[4]针件,设计了一套用于区分 Twitter 用户发布的内容是否和地震有关的分
西安建筑科技大学硕士学位论文2 相关技术研究检测与追踪测与追踪(Topic Detection and Tracking, TDT)主要是指“在闻等来源的数据流中自动发现主题并把主题相关的内容联系在话题检测与跟踪研究主要包 6 个步骤,其分别为数据采集、预信息到向量空间的转换、话题发现(检测)、话题追踪。其中话 TDT 的核心,是整个处理过程的重中之重。具体流程如图 2.
【学位授予单位】:西安建筑科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前10条
1 蔡淑琴;张静;王e
本文编号:2521225
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2521225.html