微博文本处理及话题分析方法研究

发布时间：2018-04-16 23:16

本文选题：微博短文本 + 特征扩展　；参考：《北京信息科技大学》2017年硕士论文

【摘要】：现今的微博,俨然已经成为一个话题发布、传播的平台。基于这个平台产生的微博文本数量巨大,其中蕴含着众多的信息,包括商业信息、最新资讯信息、用户的行为及关系信息等,这些信息可能蕴含着众多话题,也可能在传播过程中产生各种各样的话题。这些话题一部分具有明显标记,称之为显性话题,而有些话题在微博文本中并不能直接显示出来,需要经过特殊分析处理和数据挖掘才能发现并追踪,我们把这样的话题称为隐性话题。隐性话题虽然不能直接在文本中标记出来,但其在社交媒体中的影响是非常重要的,如何对微博文本进行分析并发现和追踪这些隐性话题,已经成为微博研究领域的重要内容,对于社会媒体的舆情分析、舆论引导具有重要的意义,为此,开展微博文本的处理方法及相关话题分析研究显得十分必要,本论文将进行这方面的相关研究。主要的研究工作包括以下五个方面:(1)微博数据资源库建设方法提出了一种基于微博关键词搜索的话题内容爬取方法,获取蕴含相应关键词的微博内容及其对应的评论信息。通过研究常用的微博数据资源爬取及存储技术,设计了微博数据资源库的分类分层级别和存储结构,完成了微博内容库、用户关注关系库、博主信息库和微博话题资源库的建设。整理了具有80W词容量的用户词典,并应用于微博文本分词。(2)微博短文本的特征扩展策略提出了基于Word2Vec模型构建微博上下文相关词词表的算法,并通过词表和微博标签信息扩展微博文本中的关键词,解决了微博文本高维、稀疏特点给文本处理带来的问题。还提出了微博文本关键词提取方法及词向量中相似词和相关词的区分方法。比较了基于知网和同义词词林的短文本扩展策略。结果证明,在微博文本聚类中输入经过Word2Vec词向量相关词及微博标签扩展后的文本,其聚类准确率有显著提高。(3)微博文本的深度表示模型及相似度计算方法提出了基于文本深度表示模型的微博句子相似度计算方法。比较了基于TF-IDF方法、基于词向量加权和方法和句向量训练模型方法对文本相似度计算的效果。结果表明,采用语义词库的文本深度模型对微博短、长文本进行相似度计算的效果最佳。而基于句向量模型的方法,应用于长文本的相似度计算后,其效果虽然也很好,但该方法对于短文本却无能为力。(4)基于组合聚类算法及话题判断模型的微博话题分析技术提出了组合聚类算法及微博话题判断模型。结合基于密度的聚类方法和K-Means聚类方法,改进现有K-Means聚类算法不能预测话题分类数和随机选择初始中心的缺陷,同时将文本扩展和针对微博文本的句向量表示和相似度计算方法应用于K-Means聚类,得到了更好的微博话题聚类结果集。利用话题的时间变化及话题粒度可变属性,对追踪到的微博某话题集进行时间-频次建模,并以此为标准判断话题检测任务的结果是否为异常话题,实现对微博话题的判断和动态追踪。(5)微博话题分析系统的设计与实现采用Java、Hadoop和Hive等技术,编程实现了微博话题分析系统。介绍了微博话题分析系统的结构框架、各模块功能设计和实现步骤。并通过测试语料集在设计的系统中检验了本文方法的可行性和有效性。
[Abstract]:This paper presents a new method of micro blog data resource pool construction , which contains many topics , such as business information , latest information , user ' s behavior and relationship information . ( 4 ) Based on the clustering algorithm and the topic judgment model , the clustering algorithm and the micro blog topic judgment model are put forward . Combining the density - based clustering method and the K - Means clustering method , we improve the existing K - Means clustering algorithm to predict the topic classification number and the random selection initial center .

【学位授予单位】：北京信息科技大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.1;TP393.092

【相似文献】