基于BTM的微博舆情热点发现
发布时间:2018-03-11 20:23
本文选题:词对主题模型 切入点:短文本 出处:《情报杂志》2016年11期 论文类型:期刊论文
【摘要】:[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。
[Abstract]:[purpose / significance] as a new social news medium, Weibo has played an important role in the publication and dissemination of many hot events in recent years. Traditional methods can't effectively model it to find hot topics. Therefore, how to efficiently, It is a valuable research topic to accurately find and extract meaningful hot spot information from Weibo data. [method / process] this paper presents a method for discovering hot spots of public opinion in Weibo based on BTM model. Firstly, the paper uses BTM to model the text of Weibo. The algorithm of TF-IDF weight calculation is improved to adapt to the feature of Weibo short text, and then the feature extraction and similarity measurement are carried out by combining the result of BTM modeling with the improved TF-IDF weight algorithm. Then K-means clustering method is used to find hot topics. [results / conclusion] the validity of this method is verified by comparing the data sets of Weibo of Sina and analyzing the results. This method can effectively solve the problem of traditional model building in text. High dimensional and sparse problems in modules, Significantly improve the quality of hot topic discovery.
【作者单位】: 西安电子科技大学经济与管理学院;
【分类号】:TP391.1;G206
【相似文献】
相关期刊论文 前10条
1 王晓龙;袁艳;张泰山;;一种实体运动模式相似性度量方法的研究[J];计算机仿真;2009年11期
2 王黎;帅建梅;;图像重排序中与查询相关的图像相似性度量[J];计算机系统应用;2010年11期
3 文成林;周哲;徐晓滨;;一种新的广义梯形模糊数相似性度量方法及在故障诊断中的应用[J];电子学报;2011年S1期
4 仝朝阳,石教英;一种关于布尔模式的相似性度量及其应用[J];计算机研究与发展;1996年08期
5 杜培军,方涛,唐宏;基于集合论的光谱相似性度量及在影像检索中的应用[J];上海交通大学学报;2004年S1期
6 刘海涛;魏汝祥;蒋国萍;;软件成本数据的相似性度量[J];上海交通大学学报;2012年11期
7 郑翠翠;李林;;协同过滤算法中的相似性度量方法研究[J];计算机工程与应用;2014年08期
8 吴德;叶传标;;时间序列相似性度量在水文数据挖掘中的应用研究[J];现代计算机(专业版);2008年11期
9 刘海桃;徐向~,
本文编号:1599749
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1599749.html