基于突发主题词和凝聚式层次聚类的微博突发事件检测研究
本文关键词: 凝聚式层次聚类 网络舆情 微博 出处:《现代图书情报技术》2016年Z1期 论文类型:期刊论文
【摘要】:【目的】实时、准确、高效地检测出海量微博中的突发事件,为舆情应急管理提供重要的决策信息支持。【方法】引入参照时间窗机制,设计词频、文档频率、话题标签(Hashtag)、词频增长率4类特征的选择与计算方法,基于动态阈值实现对突发主题词的抽取。在此基础上,将微博文本表示为突发主题词的特征向量,使用凝聚式层次聚类算法实现了突发事件的检测。【结果】将实验结果结合实例进行分析,突发事件检测达到80%的准确率,验证该方法的可行性和有效性。【局限】由于语料数据和研究范围的限制,还未实现对所检测突发事件的自动描述,对网民情感、事件间语义关系等要素的分析及考量也存在一定欠缺。【结论】本研究突破以往相关研究中文本内容质量、文本形式、突发特征抽取结果的局限,提升微博突发事件检测的效率。
[Abstract]:[objective] to detect the unexpected events in mass Weibo in real time, accurately and efficiently, and to provide important decision information support for the emergency management of public opinion. [methods] introducing the reference time window mechanism to design word frequency and document frequency, The topic tag Hashtagi, the selection and calculation method of four kinds of features of word frequency growth rate, and the extraction of burst subject words based on dynamic threshold are realized. On this basis, Weibo text is expressed as the feature vector of burst theme words. The condensed hierarchical clustering algorithm is used to realize the detection of unexpected events. [results] the experimental results are analyzed with examples, and the accuracy of emergency detection reaches 80%. To verify the feasibility and effectiveness of the method. [limitations] due to the limitation of the data and the scope of the research, the automatic description of the detected emergencies has not been realized, and the feelings of the netizens have not been realized. There are some deficiencies in the analysis and consideration of the semantic relationship between events. [conclusion] this study breaks through the limitations of the previous researches on the quality of Chinese text, text form, and the results of sudden feature extraction, and improves the efficiency of Weibo emergency detection.
【作者单位】: 南京理工大学经济管理学院;
【基金】:国家社会科学基金项目“基于社会网络分析的网络舆情主题发现研究”(项目编号:15BTQ063);国家社会科学基金重点项目“大数据环境下社会舆情与决策支持方法体系研究”(项目编号:14AZD084)的研究成果之一 中央高校基本科研业务费专项资金资助项目“大数据时代基于深度融合的创新型知识服务体系及其运行机制研究”(项目编号:30916011330)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 潘大庆;;基于层次聚类的微博敏感话题检测算法研究[J];广西民族大学学报(自然科学版);2012年04期
2 郑晓鸣;吕士颖;王晓东;;一种基于随机抽取的有限深度层次聚类[J];郑州大学学报(理学版);2007年03期
3 汤周文;叶东毅;;基于层次聚类的差异化属性约简算法[J];计算机应用;2009年02期
4 文顺;赵杰煜;朱绍军;;基于贝叶斯和谐度的层次聚类[J];模式识别与人工智能;2013年12期
5 龚尚福;陈婉璐;贾澎涛;;层次聚类社区发现算法的研究[J];计算机应用研究;2013年11期
6 香红丽;王潇涵;罗淑云;;基于层次聚类方法研究课程关系结构[J];中国科教创新导刊;2011年26期
7 李晓飞;;基于动态层次聚类的离散化算法的研究[J];计算机应用与软件;2009年10期
8 张阔,徐鹏,李涓子,王克宏;基于优化层次聚类的文档逻辑结构抽取[J];清华大学学报(自然科学版);2005年04期
9 王旅;彭宏;胡劲松;梁华芳;;层次聚类在种群亲缘关系研究中的应用[J];计算机时代;2006年07期
10 黄健斌;康剑梅;齐俊杰;孙鹤立;;一种基于同步动力学模型的层次聚类方法[J];中国科学:信息科学;2013年05期
相关会议论文 前6条
1 吾守尔·斯拉木;吴启南;;基于层次聚类方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 杨建武;;Web检索结果的层次聚类研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 刘启亮;邓敏;李光强;王佳t,
本文编号:1555811
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1555811.html