基于回归模型与谱聚类的微博突发话题检测方法
本文关键词:基于回归模型与谱聚类的微博突发话题检测方法 出处:《计算机工程》2015年12期 论文类型:期刊论文
更多相关文章: 微博 突发话题检测 词频分析 回归模型 谱聚类 大数据
【摘要】:微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题。为此,提出一种在回归预测和谱聚类基础上的突发话题检测方法。该方法针对关键词词频变动趋势,基于回归模型,量化微博关键词的突发程度,从词频趋势分析的角度准确地提取出突发词集合。设计一个基于谱聚类思想的突发词聚类方法提高聚类结果的准确性。在大规模微博数据集的实验结果证明,与baseline方法相比,该方法的准确率、召回率、F值都有较大提高,在微博信息分析领域有着较好的应用前景。
[Abstract]:Weibo social network short text has the characteristics of large data scale, rapid transmission, diverse modes, low quality and other characteristics, resulting in the existing traditional topic detection and tracking technology in its data processing faces a high complexity. Based on regression prediction and spectral clustering, a method of burst topic detection is proposed. The method is based on regression model for word frequency change trend of keywords. Quantifying the burst degree of Weibo's keywords. From the angle of word frequency trend analysis, the burst word set is extracted accurately. A burst word clustering method based on spectral clustering is designed to improve the accuracy of the clustering results. Compared with the baseline method, the accuracy of the method and the recall rate of F value are greatly improved, and it has a better application prospect in the field of Weibo information analysis.
【作者单位】: 武汉大学计算机学院;武汉大学深圳研究院;
【基金】:国家自然科学基金资助项目“社会网络的主题演化分析与传播趋势预测研究”(61472291) 深圳市知识创新计划基础研究基金资助项目“基于压缩感知的社交网络主题提取与演化分析”
【分类号】:TP393.092;TP391.1
【正文快照】: 中文引用格式:彭敏,张泰玮,黄佳佳,等.基于回归模型与谱聚类的微博突发话题检测方法[J].计算机工程,2015,41(12):176-181.英文引用格式:Peng Min,Zhang Taiwei,Huang Jiajia,et al.Microblog Sudden Topic Detection Method Based onRegression Models and Spectral Clusterin
【相似文献】
相关期刊论文 前10条
1 王娜;杜海峰;庄健;余进涛;王孙安;;三种典型的基于图分割的谱聚类方法比较[J];系统仿真学报;2009年11期
2 王会青;陈俊杰;;基于图划分的谱聚类方法的研究[J];计算机工程与设计;2011年01期
3 王春腾;符传谊;邢洁清;;基于非负约束的谱聚类方法[J];电脑知识与技术;2011年17期
4 何飞;王晓晨;马粹;梁治国;;生产状态的测地距离谱聚类分析[J];计算机工程与应用;2012年24期
5 薛宁静;;生产状态的熵值评估谱聚类分析[J];计算机工程与应用;2012年19期
6 管涛;王杰;;谱聚类的算子理论研究进展[J];计算机科学;2013年S1期
7 周文刚;陈雷霆;董仕;;基于谱聚类的网络流量分类识别算法[J];电子测量与仪器学报;2013年12期
8 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
9 林立;胡侠;朱俊彦;;基于谱聚类的多文档摘要新方法[J];计算机工程;2010年22期
10 刘馨月;李静伟;于红;尤全增;林鸿飞;;基于共享近邻的自适应谱聚类[J];小型微型计算机系统;2011年09期
相关博士学位论文 前1条
1 孔敏;关联图的谱分析及谱聚类方法研究[D];安徽大学;2006年
相关硕士学位论文 前10条
1 何心琪;基于谱聚类的水声图像分割技术研究[D];哈尔滨工程大学;2013年
2 赵冬琴;基于谱聚类的MCI影像学分类特征研究与应用[D];太原理工大学;2014年
3 张俊英;基于谱聚类的图书目录重构[D];浙江大学;2010年
4 张天强;基于谱聚类的亲友通话圈挖掘[D];华南理工大学;2013年
5 郑伟;基于核与特征选择的谱聚类社区检测算法[D];西安电子科技大学;2013年
6 朱正伟;谱聚类研究及其在入侵检测中的应用[D];重庆大学;2010年
7 由里;基于谱聚类的图像分割方法研究[D];国防科学技术大学;2011年
8 张洪;结合概率潜在语义分析的文本谱聚类研究[D];重庆大学;2012年
9 陈志豪;基于阻尼距离的谱聚类集成算法研究与实现[D];华南理工大学;2013年
10 邓小燕;谱聚类在基因表达数据分析中的应用与研究[D];重庆大学;2010年
,本文编号:1437214
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1437214.html