基于频繁词集聚类的微博新话题快速发现
本文关键词:基于频繁词集聚类的微博新话题快速发现
更多相关文章: 频繁词集聚类算法 微博 新话题 Hadoop MapReduce
【摘要】:新话题发现是进行舆情分析的基础和前提,新话题发现的一个关键环节是进行关键词的聚类分析.目前,大量的新话题来源于微博,但是将传统的聚类算法用于微博新话题发现时,会产生特征向量的高维性和稀疏性问题,使得聚类结果非常不准确,而且收敛时间难以控制,进而影响舆情分析的可靠性和实时性.鉴此,本文提出了频繁词集聚类FWSC(frequent words sets clustering)方法.实验结果表明,我们提出的方法能够快速有效地发现新话题.
【作者单位】: 北京信息科技大学计算机学院;北京信息科技大学网络文化与数字传播北京市重点实验室;
【关键词】: 频繁词集聚类算法 微博 新话题 Hadoop MapReduce
【基金】:国家自然科学基金(61370139) 国家社会科学基金重大项目(12&ZD234) 网络文化与数字传播北京市重点实验室项目(ICDD201309,ICDD201207)
【分类号】:TP393.092
【正文快照】: o引言新话题是指将人们先前的谈论的话题做一个时间快照与当前谈论的话题的时间快照进行对比,那些先前没有出现的话题即为新话题.新话题发现是进行舆情分析的基础和前提,因为新话题将来可能发展成为热点话题、热点事件.因此,及早地发现新话题,对舆论尽早进行疏导和控制,可以有
【参考文献】
中国期刊全文数据库 前3条
1 庞海杰;;面向文本情感分析的商品评价信息检测[J];计算机应用;2012年07期
2 龙志yN;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
3 薛峰;周亚东;高峰;刘霁;赵俊舟;党琪;;一种突发性热点话题在线发现与跟踪方法[J];西安交通大学学报;2011年12期
【共引文献】
中国期刊全文数据库 前10条
1 潘大庆;;基于层次聚类的微博敏感话题检测算法研究[J];广西民族大学学报(自然科学版);2012年04期
2 徐淑彩;;建立基于Solr平台的环境污染网络舆情监测系统[J];信息安全与技术;2013年10期
3 李忠俊;;基于话题检测与聚类的内部舆情监测系统[J];计算机科学;2012年12期
4 杨菲;黄柏雄;;词共现网络的遗传聚类在话题发现中的应用[J];计算机工程与应用;2013年14期
5 赵雪芬;;基于未知度的Vague集相似度量方法研究[J];计算机工程与应用;2013年14期
6 杨武;李阳;卢玲;;基于用户角色定位的微博热点话题检测方法[J];计算机应用;2013年11期
7 翟东海;聂洪玉;崔静静;于磊;杜佳;王佳君;;基于改进的χ~2检验的热点词突发性度量研究[J];计算机与数字工程;2013年11期
8 赵永升;;基于微格式的分布式网络舆情监测系统[J];计算机工程;2013年11期
9 张昭;艾中良;;一种基于用户关联分析的热点话题识别算法[J];计算机与现代化;2014年01期
10 翟东海;聂洪玉;崔静静;杜佳;;基于CRFs模型的敏感话题识别研究[J];计算机应用研究;2014年04期
中国硕士学位论文全文数据库 前6条
1 孙励;基于微博的热点话题发现[D];北京邮电大学;2013年
2 张志飞;微博信息流中突现话题检测技术研究[D];杭州电子科技大学;2012年
3 毛文娟;话题跟踪和可视化技术在涉农网络舆情系统中的应用研究[D];南京农业大学;2012年
4 郭成林;网络热点发现与跟踪系统的研究与设计[D];电子科技大学;2013年
5 李颖;教育领域BBS的热点话题发现研究[D];南京师范大学;2013年
6 李红;网络舆情热点话题自动化发现技术研究[D];辽宁科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 邱立坤;龙志yN;钟华;程葳;;层次化话题发现与跟踪方法及系统实现[J];广西师范大学学报(自然科学版);2007年02期
2 刘菲;黄萱菁;吴立德;;利用关联规则挖掘文本主题词的方法[J];计算机工程;2008年07期
3 程葳;龙志yN;;面向互联网新闻的在线话题检测算法[J];计算机工程;2009年18期
4 张晓艳;王挺;;话题发现与追踪技术研究[J];计算机科学与探索;2009年04期
5 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
6 曾依灵;许洪波;白硕;;网络文本主题词的提取与组织研究[J];中文信息学报;2008年03期
7 洪宇;张宇;范基礼;刘挺;李生;;基于语义域语言模型的中文话题关联检测[J];软件学报;2008年09期
8 王德兴;胡学钢;刘晓平;;一种新颖的基于量化概念格的属性归纳算法[J];西安交通大学学报;2007年02期
9 冯中慧;鲍军鹏;沈钧毅;;一种增量式文本软聚类算法[J];西安交通大学学报;2007年04期
10 周亚东;孙钦东;管晓宏;李卫;陶敬;;流量内容词语相关度的网络热点话题提取[J];西安交通大学学报;2007年10期
中国硕士学位论文全文数据库 前3条
1 薛玮;网络舆情信息挖掘系统的研究[D];北京交通大学;2008年
2 齐海凤;网络舆情热点发现与事件跟踪技术研究[D];哈尔滨工程大学;2008年
3 冯颖;网络舆情敏感话题发现平台的研究[D];北京交通大学;2009年
【相似文献】
中国博士学位论文全文数据库 前1条
1 李春英;宋元时期稼轩词接受研究[D];山东大学;2007年
中国硕士学位论文全文数据库 前2条
1 李博昊;温庭筠研究情况回顾及几个问题初探[D];东北师范大学;2007年
2 于瑞娟;宋代词集序跋研究[D];广西师范学院;2011年
,本文编号:831746
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/831746.html