基于主题提取的海量微博情感分析
本文关键词: 海量微博 聚类 主题提取 情感分类 出处:《南京大学学报(自然科学)》2017年03期 论文类型:期刊论文
【摘要】:从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语义相关阈值,筛选重要频繁项集进行谱聚类,得到主题关键词.基于主题关键词对海量微博数据依据语义相关度归类,最后结合情感词典对每类中的微博检索主题关键词前后修饰距离内情感词及否定词,结合表情符号计算微博情感值.在百万规模中文微博上进行实验,证明该方法能准确按主题归类且能有效在该主题上进行情感分类.
[Abstract]:It is of great significance to analyze the emotional tendency of the public on a certain social event from the massive Weibo data. As a result, traditional methods face many challenges when dealing with this task. This paper proposes a massive Weibo affective analysis method based on topic clustering. Firstly, based on the frequent itemset mining of high-quality Weibo data, the semantic correlation threshold is set. The important frequent itemsets are selected for spectral clustering, and the topic keywords are obtained. Based on the topic keywords, the massive Weibo data are classified according to the semantic relevance. Finally, the emotion words and negative words in the distance before and after the subject keywords are retrieved by Weibo in each category are combined with the emotion dictionary, and then the emotional value of Weibo is calculated by using emoji. The experiment is carried out on the million-scale Chinese Weibo. It is proved that this method can accurately classify the subject and can effectively classify the emotion on the topic.
【作者单位】: 山东管理学院信息工程学院;南京大学计算机科学与技术系;
【基金】:国家自然科学基金青年项目(71301086) 山东省电子政务项目(2150511) 山东省科技厅星火计划(2013XH17003) 教育厅科技计划(J14LN62)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期
2 蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期
3 胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期
4 胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期
5 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期
6 李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期
7 陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期
8 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
9 宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期
10 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
相关会议论文 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关博士学位论文 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
相关硕士学位论文 前10条
1 王立俊;基于多重最小支持度的氋效用频繁项集挖掘算法研究[D];广西大学;2015年
2 陈国俊;基于Hadoop的云存储系统的研究与应用[D];电子科技大学;2014年
3 尹艳红;基于Apriori算法的增量式关联规则控制研究[D];大连理工大学;2015年
4 田苗凤;大数据背景下并行动态关联规则挖掘研究[D];兰州交通大学;2015年
5 李雪迪;基于本体论的精细化数据分析[D];南京邮电大学;2015年
6 廖友金;基于有向图的关联规则挖掘研究与改进[D];东南大学;2015年
7 王苏琦;基于Hadoop的不确定频繁项集并行挖掘方法研究[D];南京大学;2013年
8 韩宏莹;并行数据挖掘技术在电信网管告警中的应用研究[D];长春工业大学;2016年
9 张敏;频繁项集挖掘算法在高职院校教师评价系统中的应用研究[D];长春工业大学;2016年
10 林晨;频繁项集挖掘算法及其基于Spark的并行化研究[D];华东师范大学;2016年
,本文编号:1529295
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1529295.html