基于情感分类的微博主题挖掘算法的研究及应用
本文关键词:基于情感分类的微博主题挖掘算法的研究及应用
更多相关文章: 微博 评论信息 主题挖掘 情感分析 SC-LDA SVM LDA
【摘要】:当今,微博在创新科技影响下得到迅猛发展,使得越来越多的人们在其平台上发表对自己关注的各种信息的评论,该平台已经成为人们日常生活的一部分。在微博平台上时时刻刻都会产生大量由用户发表的言论信息,包括新闻人物、突发事件、购物体验等等。这些信息中不仅带有用户的情感倾向,而且所含有的主题信息包含着重要的社会价值和商业价值。因此,分析微博上的评论信息的情感倾向,挖掘出主题信息,找出人们所关心和需要的信息就显得尤为重要,也成为了当前许多学者的研究热点。本论文的研究重点是如何从微博评论信息中挖掘出潜在的、具有价值的、蕴含情感的主题信息。论文的主要工作和创新点如下:(1)考虑到评论信息中正向情感的表达和负向情感的表达对主题结果的意义完全不同,本文提出了一种将文本分类和主题挖掘相结合的微博主题挖掘算法SC-LDA(Sentiment Classification-Latent Dirichlet Allocation,SC-LDA)。SC-LDA算法的基本思想是:对微博上的评论信息进行分词处理后的数据首先利用支持向量机(Support Vector Machine,SVM)进行情感分类,得到正向情感和负向情感两类数据,然后再利用LDA(Latent Dirichlet Allocation,LDA)模型对已分类的评论信息进行相关主题挖掘。(2)对本文提出的主题挖掘算法(SC-LDA)进行了仿真实验,仿真结果表明SC-LDA对测试数据集的大小不敏感,对数据源的来源不敏感。同时对获取的未经过分类处理的微博数据也进行了主题挖掘的实验,实验结果表明挖掘得到的主题信息不能够有效的表明用户的情感倾向,可能会影响第三方的推断。从而从相反方向验证了本文所提出算法的有效性。(3)同时为了能够获得更好的用户体验,针对SC-LDA算法,本文设计并实现了一个基于情感分类的微博主题挖掘系统。系统实现了微博数据的抓取、数据的预处理、特征提取、情感分类、主题挖掘、挖掘结果的呈现等功能。
【关键词】:微博 评论信息 主题挖掘 情感分析 SC-LDA SVM LDA
【学位授予单位】:重庆师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
- 中文摘要5-6
- 英文摘要6-10
- 1 绪论10-17
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-14
- 1.3 主要研究内容14-15
- 1.4 本论文结构15-17
- 2 情感分类与微博主题挖掘的相关技术17-23
- 2.1 研究意义17
- 2.2 微博的特点和功能17-18
- 2.3 预处理技术18-19
- 2.3.1 中文分词技术18
- 2.3.2 词典匹配分词技术18-19
- 2.3.3 分词工具19
- 2.4 情感特征的抽取方法19
- 2.4.1 情感词典的特征抽取19
- 2.4.2 表情符号的抽取19
- 2.5 情感分析相关技术19-21
- 2.5.1 微博单词极性分析20
- 2.5.2 微博全文情感极性的分析20-21
- 2.6 主题挖掘21-22
- 2.7 本章总结22-23
- 3 中文微博情感分析23-30
- 3.1 研究意义23-24
- 3.2 情感分类24-25
- 3.3 具体实现25-28
- 3.3.1 预处理模块26
- 3.3.2 情感特征抽取模块26-27
- 3.3.3 构造特征向量27-28
- 3.4 实验结果与分析28-29
- 3.5 本章总结29-30
- 4 基于情感分类的微博主题挖掘30-40
- 4.1 LDA模型30-32
- 4.1.1 LDA的模型表示和生成30-31
- 4.1.2 符号和定义31-32
- 4.2 Gibbs抽样32-33
- 4.3 基于情感分类的微博主题挖掘模型SC-LDA33-34
- 4.4 仿真实验及结果分析34-39
- 4.4.1 SC-LDA模型对测试集的大小不敏感35-37
- 4.4.2 SC-LDA模型对数据源的来源不敏感37-38
- 4.4.3 验证SC-LDA方法的有效性38-39
- 4.5 本章总结39-40
- 5 SC-LDA算法系统实现40-47
- 5.1 系统功能模块构成40
- 5.2 系统的框架结构40-41
- 5.3 系统具体实现41-46
- 5.3.1 系统开发平台42-43
- 5.3.2 预处理模块43-44
- 5.3.3 情感分类模块44-45
- 5.3.4 主题挖掘模块45-46
- 5.4 本章总结46-47
- 6 结论与展望47-50
- 6.1 论文工作总结47-48
- 6.2 论文展望48-50
- 参考文献50-53
- 附录A53-54
- 致谢54-55
【相似文献】
中国期刊全文数据库 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
中国重要会议论文全文数据库 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
,本文编号:875323
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/875323.html