基于LDA模型的微博情感分析技术研究

发布时间:2017-07-18 22:06

  本文关键词:基于LDA模型的微博情感分析技术研究


  更多相关文章: 微博情感分析 LDA模型 机器学习 情感词典 半监督训练


【摘要】:随着互联网进入千家万户,网络早已成为大众获取信息、发布信息、传递信息的重要途径。与此同时,网络中出现了越来越多的主观性文字,如论坛帖子、博客、贴吧、微博等。人们可以很自由的通过这些主观性文字抒发自己的情感、思想,表达自己的意见。微博作为全球受到广泛欢迎的网络应用之一,越来越多的人习惯在以微博为代表的社交网络上获取信息、交流信息与表达情感。庞大的微博用户量以及用户所产生的微博数据背后隐藏着巨大的商业价值和社会价值。微博相关的研究课题越来越受到人们的关注,微博情感分析就是其中之一。微博情感分析是指通过分析和挖掘微博中的主观性信息并判断其情感倾向。微博情感分析技术应用场景非常广泛,能够应用于舆情监测、产品推荐、信息预测等多种系统。微博短文本的情感分析技术是近年来学术界的研究热点,相关技术评测也得到了各大高校的广泛参与,由于微博短文本存在口语化、简洁化等社交网络特征,对微博情感分析的研究具有相当的挑战性。深入分析研究微博情感分析技术,提升微博情感分析的性能具有十分重要的现实意义。微博的情感分析问题可以看作是分类问题,重点在于判别微博的正、负情感倾向性。所用的方法主要可以归结于基于规则的分类方法和统计机器学习的分类方法。微博情感分析现已取得不少进展,但从情感分类效果和性能看,依旧存在着准确率不够高、依赖性较强等缺点,因此本文研究希望找到一种能提高准确率,同时普适性较好的微博情感分析方法。首先,本文对文本情感倾向性分析的概念和基本的方法进行了总结分析,针对当前微博标注语料不足的现状,提出了半监督训练的方法,该方法能充分利用未标的注微博语料。其次,现有的情感分析方法主要是对微博的局部信息进行利用,通过特征工程的方法来提高分类的效果,本文采用LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型的方法可以对微博潜在的主题信息进行很好的利用。最后,将半监督训练的方法与LDA主题模型的方法进行了融合,以半监督训练为框架,使用LDA主题模型聚类后再使用SVM(Support Vector Machine,支持向量机)的方法对微博进行情感分析。实验结果表明,本文提出的方法能够很好的利用未标注微博语料和微博的主题信息,与传统的方法相比,正确率,召回率以及F1值都得到了一定的提高。
【关键词】:微博情感分析 LDA模型 机器学习 情感词典 半监督训练
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要8-9
  • Abstract9-11
  • 1 绪论11-15
  • 1.1 研究背景11-12
  • 1.2 微博情感分析的社会领域应用12
  • 1.2.1 舆情监测12
  • 1.2.2 事件预测12
  • 1.3 微博情感分析的商业领域应用12-13
  • 1.4 本文研究内容及创新点13
  • 1.5 论文组织结构13-15
  • 2 相关技术理论与评测15-26
  • 2.1 情感分析问题描述15
  • 2.2 情感分析研究层次15-17
  • 2.2.1 词级情感分析15-16
  • 2.2.2 句级情感分析16-17
  • 2.2.3 篇章级情感分析17
  • 2.3 情感分析与文本分类17-22
  • 2.3.1 文本表示17-18
  • 2.3.2 特征选择18-20
  • 2.3.3 特征权重20
  • 2.3.4 基于规则的方法20-21
  • 2.3.5 基于统计机器学习的方法21-22
  • 2.4 相关评测22-26
  • 3 基于LDA模型的微博情感分类26-34
  • 3.1 引言26-27
  • 3.2 微博预处理27-28
  • 3.3 特征选择28-29
  • 3.4 半监督训练29-31
  • 3.5 主题模型在情感分析中的优势31-32
  • 3.6 基于LDA的情感分析方法32-34
  • 4 实验与分析34-38
  • 4.1 实验语料34
  • 4.2 评价标准34-35
  • 4.3 实验过程35-36
  • 4.3.1 一般的情感分类方法35-36
  • 4.3.2 本文方法36
  • 4.4 实验结果及分析36-38
  • 5 基于LDA的微博情感分类技术在舆情系统中的应用38-47
  • 5.1 网页数据抓取模块38-39
  • 5.2 页面内容提取模块39-40
  • 5.3 数据存储模块40-42
  • 5.4 系统运行效果展示42-47
  • 6 结论与展望47-48
  • 6.1 全文总结47
  • 6.2 进一步展望47-48
  • 参考文献48-50
  • 致谢50

【相似文献】

中国期刊全文数据库 前10条

1 袁伯秋;周一民;李林;;LDA模型参数有偏估计方法[J];小型微型计算机系统;2010年04期

2 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期

3 王嘉琦;徐朝军;李艺;;基于LDA模型的社交网站自动量化评价研究[J];现代图书情报技术;2013年03期

4 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期

5 楚克明;李芳;;基于LDA模型的新闻话题的演化[J];计算机应用与软件;2011年04期

6 石大文;张晖;;基于LDA模型的BBS话题演化[J];工业控制计算机;2012年05期

7 孙世杰;濮建忠;;基于LDA模型的Twitter中文微博热点主题词组发现[J];洛阳师范学院学报;2012年11期

8 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期

9 李保利;杨星;;基于LDA模型和话题过滤的研究主题演化分析[J];小型微型计算机系统;2012年12期

10 ;[J];;年期

中国重要会议论文全文数据库 前1条

1 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年

中国硕士学位论文全文数据库 前5条

1 张超;一种词性标注LDA模型的文本分类方法研究[D];华中师范大学;2015年

2 毛龙龙;基于LDA模型的微博情感分析技术研究[D];西北师范大学;2015年

3 张田田;基于LDA模型的实体解析技术的研究与实现[D];北京邮电大学;2013年

4 彭利斌;微博热点话题发现与话题演化的研究[D];桂林电子科技大学;2014年

5 荀静;基于LDA模型的文档情感摘要研究[D];山东师范大学;2015年



本文编号:559968

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/559968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9a86***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com