基于集成的扩展主题模型的情感分析研究

发布时间:2021-03-29 10:57
  随着互联网技术的高速发展,和各类应用软件在人们日常生活中的渗透,越来越多的用户习惯在互联网上发表对新闻、事件或产品的观点意见。对这些主观性非结构化文本进行情感分析,提取和分析文本中的情感倾向,对舆情监控、电子商务和信息预测等领域都有着重要作用。因此,对文本进行情感分析在理论和实践中都有重要的意义。本文主要进行了以下两个部分的工作:第一,使用TF-IDF加权的n-gram语言模型特征对LDA主题模型进行扩展。在基于词袋模型的LDA主题模型中,对文本中词序、上下文等语义信息有所忽略。使用TF-IDF加权的n-gram语言模型特征对主题模型进行扩展,在主题模型中增加部分语义信息,从而提高情感分析的效果。第二,在对LDA主题模型进行扩展的基础上,基于扩展模型的文本-主题概率分布划分子样本集,进行集成学习。考虑集成学习在提高模型效果和稳定性中的优势,结合扩展主题模型中各文本具有不同主题的特性,基于主题进行子训练集的采样,为集成学习中的各基分类器提供差异性。采用简单投票法进行决策融合,得到最终的情感分析结果。通过理论推导和实验结果分析表明,使用本文提出的基于集成的扩展主题模型方法进行情感分析,能够... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:80 页

【学位级别】:硕士

【部分图文】:

基于集成的扩展主题模型的情感分析研究


图3-2?pLSI主题模型示意图??

示意图,主题,模型,示意图


添加了服从Dirichlet先验分布的假设?],LDA主题模型成为了一个完整的概率生成??模型。??下图3-3展示了?LDA图模型的示意图。其中,K表示主题数目,M表示文档数??目,A表示第m篇文档中的单词数,or和是Dirichlet分布的参数,表示第??m篇文档中的第n个单词,z?,?表示第m篇文档中的第n个单词的主题,%表示主??题k中词语的概率分布,九表示第m篇文档主题的概率分布,同时%和九也都作??为多项式分布的参数,分别用于生成单词和主题。??〇??????????n#欤耍危恚??kg|?-K|???mg|l,Ml??图3-3?LDA主题模型示意图??%和6>?,服从Dirichlet分布,分布函数如式(3.5)所示??Dir{fi\a)?=?——?Ilf(3.5)??20??

集成学习,模型基,思想,分类器


训练较为困难。我们可以通过使用集成学习的方法,在数据集量级较小的情况下,??提高训练结果的准确性和稳定性??集成学习系统模型的基本思想过程如图4-1所示,即将基分类器以某种方式进??行组合后做出最终的决策结果,集成学习主要包括训练样本子集、基分类器模型和??组合输出策略三部分。图4-1中?<?表示选择的训练子数据集,是根据原始训练样本??以某种方式进行划分得到的子集,将每个训练样本子集式作为输入来训练相应的基??分类器,每个基分类器的输出用某种形式组合,各基分类器结果的权重用w,表示,??最常用的组合输出方式是非加权投票法或加权投票法。??37??

【参考文献】:
期刊论文
[1]情感分类研究进展[J]. 陈龙,管子玉,何金红,彭进业.  计算机研究与发展. 2017(06)
[2]利用LDA的领域新兴主题探测技术综述[J]. 范云满,马建霞.  现代图书情报技术. 2012(12)
[3]词干提取方法及工具的对比分析研究[J]. 吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.  图书情报工作. 2012(15)
[4]国内中文自动分词技术研究综述[J]. 奉国和,郑伟.  图书情报工作. 2011(02)
[5]多分类器选择集成方法[J]. 郭红玲,程显毅.  计算机工程与应用. 2009(13)

硕士论文
[1]面向网络论坛的动态主题建模与文本摘要[D]. 任昭春.山东大学 2012



本文编号:3107432

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3107432.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64ca2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com