基于情感分析和特征过滤的主题提取方法研究

发布时间：2020-04-24 19:05

【摘要】：近年来,互联网已经渗入到我们的日常生活中,互联网服务APP已然成为新时代的生活网络工具之一.人们进行选购商品时,经常翻看商品的评论来对这个商品作出购买判断,并且这些文本评论是消费者的直观感受,同时这些评论也提供了一个为平台了解客户的途径,快速挖掘文本评论的信息并且转化为生产力是亟待解决的问题.本文基于服务APP文本短评数据,探索适合短文本的主题挖掘方法.本文简单介绍了中文文本的预处理技术、文本特征的提取技术和不平衡数据处理技术,主要任务是探索快速且准确的文本情感分析的方法和精确提取主题的模型.并将情感分析和特征筛选融入到主题模型中,提出一种基于LDA模型的主题提取方法.本文的主要研究内容和工作如下:探索和选择适合短评数据的不平衡数据处理技术,用重抽样和欠采样技术进行处理并对比结果.从基于机器学习模型的情感分析和基于深度学习的情感分析两个角度展开,探索针对不平衡数据表现优异的情感分析模型.机器学习模型选用支持向量机和梯度提升决策树做实验,并用网格搜索和交叉验证调参.深度学习选用的是浅层网络fastText.用加权F1评估三个模型,实验证明,在处理不平衡数据方面fastText模型优于其他两个模型,并且指明了原因.在主题提取任务中,提出一种基于LDA模型针对短文本和不平衡数据的方法,先进行情感分析,将情感极性的标签加入主题提取模型中,再进行特征筛选,剔除公共属性特征,按类别进行短文本主题提取,效果较原模型显著,该方法具有实际应用价值.
【图文】：

结构图,结构图,序列信息,句子

图 2-1 CBOW 和 Skip-gram 结构图[31]由于 word2vec 采用的是词向量求平均和的方法,会抵消掉词和词之间序列的,这样句意可能会发生偏颇.因此,继开源 word2vec 后的第二年,Milolov 又研发含有词和词之间序列信息的模型—doc2vec[32].doc2vec 也有两种方法,一种类似BOW,名字叫做 PV-DM,与 CBOW 不同的是在输入层多了一个句子或者段落的

结构图,结构图,目标概率,随机采样

PV-DM结构图
【学位授予单位】：华中科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：F713.36;F274;TP391.1

【参考文献】