基于主题模型和注意力机制的短文本方面提取研究
发布时间:2024-01-29 13:37
情感分析一直是文本分析领域的研究热点与难点之一,被广泛应用于个性化推荐、舆情监督等领域,而方面提取又是情感分析中的关键子任务,因此如何准确抽取出实体的方面信息对最终情感分析性能有着至关重要的影响。传统的方面提取主要针对报刊、杂志、论文等长文本数据,而随着微信、Twitter、淘宝等应用的流行,短文本数据呈现爆发式增长。由于短文本数据存在稀疏性大、不平衡等特点,传统方面提取模型不再适用。因此,针对短文本数据的方面提取模型研究迫在眉睫。本文主要针对短文本数据进行基于无监督学习的方面提取算法研究。本文主要工作内容如下:1)针对传统的方面提取算法处理短文本数据时的局限性,本文提出了一种基于BTM改进的方面提取算法BiDTM-AE。传统的BTM方面提取算法在生成词对时,将所有词汇同等看待,没有考虑低频词和方面无关词的影响,忽视了词对间的相关性信息,本文对此提出两点改进:一是引入词对判别模型削弱低频词和方面无关词对模型的影响;二是引入双向循环神经网络提前训练出词对的相互关系并将其作为先验知识进行建模。本文在两个标准数据集上验证了词对判别模型和双向循环神经网络的引入对模型性能的提升有着显著促进作用;...
【文章页数】:81 页
【学位级别】:硕士
本文编号:3888288
【文章页数】:81 页
【学位级别】:硕士
图3一3:微博新闻
图3一4:B卜RNN模型图
图3‘乐数据集班主题聚合度
图3一6:数据集刀2主题聚合度
本文编号:3888288
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3888288.html