面向短文本的情感分类算法研究
发布时间:2021-08-20 15:37
伴随着信息技术的突飞猛进以及移动互联网的快速普及,广大群众更乐于在互联网上发表自己的评论、分享自己的生活,这创造了互联网上海量、包含丰富情感信息的短文本语料库。对短文本进行情感分类早已经不仅是学术范围内的任务,生活中购物网站通过对消费评价信息进行分析,帮助消费者消除消费者和商家之间的信息不对称,使得消费者购买到满意的商品和享受到优质的服务。政府通过舆情分析系统,利用短文本分析技术引导舆论走向,保护民众利益、维持国家安全与稳定,成为新时代为人民服务的重要手段和途径。因此,面向短文本的情感分类研究有着重要的理论价值和现实意义。本文以“面向短文本的情感分类算法研究”为题展开研究,对当前国内外研究现状和主流算法进行了深入的介绍和分析。针对短文本缺乏丰富的上下文语义信息这一研究难点,从文本表示和分类模型两个方面,进行了以下研究:(1)分布式向量化模型Paragraph Vector是一种隐性语义模型,该模型训练出的向量的每一个维度的含义人们无法解释,且该模型的训练只运用了局部窗口的信息,无法对窗口之外甚至整个语料库的信息加以利用。针对以上问题,本文提出了一种面向短文本的词对主题句向量模型BTPV...
【文章来源】:山西大学山西省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
BTM概率图模型
的主题分布可按公式(2.6)求得:,()()()()()()()()(|)(|) bddbzijijbnbnbPzPwzPwzPzPwzPwzP( z|d)PzbPbd表示词对被分配到主题z 的次数,wzn|表示词w被分配主题z 的次本集中的不同单词的单词数, n (b)d是文档 d 中词对 b 出现的次程可以在文献[30]中找到。 BTM 的启发下,有关学者又提出了专门针对短文本情感的弱监督 SSTM,该模型本质上是概率混合模型,该模型模拟整个词对生习出文本中有关情感和主题的信息[34]。较之于 BTM,该模型的优测情感于主题,改进了 BTM 只考虑主题信息的缺陷。图 2.2 为 S型。
第二章 短文本情感分类算法综述机初始化的矩阵 D 相乘,随之被映射为固定维度向量,即矩阵 D 中的列向量个上下文词也采用同样的随机初始化相乘的办法被表示为矩阵 W 中的一个量,然后可将得出的 paragraph vector 和 word vector 进行直接相加操作尾拼接操作,来预测上下文的中心词。
【参考文献】:
期刊论文
[1]网络评论方面级观点挖掘方法研究综述[J]. 韩忠明,李梦琪,刘雯,张梦玫,段大高,于重重. 软件学报. 2018(02)
[2]基于半监督CRF的跨领域中文分词[J]. 邓丽萍,罗智勇. 中文信息学报. 2017(04)
[3]基于情感词向量的微博情感分类[J]. 杜慧,徐学可,伍大勇,刘悦,余智华,程学旗. 中文信息学报. 2017(03)
[4]大规模情感词典的构建及其在情感分类中的应用[J]. 赵妍妍,秦兵,石秋慧,刘挺. 中文信息学报. 2017(02)
[5]用于微博情感分析的一种情感语义增强的深度学习模型[J]. 何炎祥,孙松涛,牛菲菲,李飞. 计算机学报. 2017(04)
[6]面向短文本情感分类的特征拓扑聚合模型[J]. 胡杨,冯旭鹏,黄青松,付晓东,刘骊,刘利军. 中文信息学报. 2016(05)
[7]面向产品评论分析的短文本情感主题模型[J]. 熊蜀峰,姬东鸿. 自动化学报. 2016(08)
[8]情感词典自动构建方法综述[J]. 王科,夏睿. 自动化学报. 2016(04)
[9]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
[10]结合卷积神经网络和词语情感序列特征的中文情感分析[J]. 陈钊,徐睿峰,桂林,陆勤. 中文信息学报. 2015(06)
本文编号:3353763
【文章来源】:山西大学山西省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
BTM概率图模型
的主题分布可按公式(2.6)求得:,()()()()()()()()(|)(|) bddbzijijbnbnbPzPwzPwzPzPwzPwzP( z|d)PzbPbd表示词对被分配到主题z 的次数,wzn|表示词w被分配主题z 的次本集中的不同单词的单词数, n (b)d是文档 d 中词对 b 出现的次程可以在文献[30]中找到。 BTM 的启发下,有关学者又提出了专门针对短文本情感的弱监督 SSTM,该模型本质上是概率混合模型,该模型模拟整个词对生习出文本中有关情感和主题的信息[34]。较之于 BTM,该模型的优测情感于主题,改进了 BTM 只考虑主题信息的缺陷。图 2.2 为 S型。
第二章 短文本情感分类算法综述机初始化的矩阵 D 相乘,随之被映射为固定维度向量,即矩阵 D 中的列向量个上下文词也采用同样的随机初始化相乘的办法被表示为矩阵 W 中的一个量,然后可将得出的 paragraph vector 和 word vector 进行直接相加操作尾拼接操作,来预测上下文的中心词。
【参考文献】:
期刊论文
[1]网络评论方面级观点挖掘方法研究综述[J]. 韩忠明,李梦琪,刘雯,张梦玫,段大高,于重重. 软件学报. 2018(02)
[2]基于半监督CRF的跨领域中文分词[J]. 邓丽萍,罗智勇. 中文信息学报. 2017(04)
[3]基于情感词向量的微博情感分类[J]. 杜慧,徐学可,伍大勇,刘悦,余智华,程学旗. 中文信息学报. 2017(03)
[4]大规模情感词典的构建及其在情感分类中的应用[J]. 赵妍妍,秦兵,石秋慧,刘挺. 中文信息学报. 2017(02)
[5]用于微博情感分析的一种情感语义增强的深度学习模型[J]. 何炎祥,孙松涛,牛菲菲,李飞. 计算机学报. 2017(04)
[6]面向短文本情感分类的特征拓扑聚合模型[J]. 胡杨,冯旭鹏,黄青松,付晓东,刘骊,刘利军. 中文信息学报. 2016(05)
[7]面向产品评论分析的短文本情感主题模型[J]. 熊蜀峰,姬东鸿. 自动化学报. 2016(08)
[8]情感词典自动构建方法综述[J]. 王科,夏睿. 自动化学报. 2016(04)
[9]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
[10]结合卷积神经网络和词语情感序列特征的中文情感分析[J]. 陈钊,徐睿峰,桂林,陆勤. 中文信息学报. 2015(06)
本文编号:3353763
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3353763.html