基于深度学习的中文短文本情感分析
发布时间:2021-12-02 10:23
随着互联网不断发展,网络评论平台不断增加,用户评论数量也爆发式增长。利用情感分析技术能够有效的挖掘文本包含的情感信息,目前已成为社会舆情监督和厂家获取反馈信息的重要途径,具有很高的研究价值。本文的研究目的是探究中文短文本中所包含的情感信息,主要解决文本情感极性褒贬义分类问题。传统的情感分析方法主要有两种:基于情感词典的方法和基于机器学习的方法。但由于文本语料简短,含有大量未登录词使得上述方法存在数据稀疏问题,且过分依赖领域专家的标注。近年来出现的深度学习技术能够很好的解决上述问题。因此,本文采用深度学习的方法对中文短文本进行情感分析。主要研究内容如下:首先,在文本数据预处理过程,针对目前网络上存在的大量未登录词,设计了一种新词发现方法,主要是利用词语的内部凝固度、边界自由度及语言规则对候选新词进行过滤。将识别的新词加入词库,提高分词的准确率。其次,传统的词向量仅考虑了文本中的语义语法信息,会将语义相近,情感极性却相反的词语映射到相邻的位置,导致最终分类结果错误。为了解决此问题,本文在传统词向量的基础上融合了情感信息,提出一种情感词向量的生成方法。最后,针对循环神经网络在处理时序信息发生...
【文章来源】:沈阳工业大学辽宁省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
向量空间模型
图 2.2 向量空间模型Fig. 2.2 Vector space model中, (,,...,)1 2nT ttt为文本的特征, {,,...,}1 2mD ddd为包含 m 个文档的文档i 为 第 i 个 文 档 的 特 征 空 间 向 量1 2{ , ,..., } ( 1, 2,..., )i i inV w w w ,i m,2,. . .m ,;j1,2,. . .n ,) 为文档id 中的第 j 个词条jt 的权值。这种模型可以满足求,但由于 VSM 只考虑词本身信息,几乎完全忽视了词语间的相关联系析结果的准确率产生一定的影响。概率主题模型篇文档可以由许多主题构成,每种主题都会按一定的概率呈现,在文档概率公式可由矩阵表示,如图 2.3 所示。集..dm. . .. . .. . .wm1wm2... wmn文 档文 档
人工神经网络结构
【参考文献】:
期刊论文
[1]基于双重注意力模型的微博情感分析方法[J]. 张仰森,郑佳,黄改娟,蒋玉茹. 清华大学学报(自然科学版). 2018(02)
[2]基于SVM和CRF多特征组合的微博情感分析[J]. 李婷婷,姬东鸿. 计算机应用研究. 2015(04)
[3]基于SVM的文本词句情感分析[J]. 杨经,林世平. 计算机应用与软件. 2011(09)
[4]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[5]Internet中的新词识别[J]. 李钝,曹元大,万月亮. 北京邮电大学学报. 2008(01)
[6]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
博士论文
[1]适应于不同领域的中文分词方法研究与实现[D]. 修驰.北京工业大学 2013
[2]基于遗传算法优化的中文分词研究[D]. 何嘉.电子科技大学 2012
硕士论文
[1]基于文本流的中文新词识别技术研究与应用[D]. 方婷.北京邮电大学 2015
[2]中文分词算法的研究与实现[D]. 朱世猛.电子科技大学 2011
本文编号:3528250
【文章来源】:沈阳工业大学辽宁省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
向量空间模型
图 2.2 向量空间模型Fig. 2.2 Vector space model中, (,,...,)1 2nT ttt为文本的特征, {,,...,}1 2mD ddd为包含 m 个文档的文档i 为 第 i 个 文 档 的 特 征 空 间 向 量1 2{ , ,..., } ( 1, 2,..., )i i inV w w w ,i m,2,. . .m ,;j1,2,. . .n ,) 为文档id 中的第 j 个词条jt 的权值。这种模型可以满足求,但由于 VSM 只考虑词本身信息,几乎完全忽视了词语间的相关联系析结果的准确率产生一定的影响。概率主题模型篇文档可以由许多主题构成,每种主题都会按一定的概率呈现,在文档概率公式可由矩阵表示,如图 2.3 所示。集..dm. . .. . .. . .wm1wm2... wmn文 档文 档
人工神经网络结构
【参考文献】:
期刊论文
[1]基于双重注意力模型的微博情感分析方法[J]. 张仰森,郑佳,黄改娟,蒋玉茹. 清华大学学报(自然科学版). 2018(02)
[2]基于SVM和CRF多特征组合的微博情感分析[J]. 李婷婷,姬东鸿. 计算机应用研究. 2015(04)
[3]基于SVM的文本词句情感分析[J]. 杨经,林世平. 计算机应用与软件. 2011(09)
[4]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[5]Internet中的新词识别[J]. 李钝,曹元大,万月亮. 北京邮电大学学报. 2008(01)
[6]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
博士论文
[1]适应于不同领域的中文分词方法研究与实现[D]. 修驰.北京工业大学 2013
[2]基于遗传算法优化的中文分词研究[D]. 何嘉.电子科技大学 2012
硕士论文
[1]基于文本流的中文新词识别技术研究与应用[D]. 方婷.北京邮电大学 2015
[2]中文分词算法的研究与实现[D]. 朱世猛.电子科技大学 2011
本文编号:3528250
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3528250.html