基于短文本(句子级)的情感分类研究
发布时间:2021-08-06 12:41
文本情感分类,也称为意见挖掘或情感定向分析。自21世纪初以来,情感分类已发展为自然语言处理领域的研究热点。在该领域,根据处理文本的不同粒度,大致分为三个级别:篇章级,句子级,方面级。本文着重研究短文本,即句子层面的情感分类研究与分析。当今社会,随着互联网技术的不断发展,各电商平台和社交网络也得到了飞速发展,人们越来越多的喜欢在互联网上发表自己的观点,或针对某一社会热点,或针对网购产品的使用体验等。其中,微博便以其简单,便捷,信息分享的高实时性等特点,迅速成为了国内网络舆情的发源地和集中地。网络舆情与公众的生活息息相关,同时也关系着社会的稳定与发展。通过对网络舆情进行分析和研究,可以防范重大事件的发生,帮助政府准确快速地做出决策。因此,本文对微博进行情感倾向性分析,以便更好地监控网络舆情,为政府决策提供支持。本文选取了长度不超过140个字节的微博数据集,对传统的小批量梯度下降算法进行改进,提出了一种基于热重启与余弦退火的训练批量周期变化策略SGDR,该方法不是单调的或者随机的改变batchsize,而是使batchsize在合理的边界值之间循环...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
CBOW模型
图 2.4 Skip-gram 模型.3 卷积神经网络卷积神经网络,用于处理具有类似网格结构的数据[33]。CNN 依靠卷积运算,使同情况下人工神经网络需要训练的参数个数大大减少;当 CNN 处理通过卷积运算的特征图时,它不仅减小了图像的尺寸,而且还去除了特征图的冗余信息。.3.1 卷积层卷积层主要负责对输入数据进行特征提取,提取到的特征通常也可以用于其他上。假设输入一个 m n k的图像,经过前向传播过程,沿着所输入图像的宽和向提取大小为 p q k的图像,得到一组数据。当卷积内核滑动时,使用结果数不同部分计算内积,从而产生激活图。其大小为 ( m p 1) (n q 1) k。图的值
图 2.5 卷积层处理过程如上图 2.5 所示,以二维卷积核为例,说明了卷积层的处理过程。输入矩阵的小为 5×5,选取大小为 3×3 的卷积核,利用卷积核移动,扫描输入矩阵表示的特图得到激活值。2.3.2 池化层为减少 Softmax 分类器的计算量,防止出现过拟合现象,在卷积层之后引入池层,进行特征选择,保留卷积层输出矩阵的主要特征,降低全连接层的参数数量和算量。池化层的目的在于特征降维,包含一个池化函数,即使用激活值一部分的均或最大值来代替这一部分,它们被称为平均池和最大池。通常,非重叠池化窗口的能最佳,如图 2.6 所示,用于非重叠池化窗口的池化处理。
【参考文献】:
期刊论文
[1]基于情感词典的酒店评论情感分类研究[J]. 陈柯宇,何中市. 现代计算机(专业版). 2017(06)
[2]基于词典与规则的新闻文本情感倾向性分析[J]. 李晨,朱世伟,魏墨济,于俊凤,李新天. 山东科学. 2017(01)
[3]一种基于极性词典的情感分析方法[J]. 张成功,刘培玉,朱振方,方明. 山东大学学报(理学版). 2012(03)
硕士论文
[1]面向微博的情感倾向性研究[D]. 冯跃.吉林大学 2018
[2]基于机器学习的文本情感分析研究与优化[D]. 禹业藂.北京邮电大学 2018
[3]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[4]中文文本分类特征选择方法研究[D]. 王小青.西南大学 2010
本文编号:3325791
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
CBOW模型
图 2.4 Skip-gram 模型.3 卷积神经网络卷积神经网络,用于处理具有类似网格结构的数据[33]。CNN 依靠卷积运算,使同情况下人工神经网络需要训练的参数个数大大减少;当 CNN 处理通过卷积运算的特征图时,它不仅减小了图像的尺寸,而且还去除了特征图的冗余信息。.3.1 卷积层卷积层主要负责对输入数据进行特征提取,提取到的特征通常也可以用于其他上。假设输入一个 m n k的图像,经过前向传播过程,沿着所输入图像的宽和向提取大小为 p q k的图像,得到一组数据。当卷积内核滑动时,使用结果数不同部分计算内积,从而产生激活图。其大小为 ( m p 1) (n q 1) k。图的值
图 2.5 卷积层处理过程如上图 2.5 所示,以二维卷积核为例,说明了卷积层的处理过程。输入矩阵的小为 5×5,选取大小为 3×3 的卷积核,利用卷积核移动,扫描输入矩阵表示的特图得到激活值。2.3.2 池化层为减少 Softmax 分类器的计算量,防止出现过拟合现象,在卷积层之后引入池层,进行特征选择,保留卷积层输出矩阵的主要特征,降低全连接层的参数数量和算量。池化层的目的在于特征降维,包含一个池化函数,即使用激活值一部分的均或最大值来代替这一部分,它们被称为平均池和最大池。通常,非重叠池化窗口的能最佳,如图 2.6 所示,用于非重叠池化窗口的池化处理。
【参考文献】:
期刊论文
[1]基于情感词典的酒店评论情感分类研究[J]. 陈柯宇,何中市. 现代计算机(专业版). 2017(06)
[2]基于词典与规则的新闻文本情感倾向性分析[J]. 李晨,朱世伟,魏墨济,于俊凤,李新天. 山东科学. 2017(01)
[3]一种基于极性词典的情感分析方法[J]. 张成功,刘培玉,朱振方,方明. 山东大学学报(理学版). 2012(03)
硕士论文
[1]面向微博的情感倾向性研究[D]. 冯跃.吉林大学 2018
[2]基于机器学习的文本情感分析研究与优化[D]. 禹业藂.北京邮电大学 2018
[3]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[4]中文文本分类特征选择方法研究[D]. 王小青.西南大学 2010
本文编号:3325791
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3325791.html
最近更新
教材专著