基于融合表情符号的两级注意力机制网络的情感分析
发布时间:2021-06-23 15:48
随着社交媒体发展的重心从PC端转向移动终端,自媒体的发展也进入了新的阶段。越来越多的人成为网络内容的生产者,人们也越来越倾向于在微博等社交媒体上表达自己的观点和意见。对用户发布的这些内容进行数据挖掘或情感分析,不仅有助于企业进行决策,也可以帮助政府进行舆情管理和政策制定,具有显著的商业价值和社会意义。情感分析作为自然语言处理领域的一个重要分支,已有大量国内外学者进行了研究,除了计算机学科的研究工作人员,还吸引了大量社会学和计算机学等交叉学科的研究者。传统的情感分析方法大致可以归类为基于词典或规则的方法以及机器学习的方法。前者需要耗费大量的人力资源,同时,由于网络用语演变速度极快,给词典的维护带来了困难,故而该类方法在实际应用中存在一定局限,一般作为辅助手段。后者十分依赖人工进行的特征工程,训练出的模型泛化能力比较差,无法满足跨领域的情感分析需求。而近年来深度学习方法发展迅速,其不仅可以自动学习数据特征,而且一些网络因其结构的优越性十分适合用于文本分析。以微博和Twitter为例,当前的大部分深度学习方法往往只关注单一的文本信息,而忽略了含有重要情感线索的其他媒体信息(例:等表情符号)。...
【文章来源】:上海师范大学上海市
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
情感分析流程图
第3章多维度表情符号表示模型上海师范大学硕士学位论文28长度为T的文本序列,设处在时间步t的词语为#,假设在中心词确定的情况下,背景词的生成互相独立,则当上下文窗口大小为m时,Skip-gram模型需要求解的函数其实就是:mmP: #9:n#;";<:<;,:>?1#4&公式(33)整体的训练流程如下:首先使用中文分词工具——jieba分词9对所有语料进行分词,使用的停用词表是哈工大的HIT-stopwords,最后得到大约1亿词(包含重复词),去重后得到大约170万个词语,然后使用著名的python开源自然语言处理库gensim中的Word2Vec算法实现进行训练,设置词嵌入的维度为300d,窗口大小为5,最小出现频次为5(可以过滤掉一些低频词语,将词嵌入向量个数保持在可控范围内),迭代训练次数35次。同时,为了加速训练,使用了hierarchicalsoftmax(层次softmax函数)而不是负采样(NegativeSampling)函数进行求解。使用的训练平台是Windows10系统,python3.7语言版本,NVIDIAGTX1080Ti显卡。最后训练得到了大约38万个词嵌入向量,对训练结果进行测试,结果如图:图3-2持词嵌向量加减运算9https://github.com/fxsjy/jieba
上海师范大学硕士学位论文第3章多维度表情符号表示模型29图3-3词嵌相似度从上述两张图可以看到,Word2vec训练的词向量不仅支持通过数字表征的语义加减运算,即“开心”和“高兴”之间的关系等同于“难过”和“郁闷”之间的关系,还可以体现词语之间的相似度关系,例如:与“开心”最相近的词语有“高兴”,“快乐”,“幸福”,“开森”等。图3-4可视化词嵌另外还可以将词嵌入进行降维,使用TSNE算法将词嵌入维度由300维降至2维,在二维平面坐标系中进行可视化处理,如图3-4所示。从图中我们可以很明显看到,关联度高的词语聚集得更密集,而关联度不高词语之间的距离明显更大。例如:图3-4右上角的“有毒”,“英语”,“化学”,“期末”这四个词明显都是在表达期末考试相关的主题,左下角的“心累”,“停下来”,“闲下来”这组词语明显是在表达人物心情相关的主题,以及“座位”,“列车”,“后排”明显是坐火车场景下的主题。此外,那些相关性不高的词语也有所体现,上图中最外侧一圈的词嵌入对应的词语,例如“睫毛”,“美如画”等。所以词嵌入可以很好体现词语之间的关系,其携带有一定的语义信息,可以作为词语的初始表示,是一种非常有效的文本特征表示。除了Google提供的Word2Vec工具,训练词嵌入的工具还有FaceBook的fastText[68][69]以及斯坦福大学提出的Glove[70]等。其中,相对于Word2vec,fastText
【参考文献】:
期刊论文
[1]基于表情符注意力机制的微博情感分析模型[J]. 谭皓,邓树文,钱涛,姬东鸿. 计算机应用研究. 2019(09)
[2]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[3]基于情感分析和LDA主题模型的协同过滤推荐算法[J]. 彭敏,席俊杰,代心媛,何炎祥. 中文信息学报. 2017(02)
[4]用于微博情感分析的一种情感语义增强的深度学习模型[J]. 何炎祥,孙松涛,牛菲菲,李飞. 计算机学报. 2017(04)
[5]基于统计数据的微博表情符分析及其在情绪分析中的应用[J]. 刘宝芹,牛耘,张景. 计算机工程与科学. 2016(03)
[6]基于微博表情符号的情感词典构建研究[J]. 桂斌,杨小平,张中夏,肖文韬. 北京理工大学学报. 2014(05)
本文编号:3245221
【文章来源】:上海师范大学上海市
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
情感分析流程图
第3章多维度表情符号表示模型上海师范大学硕士学位论文28长度为T的文本序列,设处在时间步t的词语为#,假设在中心词确定的情况下,背景词的生成互相独立,则当上下文窗口大小为m时,Skip-gram模型需要求解的函数其实就是:mmP: #9:n#;";<:<;,:>?1#4&公式(33)整体的训练流程如下:首先使用中文分词工具——jieba分词9对所有语料进行分词,使用的停用词表是哈工大的HIT-stopwords,最后得到大约1亿词(包含重复词),去重后得到大约170万个词语,然后使用著名的python开源自然语言处理库gensim中的Word2Vec算法实现进行训练,设置词嵌入的维度为300d,窗口大小为5,最小出现频次为5(可以过滤掉一些低频词语,将词嵌入向量个数保持在可控范围内),迭代训练次数35次。同时,为了加速训练,使用了hierarchicalsoftmax(层次softmax函数)而不是负采样(NegativeSampling)函数进行求解。使用的训练平台是Windows10系统,python3.7语言版本,NVIDIAGTX1080Ti显卡。最后训练得到了大约38万个词嵌入向量,对训练结果进行测试,结果如图:图3-2持词嵌向量加减运算9https://github.com/fxsjy/jieba
上海师范大学硕士学位论文第3章多维度表情符号表示模型29图3-3词嵌相似度从上述两张图可以看到,Word2vec训练的词向量不仅支持通过数字表征的语义加减运算,即“开心”和“高兴”之间的关系等同于“难过”和“郁闷”之间的关系,还可以体现词语之间的相似度关系,例如:与“开心”最相近的词语有“高兴”,“快乐”,“幸福”,“开森”等。图3-4可视化词嵌另外还可以将词嵌入进行降维,使用TSNE算法将词嵌入维度由300维降至2维,在二维平面坐标系中进行可视化处理,如图3-4所示。从图中我们可以很明显看到,关联度高的词语聚集得更密集,而关联度不高词语之间的距离明显更大。例如:图3-4右上角的“有毒”,“英语”,“化学”,“期末”这四个词明显都是在表达期末考试相关的主题,左下角的“心累”,“停下来”,“闲下来”这组词语明显是在表达人物心情相关的主题,以及“座位”,“列车”,“后排”明显是坐火车场景下的主题。此外,那些相关性不高的词语也有所体现,上图中最外侧一圈的词嵌入对应的词语,例如“睫毛”,“美如画”等。所以词嵌入可以很好体现词语之间的关系,其携带有一定的语义信息,可以作为词语的初始表示,是一种非常有效的文本特征表示。除了Google提供的Word2Vec工具,训练词嵌入的工具还有FaceBook的fastText[68][69]以及斯坦福大学提出的Glove[70]等。其中,相对于Word2vec,fastText
【参考文献】:
期刊论文
[1]基于表情符注意力机制的微博情感分析模型[J]. 谭皓,邓树文,钱涛,姬东鸿. 计算机应用研究. 2019(09)
[2]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[3]基于情感分析和LDA主题模型的协同过滤推荐算法[J]. 彭敏,席俊杰,代心媛,何炎祥. 中文信息学报. 2017(02)
[4]用于微博情感分析的一种情感语义增强的深度学习模型[J]. 何炎祥,孙松涛,牛菲菲,李飞. 计算机学报. 2017(04)
[5]基于统计数据的微博表情符分析及其在情绪分析中的应用[J]. 刘宝芹,牛耘,张景. 计算机工程与科学. 2016(03)
[6]基于微博表情符号的情感词典构建研究[J]. 桂斌,杨小平,张中夏,肖文韬. 北京理工大学学报. 2014(05)
本文编号:3245221
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3245221.html
最近更新
教材专著