当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的社交平台评论情感分析研究

发布时间:2021-10-15 07:25
  近年来,越来越多的人在社交平台上发表自己的观点,每天新浪微博等社交平台都会产生大量人们对热点事件的情感表达言论,而这些信息往往以文本的形式存在。获取社交平台评论中的情感倾向信息,了解人们对事件的态度,在谣言控制、市场营销、舆情监控等方面有非常重要的应用价值。传统的情感分析方法存在很大的局限性,很难识别文本中比较隐晦的情感信息,也无法适应当今时代信息的瞬息万变。随着深度学习的兴起,用深度学习提高文本情感分析的效果成了研究热点。因此,本文设计了两种深度学习模型对社交平台评论进行情感分析研究。本文首先利用Scrapy框架从微博社交平台上爬取评论信息作为模型的数据集使用,然后对这些评论数据进行预处理,包括中文分词、词性标注和去停用词操作。提出改进型Word2vec模型对这些数据进行词向量处理,即将文本句子转化成对应的词向量矩阵,输入到深度学习分类模型中。最后还对改进型Word2vec模型作对比实验,验证改进型Word2vec模型的优势。文本卷积神经网络Text CNN可以获取句子的局部特征表示。双向门控循环单元BiGRU模型可以获取文本词语、句子之间的时间序列关系,提取文本的全局特征。本文设计... 

【文章来源】:青岛科技大学山东省

【文章页数】:82 页

【学位级别】:硕士

【图文】:

基于深度学习的社交平台评论情感分析研究


微博月活跃用户量及占总网民的比例情况

过程图,过程图,文本,中文


青岛科技大学研究生学位论文9过程,直到不再获得新的网页链接或链接队列已空。图2-1是聚焦网络爬虫的工作过程图。图2-1聚焦网络爬虫的工作过程图Figure2-1Focusontheworkingprocessdiagramofthewebcrawler2.2数据预处理文本预处理是文本情感分析领域的重要基础,能够为模型提供优质的输入数据。本文的数据预处理就是对爬取的评论文本进行中文分词、去停用词和词性标注操作,便于下一步词向量化处理。(1)中文分词评论文本一般包含多个文本句子,每个文本句子又包含多个词语,词语是文本语言中最基本的组成成分。英文文本分词处理较为简单,它的句子可以按照标点区分,句子中的单词之间都存在空格,不需要再进行人工区分[38]。相较于英文文本,中文文本分词就较为复杂,句子中词语与词语间没有可以清楚区分的分割符,只能根据人们一般的语法习惯重新组合成有意义的词序列。中文分词面临三个比较难解决的问题,中文语言规则数量庞大且错综复杂,很难制定良好的分词规则,良好的分词规则可以帮助句子做出正确地划分;在中文语言中,很多常用词都具有歧义性,很难做到正确的划分;网络上经常会出现一些未登录的词语,机器很难区分这些新颖的词语,这个问题是影响中文分词质量的最大因素。

过程图,过程,词语,向量


基于深度学习的社交平台评论情感分析研究12图2-2词嵌入的过程Figure2-2TheprocessofwordembeddingWord2vec是由Google提出的将词语转化为词向量的模型,属于分布式表示的方法,它可以把词语嵌入到一个低维向量空间,还可以有效地保留词语的语义信息,在词向量分布式表示空间上,语义相近的词语在空间距离上也会更加接近。Word2vec模型其实就是简化的神经网络,输入层、隐藏层和输出层都只有一层结构。按照实现方式又可以分为CBOW和Skip-gram两种训练模型,CBOW模型主要是通过把目标词语相邻的上下文词袋向量输入到模型中,经过简单处理,输出该目标词语的概率,非常适合于小型文本数据集。CBOW训练模型的结构如图2-3所示:图2-3CBOW模型结构Figure2-3CBOWmodelstructure接下来介绍一下CBOW模型的训练步骤:


本文编号:3437661

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3437661.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7a258***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com