基于深度学习的微博评论情感倾向研究

发布时间:2021-06-07 01:16
  在现代网络时代中,微博成为现代网民表达意见和情感观点的主要载体,在社交媒体中占据了很大比重。大部分微博评论表现了网民用户针对某个事件、现象或者用户与产品的情感状态。而使用何种算法与处理方式可以更快、更准确的分析这些微博文本信息,及时获取针对某个话题或事件的微博评论情感倾向,获得话题舆论倾向性也成为自然语言处理领域的研究热点。传统的情感分析方法常常使用文本的统计特征或情感词典构建句子特征,这种方法存在无法获取句子语义信息和分类误差率高的缺点。而现在网络上的数据量不断增大,统计特征的提取难度也不断增加,同时情感词典的判断方式(仅通过情感词计数)相对简单且鲁棒性低。而传统的统计机器学习方法使用文本的统计特征训练,并不能很好的学习到文本的语义信息。为了解决上述问题,本文提出一种基于词嵌入文本特征的深度学习改进算法,进行微博评论的情感分析工作。本文的创新点主要有:(1)使用神经网络语言模型在较大规模语料数据上进行训练,以更方便的无监督训练方式学习词语的隐层语义特征,使用词嵌入向量取代传统文本特征的提取方法,然后使用该文本特征进行深度模型的监督训练;(2)为了在深度模型训练时可以获得更多文本语义特... 

【文章来源】:大连海事大学辽宁省 211工程院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于深度学习的微博评论情感倾向研究


图2.2?CBOW模型??Fig.?2.2?CBOW?model??

模型结构


?大连海事大学硕士学位论文???的数据集B任务的时候,便可以先调用该模型关于A的参数集进行模型初始化工作,??通过使用模型A己经训练得到的模型参数,然后将高层参数进行随机初始化,最后通过??数据集B进行模式的再学习与模型参数的调整,也就是模型的微.调模式网??(Fine-Tuning)。??OpenAI提出的GPT[35^用多层单向的TranSformer[32堪本模型结构(如图2.4所示);??而ELMo则是使用两个独立的单向双层的LSTM作为基本模型结构(如图2.6所示):??BERT的基本结构则是使用多层多个双向Transformer作为基本的处理单元(如图2.5所??示),与GPT相比BERT兼顾了正序与倒序上下文信息做训练,而相比较同样使用正??反序上下文的ELMo,使用Transformer为基础单元结构的BERT比使用LSTM为基础??单元的ELMo在训练时效率较高,速度相对更快。??在各类预训练语言模型中,达到目前较高水平的模型是Google提出的BERT[37]??(Bidirectional?Encoder?Representations?from?Transformers)模型,本文将详细介绍该模型??的原理。??OpenAI?GPT?BERT??[V]?rvi?…[\?j?[V]?rvi?…丨上?i??(Trm?)(?Trm?)…?(Trm?)?(?Trm?)(?Trm?)?...?f?Trm?)??(Trm?Trm?)…?(Trm?)?(?Trm?Trm?)?...?f?Trm?J??1?l?e2?…?en?E2?...?en??图2.4?GPT模型结构?图2.5?

语义,字符,语言模型,向量


?E〖sep】|??+?+?+?+?+?+??+???+?+?+??Segment?_?F—?p?]?'? ̄Z ̄ ̄?^?p?]?F?F?[?p??Embeddings?丨?1?* ̄A?!?CA?丨匚A?CA?""B?丨?CB?丨匚b?丨仁b??+?+?+?HH?+?+?+?+?HK?+?+??Position?ppppppppp?p?p??Embeddings?^0?^2?丨匚3?* ̄4?c5?c6?丨匚7?c8?c9?C10??图2.7多嵌入融合??Fig.?2.7?Embeddings?concatenate??最后将各个获得的嵌入向量(字符嵌入、语义嵌入、位置嵌入)进行拼接输出获得??最终的语言模型。Google团队训练BERT模型时使用的语料是800M个词的??B〇〇ksC〇rpus[55^?2500M个词的英文Wiki百科语料,合计共约33亿个词作为大规模语??料进行训练,并在64块TPU上持续训练约4天时间,获得训练好的语言模型。虽然??BERT在多个评测任务中获得了较好的实验结果,但是其模型的规模程度过大,训练损??耗与训练的设备成本时间成本也超出常规的模型训练,是GPT训练时间的数倍以上,??具有较低的可复制性。??2.4本章小结??作为自然语言处理任务中最重要的基础部分,文本特征提取技术愈发变得重要。本??章首先介绍了传统基于统计方法的》-gram语言模型的原理,然后仔细描述了神经网络??语言模型提取特征的详细原理与相关计算公式。在神经网络语言模型中又详细介绍了??word2vec中的两种改进语言模型CBOW与Skip-Gram,最后详细介绍了大规

【参考文献】:
期刊论文
[1]基于改进随机森林算法的文本分类研究与应用[J]. 刘勇,兴艳云.  计算机系统应用. 2019(05)
[2]基于SA-SVM的中文文本分类研究[J]. 郭超磊,陈军华.  计算机应用与软件. 2019(03)
[3]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华.  计算机科学. 2018(12)
[4]基于支持向量机的中文极短文本分类模型[J]. 王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.  计算机应用研究. 2020(02)
[5]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌.  计算机应用. 2018(11)
[6]基于支持向量机的不均衡文本分类方法[J]. 高超,许翰林.  现代电子技术. 2018(15)
[7]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松.  农业机械学报. 2017(10)
[8]基于递归神经网络的文本分类研究[J]. 黄磊,杜昌顺.  北京化工大学学报(自然科学版). 2017(01)
[9]情感词汇本体的构造[J]. 徐琳宏,林鸿飞,潘宇,任惠,陈建美.  情报学报. 2008 (02)



本文编号:3215543

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3215543.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户325cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com