网络舆情信息识别与分析的关键技术研究
发布时间:2021-01-26 20:35
随着我国互联网技术的快速发展,人们逐渐使用电子设备通过网络通道来进行日常的工作和交流,广大网民成为了网络舆情信息传播的主要介质,网络中的舆情信息爆发式增多。冗长的舆情数据不仅严重浪费舆情信息分析人员的时间和精力,而且其内容中的不良言论也会给社会稳定带来影响。此外,在海量鱼龙混杂的网络数据中存在大量对相关部门有价值的舆情信息,如何获取并高效地分析这些数据从而帮助有关部门更好的了解社情民意是一个亟待解决的问题。基于以上问题,本文对网络舆情信息识别与分析中所涉及到的文本摘要技术和文本分类技术进行了相关研究与探索。本文的主要工作包括:1、针对舆情信息文本过长以及信息中存在主观情感内容的问题,基于带注意力机制的Seq2Seq模型实现了文本摘要模型,为每条舆情信息生成一个简短的摘要信息,将舆情信息简洁化,并使用Coverage机制解决模型生成过多重复词语的问题。2、针对目前生成式文本摘要模型对于文本主题信息利用较少的问题,使用一种有监督算法提取出文本的关键词信息,并利用此关键词信息对注意力机制进行改进,使模型对文本主题信息更加敏感,从而使得模型的效果得到提升。3、针对目前大多数生成式文本摘要模型都...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
数据集原文本长度分布
第三章文本摘要技术研究35序列,过长的序列一方面会导致文本信息在编码的过程中逐步丢失,另一方面会导致梯度在反向传播的过程中逐渐消失,则此时模型的效果会受到影响。当按词语数进行统计时,本文所使用数据集的原文本长度从18到13918不等,长度分布如图3-8所示。图3-8数据集原文本长度分布图3-9中横坐标为200对应的一项代表文本长度大于100且小于200的文本数占数据集中总文本数的比例,其余类似,最后一项是指长度大于1500的文本数占数据集中总文本数的比例。由图可以看出,长度大于400的文本占到了文本总数的50%。另外,虽然从建模的角度来看,端到端模型具有吸引力,然而,有证据表明,当人们进行概括时,遵循两步法:首先从原文中选择出重要的短语或子句,然后再对它们进行进一步的释义[68]。在图像字幕中也有类似的证据,Anderson等人[69]提出了一种双阶段模型,这个模型首先对待切割的目标物体预先计算得到一个边界框,然后再在这些区域内运用注意力机制来进行进一步的计算。基于以上分析,本文提出了一种双阶段文本摘要模型,先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词以及标准摘要中的词语,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。第二阶段使用的是带注意力机制、Coverage机制和指针网络的生成式模型。由于本文所使用的数据集是生成式文本摘要的公开数据集,所以对于此数据集而言,双阶段文本摘要模型第一阶段所需要抽取出的文本内容并没有一个实际的参考,于是本文采用一种启发式方法,选取出原文中的重要内容作为第二阶段模型的输入。此部分过程的示意图如图3-9所示。
电子科技大学硕士学位论文36图3-9第一阶段抽取文本子句过程由图3-10可以看出,此方法一方面从子句的语义方面评估其重要性,一方面从子句的关键词方面评估其重要性。在子句的语义得分方面,首先使用BERT获得原文本中每个子句的语义向量及标准摘要的向量,以此计算得到每个子句与标准摘要的语义相似性,然后基于此相似性对原文打标签得到数据集T_S,之后使用T_S按照序列标注的思想训练得到一个语义得分预测模型,模型训练好之后即可用它获得文本摘要数据集中每条原文本的各子句语义得分。此外,考虑到挑选出的子句的多样性,又使用MMR算法对上述语义得分进行调整,获得文本中子句最终的语义得分score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示使用MMR算法调整之后第k个子句的语义得分,Ts是原文本的子句数;在子句的关键词得分方面,首先使用3.3节中的方法获得原文中每个词语属于关键词的概率,然后基于此概率通过计算获得文本中所有子句的关键词得分score_key={s_k1,s_k2,…,s_kTs},其中s_kk表示第k条子句的关键词得分;最终同时考虑子句的语义得分score_sim和关键词得分score_key获得原文本中每个子句最终的得分score={s_c1,s_c2,…,s_cTs},然后根据此得分选取出得分最高的K个子句。具体每步的做法如下:a)获得子句语义得分首先是文本子句语义向量和文本主题向量的获龋对于子句语义向量的获取,此处的做法与3.4节中的方法一致。即使用BERT模型输出层中“CLS”所在位置的输出作为各子句的语义向量,文本子句向量序列表示为s_v={s_v1,s_v2,…,s_vTs}。对于文本主题向量的获取,一般都是对文本中的词向量或者子句向量进行相关操作得到,但是,一方面,简单使用文本中的词向量或子句向量进行拼接或者
【参考文献】:
期刊论文
[1]不平衡训练数据下的基于深度学习的文本分类[J]. 陈志,郭武. 小型微型计算机系统. 2020(01)
[2]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚. 小型微型计算机系统. 2019(05)
[3]基于改进TextRank算法的中文文本摘要提取[J]. 徐馨韬,柴小丽,谢彬,沈晨,王敬平. 计算机工程. 2019(03)
[4]主题关键词信息融合的中文生成式自动摘要研究[J]. 侯丽微,胡珀,曹雯琳. 自动化学报. 2019(03)
[5]结合注意力与卷积神经网络的中文摘要研究[J]. 周才东,曾碧卿,王盛玉,商齐. 计算机工程与应用. 2019(08)
[6]基于多通道卷积神经网络的中文微博情感分析[J]. 陈珂,梁斌,柯文德,许波,曾国超. 计算机研究与发展. 2018(05)
[7]基于主题增强卷积神经网络的用户兴趣识别[J]. 杜雨萌,张伟男,刘挺. 计算机研究与发展. 2018(01)
[8]基于循环和卷积神经网络的文本分类研究[J]. 刘腾飞,于双元,张洪涛,尹鸿峰. 软件. 2018(01)
[9]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹. 计算机应用. 2018(05)
[10]基于多注意力卷积神经网络的特定目标情感分析[J]. 梁斌,刘全,徐进,周倩,章鹏. 计算机研究与发展. 2017(08)
博士论文
[1]高维数据的特征选择与特征提取研究[D]. 蒋胜利.西安电子科技大学 2011
硕士论文
[1]网络警情的信息提取与分析的关键技术研究与实现[D]. 方丹.电子科技大学 2019
[2]基于文本分类的微博情感倾向研究[D]. 杨欢.重庆师范大学 2016
[3]我国突发公共事件的网络舆情研究[D]. 唐喜亮.电子科技大学 2008
本文编号:3001775
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
数据集原文本长度分布
第三章文本摘要技术研究35序列,过长的序列一方面会导致文本信息在编码的过程中逐步丢失,另一方面会导致梯度在反向传播的过程中逐渐消失,则此时模型的效果会受到影响。当按词语数进行统计时,本文所使用数据集的原文本长度从18到13918不等,长度分布如图3-8所示。图3-8数据集原文本长度分布图3-9中横坐标为200对应的一项代表文本长度大于100且小于200的文本数占数据集中总文本数的比例,其余类似,最后一项是指长度大于1500的文本数占数据集中总文本数的比例。由图可以看出,长度大于400的文本占到了文本总数的50%。另外,虽然从建模的角度来看,端到端模型具有吸引力,然而,有证据表明,当人们进行概括时,遵循两步法:首先从原文中选择出重要的短语或子句,然后再对它们进行进一步的释义[68]。在图像字幕中也有类似的证据,Anderson等人[69]提出了一种双阶段模型,这个模型首先对待切割的目标物体预先计算得到一个边界框,然后再在这些区域内运用注意力机制来进行进一步的计算。基于以上分析,本文提出了一种双阶段文本摘要模型,先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词以及标准摘要中的词语,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。第二阶段使用的是带注意力机制、Coverage机制和指针网络的生成式模型。由于本文所使用的数据集是生成式文本摘要的公开数据集,所以对于此数据集而言,双阶段文本摘要模型第一阶段所需要抽取出的文本内容并没有一个实际的参考,于是本文采用一种启发式方法,选取出原文中的重要内容作为第二阶段模型的输入。此部分过程的示意图如图3-9所示。
电子科技大学硕士学位论文36图3-9第一阶段抽取文本子句过程由图3-10可以看出,此方法一方面从子句的语义方面评估其重要性,一方面从子句的关键词方面评估其重要性。在子句的语义得分方面,首先使用BERT获得原文本中每个子句的语义向量及标准摘要的向量,以此计算得到每个子句与标准摘要的语义相似性,然后基于此相似性对原文打标签得到数据集T_S,之后使用T_S按照序列标注的思想训练得到一个语义得分预测模型,模型训练好之后即可用它获得文本摘要数据集中每条原文本的各子句语义得分。此外,考虑到挑选出的子句的多样性,又使用MMR算法对上述语义得分进行调整,获得文本中子句最终的语义得分score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示使用MMR算法调整之后第k个子句的语义得分,Ts是原文本的子句数;在子句的关键词得分方面,首先使用3.3节中的方法获得原文中每个词语属于关键词的概率,然后基于此概率通过计算获得文本中所有子句的关键词得分score_key={s_k1,s_k2,…,s_kTs},其中s_kk表示第k条子句的关键词得分;最终同时考虑子句的语义得分score_sim和关键词得分score_key获得原文本中每个子句最终的得分score={s_c1,s_c2,…,s_cTs},然后根据此得分选取出得分最高的K个子句。具体每步的做法如下:a)获得子句语义得分首先是文本子句语义向量和文本主题向量的获龋对于子句语义向量的获取,此处的做法与3.4节中的方法一致。即使用BERT模型输出层中“CLS”所在位置的输出作为各子句的语义向量,文本子句向量序列表示为s_v={s_v1,s_v2,…,s_vTs}。对于文本主题向量的获取,一般都是对文本中的词向量或者子句向量进行相关操作得到,但是,一方面,简单使用文本中的词向量或子句向量进行拼接或者
【参考文献】:
期刊论文
[1]不平衡训练数据下的基于深度学习的文本分类[J]. 陈志,郭武. 小型微型计算机系统. 2020(01)
[2]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚. 小型微型计算机系统. 2019(05)
[3]基于改进TextRank算法的中文文本摘要提取[J]. 徐馨韬,柴小丽,谢彬,沈晨,王敬平. 计算机工程. 2019(03)
[4]主题关键词信息融合的中文生成式自动摘要研究[J]. 侯丽微,胡珀,曹雯琳. 自动化学报. 2019(03)
[5]结合注意力与卷积神经网络的中文摘要研究[J]. 周才东,曾碧卿,王盛玉,商齐. 计算机工程与应用. 2019(08)
[6]基于多通道卷积神经网络的中文微博情感分析[J]. 陈珂,梁斌,柯文德,许波,曾国超. 计算机研究与发展. 2018(05)
[7]基于主题增强卷积神经网络的用户兴趣识别[J]. 杜雨萌,张伟男,刘挺. 计算机研究与发展. 2018(01)
[8]基于循环和卷积神经网络的文本分类研究[J]. 刘腾飞,于双元,张洪涛,尹鸿峰. 软件. 2018(01)
[9]结合注意力机制的长文本分类方法[J]. 卢玲,杨武,王远伦,雷子鉴,李莹. 计算机应用. 2018(05)
[10]基于多注意力卷积神经网络的特定目标情感分析[J]. 梁斌,刘全,徐进,周倩,章鹏. 计算机研究与发展. 2017(08)
博士论文
[1]高维数据的特征选择与特征提取研究[D]. 蒋胜利.西安电子科技大学 2011
硕士论文
[1]网络警情的信息提取与分析的关键技术研究与实现[D]. 方丹.电子科技大学 2019
[2]基于文本分类的微博情感倾向研究[D]. 杨欢.重庆师范大学 2016
[3]我国突发公共事件的网络舆情研究[D]. 唐喜亮.电子科技大学 2008
本文编号:3001775
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3001775.html
最近更新
教材专著