基于集成学习的非平衡恶意文本检测
发布时间:2021-07-10 14:56
随着计算机技术与人类日常生活相互渗透得日益紧密,NLP(Natural Language Processing)技术在计算机和人类活动生产之间渐渐扮演起了语言桥梁的角色,借助自然语言处理技术可以打破计算机处理和人类序列语言之间的隔阂,代替或辅助人类处理日常关于字符语言的任务,诸如文本分类,语种转译,词性标注等,并在其中取得了极其优异的成果。但在互联网的海量文本数据中,不乏有一部分恶意文本,其数量与正常文本相比是极不均衡的,仅依靠人工识别难度较高,就需要引入NLP领域的恶意文本检测技术,来对文本的性质进行解析分类。考虑到恶意文本检测存在的数据分布非均衡问题,本论文从非均衡数据分类的角度对恶意文本检测进行研究,即实质上是非均衡文本分类问题。对于文本数据杂乱、类别不均衡的数据集,已有的用于文本分类的方法并不能很好地应用于这类数据集中,极大地限制了文本分类技术在实际问题中的应用。故本文的主要目的就是研究在非均衡文本数据集上,训练出一个准确率高,鲁棒性好的模型方法,使之能够很好地进行恶意文本检测,将恶意文本与正常文本区别开来。本文首先研究了恶意文本检测的背景和意义,对非均衡文本分类及恶意文本检测...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
RCNN用于文本表示
图 2-8 Self-Attention卷积神经网络首次应用于文本分类可以说是在 2004 年 Yoon Kim Convolutional Neural Networks for Sentence Classificationμ 一文中提出(虽然第个用的并不是他,但是在这篇文章中提出了 4 种 Model Variations,并有详细的参),接下来将对其做简单介绍,text-CNN[27]模型结构如图 2-9 所示。Mh1 h2 h3 h4hnwehadanicefeelingin thatclass.… ………
第二章 文本分类相关技术研究子的任何地方提取特定的特征,并加到句子的最终表示中。最大池化之外还有一种平均池化方式,该池化方式中不再是基值的输出,而是该池化领域中的所有值和的平均值,其平均池-8 所示。 ( ) 2-8 中,输入的 c 是张量领域,而池化的输出为领域中的平均Softmax 层一些列的特征提取后形成最后的分类信息向量,最后将该分类max 层进行分类,并且在全连接部分进行 Dropout,减少过拟合据任务的不同进行调整,输出最终类别的概率分布。-10 具体展示了如何使用 CNN 进行句子分类。
本文编号:3276130
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
RCNN用于文本表示
图 2-8 Self-Attention卷积神经网络首次应用于文本分类可以说是在 2004 年 Yoon Kim Convolutional Neural Networks for Sentence Classificationμ 一文中提出(虽然第个用的并不是他,但是在这篇文章中提出了 4 种 Model Variations,并有详细的参),接下来将对其做简单介绍,text-CNN[27]模型结构如图 2-9 所示。Mh1 h2 h3 h4hnwehadanicefeelingin thatclass.… ………
第二章 文本分类相关技术研究子的任何地方提取特定的特征,并加到句子的最终表示中。最大池化之外还有一种平均池化方式,该池化方式中不再是基值的输出,而是该池化领域中的所有值和的平均值,其平均池-8 所示。 ( ) 2-8 中,输入的 c 是张量领域,而池化的输出为领域中的平均Softmax 层一些列的特征提取后形成最后的分类信息向量,最后将该分类max 层进行分类,并且在全连接部分进行 Dropout,减少过拟合据任务的不同进行调整,输出最终类别的概率分布。-10 具体展示了如何使用 CNN 进行句子分类。
本文编号:3276130
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3276130.html
最近更新
教材专著