基于非平衡数据的多目标敏感文本检测

发布时间:2021-08-17 19:52
  随着人工智智能渗入人类自然语言的程度越来越深,NLP(Natural Language Processing)技术在人类日常语言处理中诸如文本分类、语种翻译、词性标注以及命名实体识别等领域中扮演着越来越重要的角色,并取得了令人瞩目的成绩。在大数据时代中,人类日常所接触的语言数据集是一堆杂乱的,非均衡的多目标学习任务文本数据集,与学术研究中所使用的标准干净的、类别数量均衡的以及单一标签的文本数据集不同,本文所研究的敏感文本检测实际上就是一类涉及数据非均衡和多目标学习的文本分类任务,而已有的关于处理此类任务的方法中没有一个统一的高效的方法,所以如何在多目标非均衡数据集上训练出准确率高的、鲁棒性好的模型是至关重要的。本论文目的就是研究在涉及数据非均衡和多目标学习特性的文本数据集中将敏感文本数据检测(分类)出来,主要的研究工作由四部分组成。(1)对字符型数据进行量化操作,将字符型数据转换成实数型数据。引入词向量的概念,不同于已有的训练词向量模型——Skip-Gram模型和CBOW模型,因为这些词向量训练模型并没有考虑词序信息,导致所训练出的词向量中损失了一部原始数据的语义信息,我们需要设计出一... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:97 页

【学位级别】:硕士

【部分图文】:

基于非平衡数据的多目标敏感文本检测


文本量化示意图

激活函数,梯度,非线性数学,公式


图 2-6 sigmoid 函数分布图oid 激活函数简单易懂,可以输出分类的概率,其在求导的过身代替,形如公式 2-15 所示。£ ( ) = ( ) = ( ) ( ) Sigmoid 激活函数容易发生饱和而使得梯度弥散,由式 2-的导数最大值为 1/4,那么在最理想的情况下,梯度在传播过为原来的 1/4,那么随着层数的加深,梯度会趋近于 0,造成情况;Singmoid 激活函数的输出不是 0 均值地,这样会导致候,在梯度进行反向传播的时候,梯度也将是全正或全负的,新的时候回形成 Z 字型进行下降,那么会导致模型整个的收敛TanhActive Function 激活函数[25]是 Sigmoid 函数的一种变体,其非线性数学公式如

函数,激活函数,指数运算,算量


图 2-7 tanh 函数分布图活函数是对 Sigmoid 激活函数的改进,解决了函数输出不任然存在梯度弥散的问题。eLU Active Function激活函数[26]针对于 Sigmoid 函数以及 Tanh 函数存在的问学公式如公式 2-17 所示: ( ) =  ( ) 函数在输入为非正的情况下输出全为 0,而在输入为正的入,其函数形状如图 2-8 所示。相较于 Sigmoid 函数和在基于 SGD(随机梯度下降)算法的时候,模型收敛速 函数在求导的时候不含有任何指数运算,其导数就是一个算量。


本文编号:3348388

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3348388.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ea274***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com