基于文本内容的敏感文档识别方法研究
发布时间:2021-01-27 23:13
随着信息电子化和网络化程度的提高,敏感信息外泄的事件呈不断上升趋势,其造成的损失和影响也愈发巨大。其中文本文档作为信息传输和存储的主流载体,经由文本文档外泄引发的安全事件占很大比重。在当今大数据的环境下,如何在数量繁多的文本文档中识别出敏感信息,以便于后续防泄漏工作开展,是近年来安全领域的重要问题。传统的敏感文档检测通常基于关键词匹配或文本的统计学特征,这两类方法的局限性在于,一方面依赖人工制定关键词词典和筛选特征,提高了人工成本;另一方面忽略了语序和上下文信息,未能充分挖掘文本的内在含义,因此在应对敏感文档检测的复杂场景时显得力不从心。随着自然语言处理理论和技术的飞速发展,也有学者利用深度学习方法通过文本分类的形式对敏感文档进行识别。这种识别方式的优劣很大程度上依赖于模型对敏感文本内容的表征能力。由于敏感文档的特殊性,往往可供学习的训练样本数量不足以支撑模型获得高质量的词向量表示。而词作为构成文本的基本单元,词向量质量对于文本内容表征有重大影响。此外,词的敏感程度与上下文语境息息相关。例如,“兵力部署”一词在军事类文档中敏感级别很高,而在新闻和通俗类读物中敏感程度下降。由此,本文从文...
【文章来源】:江苏科技大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
文本分类的一般流程
18第2章文本内容的表示相关技术2.1概述由于机器是无法像人一样理解文本内容并直接对其进行处理的,所以为了完成各种自然语言处理任务,首先要对文本进行数字化表示,而不同表示方法对文本内容的语义表达能力决定了后续任务的完成情况。人类对文本的理解习惯是由词、句子、段落、文档逐步递归的理解,而词作为承载语义的基本单元,对词的表示方法的研究是学者们关注的重点。本章介绍了word2vec、glove和elmo三种词向量生成模型,通过分析它们的特点指出了模型在语义表示方面的区别和优劣。本章还介绍了CNN、RNN及其变种以及基于注意力机制的解码-编码器作为特征抽取器和文档表征方法,并分析了它们的特性和区别。2.2词向量表示最初的词向量表示方法是One-hot编码,即将语料中的词统计完毕形成词典后,把每个词看作向量空间的一个维度,该词在该维度上的值为1,其他维度上的值为0,则对于大小为N的词典,每个词均映射成在N-1个维度上值为0和1个维度上值为1的向量。这种表示方法下的词与词之间没有语义和语序上的关联性,且受词典大小影响,极易产生维度灾难。随着词的分布式表示技术的发展,出现了一些基于语言模型的词向量表示模型,word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年发表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下图的神经网络结构来建模N-gram模型,其中v(context(w))为词w的上下文词向量,W、U分别为投影层和隐藏层的权重矩阵,p、q分别为投影层和隐藏层的偏置向量。word2vec的主要工作是针对隐藏层和输出层之间的矩阵向量运算和输出层上的softmax归一化运算进行优化。图2.1用于语言模型的神经网络结构Fig2.1neuralnetworkstructureforlanguagemodel
19word2vec包含根据上下文预测中心词的CBOW(continuousbagofwords)模型和根据中心词预测上下文的Sikp-gram模型,其模型结构如下图所示:图2.2Word2vec用于预测的两种模型Fig2.2twomodelsofword2vecforprediction假设词w的上下文窗口大小为c,词向量维度为m,CBOW模型的输入层包括Context(w)中2c个词的词向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm;投影层为输入层的2c个向量累加求和,即,输出层是每个词出现的概率p(w|Context(w))。word2vec的关键在于给出了两类用于梯度计算的目标函数优化方法,一种称为Hierarchicalsoftmax。该方法的主要思路是构造一棵哈夫曼树,树的叶子节点为待预测的词,则对于词典中任意词w,该哈夫曼树的根节点到词w存在唯一路径pathw,该路径上存在lw-1个分支,将每个分支看作二分类,则将每经过一次分类产生的概率连乘即得p(w|(Context(w)))其中式中为路径中包含结点的个数;为词w的哈夫曼编码,它由位构成,表示路径中第j个结点对应编码;表示路径中非叶子结点对应的向量。将其代入对数似然然函数即可得到CBOW模型的目标函数,这样就省去了输出层上的softmax归一化运算,大大提升了模型训练速度。
【参考文献】:
期刊论文
[1]云计算环境下分布式语义文本自适应分类方法[J]. 王刚,杨波,杨明杰. 科学技术与工程. 2018(07)
[2]一种基于中文文本分类技术的计算机辅助密级界定方法[J]. 潘娅. 电子测试. 2016(06)
[3]ASP.NET使用COM组件处理EXCEL表格[J]. 陈端迎,刘宝华,张桂平. 电脑知识与技术. 2012(22)
[4]COM组件技术的应用[J]. 沈树茂. 电脑知识与技术. 2010(07)
硕士论文
[1]电子文档防泄密平台关键技术的研究[D]. 王飞平.杭州电子科技大学 2017
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
本文编号:3003898
【文章来源】:江苏科技大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
文本分类的一般流程
18第2章文本内容的表示相关技术2.1概述由于机器是无法像人一样理解文本内容并直接对其进行处理的,所以为了完成各种自然语言处理任务,首先要对文本进行数字化表示,而不同表示方法对文本内容的语义表达能力决定了后续任务的完成情况。人类对文本的理解习惯是由词、句子、段落、文档逐步递归的理解,而词作为承载语义的基本单元,对词的表示方法的研究是学者们关注的重点。本章介绍了word2vec、glove和elmo三种词向量生成模型,通过分析它们的特点指出了模型在语义表示方面的区别和优劣。本章还介绍了CNN、RNN及其变种以及基于注意力机制的解码-编码器作为特征抽取器和文档表征方法,并分析了它们的特性和区别。2.2词向量表示最初的词向量表示方法是One-hot编码,即将语料中的词统计完毕形成词典后,把每个词看作向量空间的一个维度,该词在该维度上的值为1,其他维度上的值为0,则对于大小为N的词典,每个词均映射成在N-1个维度上值为0和1个维度上值为1的向量。这种表示方法下的词与词之间没有语义和语序上的关联性,且受词典大小影响,极易产生维度灾难。随着词的分布式表示技术的发展,出现了一些基于语言模型的词向量表示模型,word2vec和glove便是其中的代表。2.2.1Word2vecBengio等人于2003年发表的《Aneuralprobabilisticlanguagemodel》[29]一文中提出了如下图的神经网络结构来建模N-gram模型,其中v(context(w))为词w的上下文词向量,W、U分别为投影层和隐藏层的权重矩阵,p、q分别为投影层和隐藏层的偏置向量。word2vec的主要工作是针对隐藏层和输出层之间的矩阵向量运算和输出层上的softmax归一化运算进行优化。图2.1用于语言模型的神经网络结构Fig2.1neuralnetworkstructureforlanguagemodel
19word2vec包含根据上下文预测中心词的CBOW(continuousbagofwords)模型和根据中心词预测上下文的Sikp-gram模型,其模型结构如下图所示:图2.2Word2vec用于预测的两种模型Fig2.2twomodelsofword2vecforprediction假设词w的上下文窗口大小为c,词向量维度为m,CBOW模型的输入层包括Context(w)中2c个词的词向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)∈Rm;投影层为输入层的2c个向量累加求和,即,输出层是每个词出现的概率p(w|Context(w))。word2vec的关键在于给出了两类用于梯度计算的目标函数优化方法,一种称为Hierarchicalsoftmax。该方法的主要思路是构造一棵哈夫曼树,树的叶子节点为待预测的词,则对于词典中任意词w,该哈夫曼树的根节点到词w存在唯一路径pathw,该路径上存在lw-1个分支,将每个分支看作二分类,则将每经过一次分类产生的概率连乘即得p(w|(Context(w)))其中式中为路径中包含结点的个数;为词w的哈夫曼编码,它由位构成,表示路径中第j个结点对应编码;表示路径中非叶子结点对应的向量。将其代入对数似然然函数即可得到CBOW模型的目标函数,这样就省去了输出层上的softmax归一化运算,大大提升了模型训练速度。
【参考文献】:
期刊论文
[1]云计算环境下分布式语义文本自适应分类方法[J]. 王刚,杨波,杨明杰. 科学技术与工程. 2018(07)
[2]一种基于中文文本分类技术的计算机辅助密级界定方法[J]. 潘娅. 电子测试. 2016(06)
[3]ASP.NET使用COM组件处理EXCEL表格[J]. 陈端迎,刘宝华,张桂平. 电脑知识与技术. 2012(22)
[4]COM组件技术的应用[J]. 沈树茂. 电脑知识与技术. 2010(07)
硕士论文
[1]电子文档防泄密平台关键技术的研究[D]. 王飞平.杭州电子科技大学 2017
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
本文编号:3003898
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3003898.html
最近更新
教材专著