基于卷积神经网络的非结构化文本敏感信息检测系统的设计与实现
发布时间:2021-08-01 23:42
伴随着互联网、计算机硬件设备和移动硬件设备的高速发展,用户将大量的数据、文字等存放在电子文本文档中,随时随地进行着通信与传输。而大量电子文本文档的使用则存在着信息安全风险,从非结构化文本文档中泄露敏感信息对个人、企业以及政府都是一个代价高昂的问题。如何检测敏感信息以防止数据信息泄露成为了一个信息安全领域的重要课题。现阶段实际应用的检测方法大致分为两种,敏感词匹配以及传统的机器学习手段。这两种方法都依赖于特征关键词与敏感种子词共现的频率。然而在实践使用中,这可能会无法准确的检测出更复杂的敏感信息模式。实际应用的检测方法受人为情感因素影响,只注重了词语与特征的出现,割裂了文本本身上下文的联系,忽略了语句之间的意义,只能粗暴地按照“含有关键词特征即涉及敏感”的原则进行敏感信息检测。近年来,有科学家提出利用递归神经网络进行敏感信息检测,利用文档的上下文信息更准确地预测文档的敏感性,因为其自身模型具有的优点较好的解决了上述出现的问题。但该方法在提升准确率的同时,模型训练构建需要耗费较多的时间,实际应用时可能会影响效率。卷积神经网络模型作为深度学习的一种类型,在保留了递归神经网络模型具有的优势情况...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2-1?word2vec模型结构??3.?TF-IDF加权词向量化法??
?softmax?ouU>ut??图2-2?Text-CNN模型体系结构图[32]??如图2-2所示,Text-CNN的模型架构Collobert[33]等人的CNN架构的略微变??体。令;^?对应于句子中的第i个单词的k维单词向量。长度为n的句子(在??必要时填充)表示为:=?......十,其中0表示连接运算符。一般??来说,令xi:i+j指的是单词xi;xi+1,?......,?xi+j的连接。卷积操作涉及滤波器w??eRhk,其应用于h字的窗口以产生新特征。举个例子,一个特征Ci通过公示:??Ci?=?f(w*Wi:i+h.丨+b)从单词Wi:i+f>1的窗口中生成。这里b?G?R是偏置项,f使非线性??函数,例如双曲正切。此过滤器应用于句子{xI:h,X2:h+丨,…乂松丨:^中每个可能的单??词窗口来生成特征图,c?=?[c1,c2,....cn_h+1],?c?e?1^11+|。在特征图上应用最大超时??池化操作[33],并取最大值c?=?max{C}作为对应于该特定过滤器的特征。YoonKim??的想法是为每个要素图捕获最重要的特征
卷枳层?b?J??d池化层??图2-3?Text-CNN详细过程原理图丨34]??如图2-3所示,Text-CNN整个模型共由输入层、卷积层、池化层、全连接??层四个部分组成。??1.
【参考文献】:
期刊论文
[1]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽. 成组技术与生产现代化. 2018(03)
[2]基于关键词的文本向量化与分类算法研究[J]. 苏玉龙,张著洪. 贵州大学学报(自然科学版). 2018(03)
[3]基于表示学习的中文分词[J]. 刘春丽,李晓戈,刘睿,范贤,杜丽萍. 计算机应用. 2016(10)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[5]一种基于中文文本分类技术的计算机辅助密级界定方法[J]. 潘娅. 电子测试. 2016(06)
[6]基于.NET及COM组件的应用开发技术[J]. 华文立,苏传芳,张红梅. 蚌埠学院学报. 2013(01)
[7]ASP.NET使用COM组件处理EXCEL表格[J]. 陈端迎,刘宝华,张桂平. 电脑知识与技术. 2012(22)
[8]从美国政府机密文件泄密事件看政府涉密电子文件共享的安全管理[J]. 杨霞. 档案与建设. 2011(03)
[9]COM组件技术的应用[J]. 沈树茂. 电脑知识与技术. 2010(07)
[10]电子文件密级管理系统的关键技术与设计[J]. 王文宇,陈尚义. 信息安全与通信保密. 2009(10)
硕士论文
[1]电子文档防泄密平台关键技术的研究[D]. 王飞平.杭州电子科技大学 2017
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
[3]格式化文件内容提取与过滤关键技术研究[D]. 刘丽荣.哈尔滨工程大学 2012
[4]桌面搜索引擎的设计与实现[D]. 孟美华.大连理工大学 2009
本文编号:3316458
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图2-1?word2vec模型结构??3.?TF-IDF加权词向量化法??
?softmax?ouU>ut??图2-2?Text-CNN模型体系结构图[32]??如图2-2所示,Text-CNN的模型架构Collobert[33]等人的CNN架构的略微变??体。令;^?对应于句子中的第i个单词的k维单词向量。长度为n的句子(在??必要时填充)表示为:=?......十,其中0表示连接运算符。一般??来说,令xi:i+j指的是单词xi;xi+1,?......,?xi+j的连接。卷积操作涉及滤波器w??eRhk,其应用于h字的窗口以产生新特征。举个例子,一个特征Ci通过公示:??Ci?=?f(w*Wi:i+h.丨+b)从单词Wi:i+f>1的窗口中生成。这里b?G?R是偏置项,f使非线性??函数,例如双曲正切。此过滤器应用于句子{xI:h,X2:h+丨,…乂松丨:^中每个可能的单??词窗口来生成特征图,c?=?[c1,c2,....cn_h+1],?c?e?1^11+|。在特征图上应用最大超时??池化操作[33],并取最大值c?=?max{C}作为对应于该特定过滤器的特征。YoonKim??的想法是为每个要素图捕获最重要的特征
卷枳层?b?J??d池化层??图2-3?Text-CNN详细过程原理图丨34]??如图2-3所示,Text-CNN整个模型共由输入层、卷积层、池化层、全连接??层四个部分组成。??1.
【参考文献】:
期刊论文
[1]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽. 成组技术与生产现代化. 2018(03)
[2]基于关键词的文本向量化与分类算法研究[J]. 苏玉龙,张著洪. 贵州大学学报(自然科学版). 2018(03)
[3]基于表示学习的中文分词[J]. 刘春丽,李晓戈,刘睿,范贤,杜丽萍. 计算机应用. 2016(10)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[5]一种基于中文文本分类技术的计算机辅助密级界定方法[J]. 潘娅. 电子测试. 2016(06)
[6]基于.NET及COM组件的应用开发技术[J]. 华文立,苏传芳,张红梅. 蚌埠学院学报. 2013(01)
[7]ASP.NET使用COM组件处理EXCEL表格[J]. 陈端迎,刘宝华,张桂平. 电脑知识与技术. 2012(22)
[8]从美国政府机密文件泄密事件看政府涉密电子文件共享的安全管理[J]. 杨霞. 档案与建设. 2011(03)
[9]COM组件技术的应用[J]. 沈树茂. 电脑知识与技术. 2010(07)
[10]电子文件密级管理系统的关键技术与设计[J]. 王文宇,陈尚义. 信息安全与通信保密. 2009(10)
硕士论文
[1]电子文档防泄密平台关键技术的研究[D]. 王飞平.杭州电子科技大学 2017
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
[3]格式化文件内容提取与过滤关键技术研究[D]. 刘丽荣.哈尔滨工程大学 2012
[4]桌面搜索引擎的设计与实现[D]. 孟美华.大连理工大学 2009
本文编号:3316458
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3316458.html