特定文档的高通量检测技术研究

发布时间:2021-08-28 12:23
  随着互联网技术与信息化的不断普及,数字化文档被人们广泛使用。由于数字化文档数量的激增,信息安全问题开始显现,一些需要面向特定人群的特定敏感文档也被错误的上传至文库类网站中,导致信息的泄露。经调查,文库类网站的特定文档泄漏情况近年来呈现高发态势,给信息安全和公众利益带来严重威胁,造成无法挽回的经济或者其他损失。对文库类网站分享的文档进行信息安全检查已经成为一个重要的需求。由于每天都有大量文档上传至文库类网站中,如何设计快速准确的高通量敏感文档图像检测算法,以尽可能低的成本代价实现对网站每日上传文档图像的全量检测,并从中检测出是否存在特定文档图像,成为当前阶段需要迫切解决的研究性课题。从现实情况来说,目前市面上针对此类问题并无较好的解决方案,因此本文选定某文库类网站A作为研究对象,针对以上问题进行了深入研究,主要工作如下:(1)提出了一个以级联结构为主的特定文档高通量监测系统。首先,该系统接收来自文库类网站中数据库传入的文档图像,利用底层图像特征的差异性,将文档图像与非文档图像进行有效区分;其次,利用基于深度学习的可疑文档分类器,将文档分为可疑文档和非可疑文档两类;最后,对可疑文档利用版面... 

【文章来源】:湘潭大学湖南省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

特定文档的高通量检测技术研究


开运算实例图

实例图,闭运算,颜色


12闭运算为先膨胀再腐蚀,M代表待处理图像,N代表结构元素,利用N对图像M进行闭运算操作的定义如下:MN=(M⊕N)N(2.4)图2.2闭运算实例图2.1.2颜色特征颜色特征是一种全局特征,主要用来描述全图像区域中物体或场景的表面属性,并且颜色特征对图像本身的依赖性较小,因此颜色特征的鲁棒性更好。在颜色特征中图像区域中的所有像素都起作用,因此,颜色特征是一种基于像素的特征。常见的颜色特征表示方法包括颜色直方图,颜色矩等。颜色直方图是颜色特征中最常用到的特征,颜色直方图不关心像素的空间位置,主要用来描述像素在整幅图像中所占的比例。对于不同的颜色空间和坐标系,颜色直方图也不同,常用的颜色空间是RGB颜色空间。计算颜色直方图首先需要进行颜色量化(ColorQuantization)处理,将颜色空间划分成小的颜色区间,每个小区间是一个像素值,然后通过计算颜色在每个小区间内的像素数量得到颜色直方图。2.2卷积神经网络2.2.1卷积神经网络概述图像具有很强的空间相关性且图像的内容丰富多变,获取质量好的图像特征是图像处理中的关键环节,常用的手工提取特征方法具有较好的效果,且得到广泛的应用。但由于没有考虑到图像的空间相关性的特点,无法充分地表示图像语义信息。1998年LeCun等人[14]基于传统的人工神经网络基础提出卷积神经网络(CNN)LeNet-5,该卷积神经网络由一系列可学习的权值和偏重构成的。80年代末,反向传播算法(BackPropagation)[15]被提出,该网络是经典的前向多层神经网络,训练过程由正向传播和反向传播组成。正向传播过程中训练样本从输入层输入经神经网络从输出层输出,如果输出结果和期望值之差低于设定的阈值,那么终止该训练;如

网络结构图,网络结构,卷积核


14深的网络拓展性增强。由于VGG迁移到其它图片数据上的泛化能力强,目前很多计算机视觉任务都使用VGG来提取图像特征。VGG有两种结构,分别是VGG16和VGG19,相对于2012年的AlexNet[18],VGG采用连续的3x3小卷积核来代替AlexNet中较大的11×11,7×7与5×5大小的卷积核。通过堆叠两个3×3的卷积核,使得感受野与一个5×5的卷积核相当。由于采用堆积的小卷积核是由大卷积核分拆的,所以导致层数的增加,增加了网络的非线性能力,从而能让网络来学习更复杂的内容。VGG结构如图2.4所示,由卷积层、激活层、全连接层和softmax输出层构成。激活函数采用ReLU函数,使用最大池化进行下采样。VGG模型有结构简单、小卷积核、小池化核、通道数多、层数深和特征图更宽的特点。图2.4VGG网络结构(2)ResNetResNet[19]于2015年被提出,该网络的优点是结构简单并且效果好,因此之后的很多计算机视觉任务如检测、分割、识别等领域都是基于ResNet-50或者ResNet-101完成。随着网络的加深,会出现训练集准确率下降的现象。为了解决这个问题,何恺明等人提出了一种全新的网络,深度残差网络(ResNet),该网络可以尽可能的加深网络的深度。常用分类卷积网络在ImageNet[20]上的结果如表2.1所示。ResNet使用了一种连接方式叫做“shortcutconnection”,ResNet提出了两种方式,示意图如图2.5所示。


本文编号:3368508

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3368508.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46d5f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com