基于图像识别的敏感文件检测技术研究
发布时间:2021-11-11 21:41
在数字化技术迅猛发展的今天,一些涉及企业与政府的敏感信息文件经常因为窃泄密等原因在网络上出现,这些文件的泄露往往会给政府或企业带来重大的负面影响,因此如何发现这些敏感文件已经成为当前信息安全领域的热点课题之一。传统的敏感文件检测大部分是通过特定的关键字匹配来实现的(比如保密、机密、绝密等关键字),但中文是一种重“意合”,轻形式的文字,语句歧义现象非常普遍,对于存在语义歧义的时候,基于关键字匹配的敏感文件检测,存在检测精度差,以及后续关键词扩充繁琐的特点,同时由于很多泄露的文件往往是先拍照再在网络上传输,此时基于关键字匹配的检测方法就完全失效了。本文针对互联网上拍照泄露敏感信息文件的常见情况,首先设计了一个高效判断是否是中文文本图像文件的算法,然后在此基础上采用OCR处理实现文字提取,最后通过基于深度学习技术对文本语料样本库进行训练而建成的模型实现检测。本文的主要工作概括如下:(1)提出一种基于改进的笔画宽度中文文本图像检测算法(SWT)。利用文本笔画宽度较为固定的特征,首先通过canny算子对图像进行边缘检测提取边缘检测图。其次,在文字边缘像素点上寻找符合笔画宽度方向阈值上的边缘像素点...
【文章来源】:浙江理工大学浙江省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
百度OCR识别效果图
(a)红头文件 (b)OCR 识别图 2.2 阿里 OCR 识别效果图2.1.3 腾讯 OCR 识别腾讯通用文字识别 API 采用 HTTP 协议,POST 方式调用,返回 JSON 格式的图像文本识别内容,支持本地图像与 URL 地址图像的文本识别,API 接口采用免费+收费的方式,免费方式为前一个月免费,额度 1000 张/月,收费方式采用预付费与后付费两种方式,相关收费信息如下表 2.3 所示:表 2.3 腾讯通用文字识别预付费价格说明资源包规格 1000 次 1 万次 10 万次 100 万次 1000 万次身份证 120 元 800 元 5,000 元 30,000 元 200,000 元名片 120 元 800 元 5,000 元 30,000 元 200,000 元驾驶证 120 元 800 元 5,000 元 30,000 元 200,000 元银行卡 120 元 800 元 5,000 元 30,000 元 200,000 元
(a)红头文件 (b)OCR 识别图 2.3 腾讯 OCR 识别效果图2.2 Tesseract-ocr 开源系统文字识别Tesseract[25]作为一款著名的开源 OCR 软件,从 1985 由惠普实验室投资开发,1996 年被移植到 Windows 平台,两年后对其进行了 C++版本化,2005 年惠普开源了 Tesseract 源码,2006 年开始由谷歌负责 Tesseract 的后续开发维护,从 2011 年发布的 Tesseract 引擎 3.0版本开始,支持中文的检测,到 2018 年 10 月末发布的支持长短期记忆神经网络(LSTM)[26]训练的 4.0 版本,经过了 30 多年的发展,Tesseract 开源系统从无到有,到后来支持世界 100 多种语言(包括中文),30 多年间 OCR 技术得到了较为迅速的发展,图 2.4 显示了Tesseract-ocr 从 1985 年到 2018 年这 30 多年来的主要发展历程:
【参考文献】:
期刊论文
[1]自然场景图像中的中文文本检测算法[J]. 缪裕青,刘水清,张万桢,欧威健,蔡国永. 计算机工程与设计. 2018(03)
[2]多方向自然场景文本检测[J]. 何思楠,郭永金,张利. 计算机应用研究. 2018(07)
[3]印刷体汉字识别处理技术综述[J]. 柴晨阳. 计算机光盘软件与应用. 2014(24)
[4]我国红头文件现状分析[J]. 李秀勤. 合作经济与科技. 2010(11)
[5]自然场景文本定位[J]. 欧文武,朱军民,刘昌平. 中文信息学报. 2004(05)
[6]文本分类技术研究[J]. 高洁,吉根林. 计算机应用研究. 2004(07)
硕士论文
[1]红头文件检测关键技术研究[D]. 王昌杰.浙江理工大学 2018
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
[3]违规外联敏感文件的全文检索及识别[D]. 许琦.北京交通大学 2014
[4]基于内容的敏感图像识别技术研究[D]. 刘毅.北京工业大学 2013
[5]基于依存句法的信息敏感度研究[D]. 王超.广西大学 2013
[6]基于高层语义特征的图像检索关键技术研究[D]. 王继宗.吉林大学 2013
[7]基于语义的中文文本预处理研究[D]. 张宁.西安电子科技大学 2011
本文编号:3489577
【文章来源】:浙江理工大学浙江省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
百度OCR识别效果图
(a)红头文件 (b)OCR 识别图 2.2 阿里 OCR 识别效果图2.1.3 腾讯 OCR 识别腾讯通用文字识别 API 采用 HTTP 协议,POST 方式调用,返回 JSON 格式的图像文本识别内容,支持本地图像与 URL 地址图像的文本识别,API 接口采用免费+收费的方式,免费方式为前一个月免费,额度 1000 张/月,收费方式采用预付费与后付费两种方式,相关收费信息如下表 2.3 所示:表 2.3 腾讯通用文字识别预付费价格说明资源包规格 1000 次 1 万次 10 万次 100 万次 1000 万次身份证 120 元 800 元 5,000 元 30,000 元 200,000 元名片 120 元 800 元 5,000 元 30,000 元 200,000 元驾驶证 120 元 800 元 5,000 元 30,000 元 200,000 元银行卡 120 元 800 元 5,000 元 30,000 元 200,000 元
(a)红头文件 (b)OCR 识别图 2.3 腾讯 OCR 识别效果图2.2 Tesseract-ocr 开源系统文字识别Tesseract[25]作为一款著名的开源 OCR 软件,从 1985 由惠普实验室投资开发,1996 年被移植到 Windows 平台,两年后对其进行了 C++版本化,2005 年惠普开源了 Tesseract 源码,2006 年开始由谷歌负责 Tesseract 的后续开发维护,从 2011 年发布的 Tesseract 引擎 3.0版本开始,支持中文的检测,到 2018 年 10 月末发布的支持长短期记忆神经网络(LSTM)[26]训练的 4.0 版本,经过了 30 多年的发展,Tesseract 开源系统从无到有,到后来支持世界 100 多种语言(包括中文),30 多年间 OCR 技术得到了较为迅速的发展,图 2.4 显示了Tesseract-ocr 从 1985 年到 2018 年这 30 多年来的主要发展历程:
【参考文献】:
期刊论文
[1]自然场景图像中的中文文本检测算法[J]. 缪裕青,刘水清,张万桢,欧威健,蔡国永. 计算机工程与设计. 2018(03)
[2]多方向自然场景文本检测[J]. 何思楠,郭永金,张利. 计算机应用研究. 2018(07)
[3]印刷体汉字识别处理技术综述[J]. 柴晨阳. 计算机光盘软件与应用. 2014(24)
[4]我国红头文件现状分析[J]. 李秀勤. 合作经济与科技. 2010(11)
[5]自然场景文本定位[J]. 欧文武,朱军民,刘昌平. 中文信息学报. 2004(05)
[6]文本分类技术研究[J]. 高洁,吉根林. 计算机应用研究. 2004(07)
硕士论文
[1]红头文件检测关键技术研究[D]. 王昌杰.浙江理工大学 2018
[2]基于文本语义相似度的计算机辅助定密系统研究与实现[D]. 连婧.北京交通大学 2016
[3]违规外联敏感文件的全文检索及识别[D]. 许琦.北京交通大学 2014
[4]基于内容的敏感图像识别技术研究[D]. 刘毅.北京工业大学 2013
[5]基于依存句法的信息敏感度研究[D]. 王超.广西大学 2013
[6]基于高层语义特征的图像检索关键技术研究[D]. 王继宗.吉林大学 2013
[7]基于语义的中文文本预处理研究[D]. 张宁.西安电子科技大学 2011
本文编号:3489577
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3489577.html