基于文本复制检测技术的核查比对系统的设计及实现

发布时间:2021-09-30 22:32
  当前,互联网的应用越来越广泛,为人们的工作、学习、娱乐、沟通交流提供多元化的便捷途径,各行各业的计算机办公化越来越普及,大量的文档中存在相似的信息。而对于我国特殊行业,文档的保密性受到巨大的威胁,如何实现文档的管理以及利用归档的文档快速的找到相似的内容,是本系统研究的重点。文档复制检测技术主要用于检测文本之间相似性及相似内容的重要技术,该技术从20世纪90年代发展至今,已经有很多技术能够实现针对中文文字内容的复制检测。本文以特殊行业的敏感文档作为资料库,面向大量互联网的电子邮件附件、文件传输附件、即时通信附件的数据环境,准确并且快速的检测出与敏感文档之间的相似关系,实现对敏感内容的违规泄密进行核查比对,为客户单位的文档鉴定提供重要的线索及依据。本文主要对敏感信息内容的资源管理及核查比对进行系统分析。根据客户单位的数据分析和业务分析设计,实现了敏感文档资料管理子系统和核查比对子系统,该系统的投入使用能够解决人工处理效率低出错率高等一系列问题,提高文档的检测准确度,为国家敏感信息保护乃至社会稳定的维护做出贡献。敏感文档资料管理子系统支持敏感样本文档的录入、校核、维护、下载、预览等功能;核查... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

基于文本复制检测技术的核查比对系统的设计及实现


资料库文档处理流程图

设计图,资料库,管理子系统,设计图


处置的流程化和标准化。4.1.3.1 资料库管理子系统用例设计如图 4-5 为资料库管理子系统用例设计图,资料库管理子系统包括的敏感样本的添加录入、过期维护、文档内容的校核,对资料库文档的分页查询展示、样本文件的下载等功能,在资料库管理子系统中所有敏感样本的添加需要在授权人员

设计图,设计图,子系统,数据存储


图 4-6 核查比对子系统用例设计图4.1.4 系统整体架构设计本系统的整体架构主要分为可视化展示层、数据处理层、接口层、数据存储层。数据存储层、接口层主要为数据处理层和可视化展示层提供应用服务,可视化展示层为用户的查询展示提供服务。系统整体架构如图 4-7 所示,数据存储层包括业务数据、敏感样本资料库、规则库、待测文档库、基本信息库等功能,主要收集待测文件(用户离线上传、通过第三方业务系统导入的文件数据,包括 office 系列文档、WPS 系列文档、rtf 文档、PDF、图像文件、压缩文件等)通过对不同格式类型的文件的处理得到半结构化的数据集,然后以任务队列的形式输出到数据处理,并将数据存储到数据库中;数据接口层包括文件访问下载接口、任务分发接口、数据检索接口,为数据处理和可视化展示提供合理高效的访问操作接口,满足数据处理层各应用程序对底层数据的访问需求,在应用与数据存储之间搭建一个多通路的桥梁,独立的接口层可根据应用的需求快速的对需求进行相应,修改、删除、添加接口即可实现;数


本文编号:3416757

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3416757.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d34b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com