电子文档敏感信息深度挖掘技术的研究
发布时间:2017-11-19 01:00
本文关键词:电子文档敏感信息深度挖掘技术的研究
更多相关文章: 敏感信息 NTFS文件系统 复合文档格式 PDF文档格式 AMP异构并行编程 多核处理器 并行搜索
【摘要】:随着信息化技术的快速发展,不管是敏感信息的存储、处理和传递方式,及存储敏感信息的介质等都发生了非常大的变化。首先,是敏感信息的存储方式,从单一纸质到携带方便的光盘、移动硬盘、U盘及笔记本电脑和台式主机等设备,都给敏感信息的携带、传播、复制等带来了方便,但是,随之带来的安全隐患也愈演愈烈;其次,法律制度的不完善,也给敏感信息的管理带来了管理监制方面的困难;还有大容量硬盘的不断出现,更增加了敏感信息检索的难度。针对以上问题,本文研究了电子文档敏感信息深度挖掘技术,文章不但从深度上提高敏感信息挖掘能力,也从速度上提高了敏感信息挖掘技术的效率。 首先,本文在“引言”中介绍了有关该课题的研究背景及意义,总结了关于该课题的国内外研究现状、存在的问题以及本文需要研究的内容等。 其次,本文通过分析现在非常流行的Windows系统下的NTFS文件系统格式,,直接从磁盘中读取文件信息,并归类到不同的文件类别里,为下章文本信息提取模块提供解析的文件信息。 接着,本文又分析了复合文档与PDF文档的格式,通过分析其格式,设计了文本信息内容提取算法,完成文本信息内容提取的过程,并将提取的内容按照不同的类型分类,为下章敏感信息的快速定位搜索提供文本内容。 最后,针对大容量磁盘给敏感信息挖掘技术带来的困难,本文利用多核处理器平台的处理性能,通过并行循环搜索模式和多线程并行搜索模式,提高了敏感信息的搜索速度。最后给出搜索模型,对并行循环搜索模式和多线程并行搜索模式的搜索速度进行了比较,效果明显,证明了本文算法设计的可行性及有效性。
【学位授予单位】:中原工学院
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333;TP391.1
【参考文献】
中国期刊全文数据库 前10条
1 魏宏安;陈忠辉;;电纸书PDF阅读器的设计与实现[J];福州大学学报(自然科学版);2012年06期
2 赵振洲;赵永峰;;Word文档结构分析及恢复[J];安徽电子信息职业技术学院学报;2013年01期
3 付杰;李升;;NTFS文件系统的根目录INDX文件结构[J];佳木斯大学学报(自然科学版);2009年01期
4 梁金千,张跃;NTFS文件系统的主要数据结构[J];计算机工程与应用;2003年08期
5 钟尚平;陈铁睿;;基于PDF文档作为掩体的信息隐写方法[J];计算机工程;2006年03期
6 高龙;贾宏;周俭;;基于网格技术的并行搜索引擎[J];计算机工程;2009年06期
7 贾广微;牛铭晨;时英华;万发仁;;硬盘数据恢复方法及建议[J];农业网络信息;2011年09期
8 陈慧中;陈永光;景宁;陈荦;;PCPF:一种面向多媒体数据库中高维向量匹配的并行索引结构[J];计算机学报;2011年10期
9 李珍,田学东;PDF文件信息的抽取与分析[J];计算机应用;2003年12期
10 张秀秀;张立峰;;PDF文件文本内容提取研究[J];科技情报开发与经济;2008年36期
本文编号:1201733
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1201733.html