文件碎片识别和重组技术的研究与应用
发布时间:2017-09-29 08:30
本文关键词:文件碎片识别和重组技术的研究与应用
【摘要】:随着科学技术和信息时代的发展,数据的重要性日益突出,人们更加依赖于计算机和智能系统设备,这无疑给人们的工作和生活带来了巨大方便。传统数据恢复技术能够恢复人为误删等数据,但是当文件系统损坏或文件系统元数据信息损坏、丢失时,传统数据恢复技术无法恢复数据,造成无法估计的损失。而文件雕复技术不依赖于原始磁盘镜像的文件系统,它从表面上无结构的二进制数据流(即原始磁盘镜像)中恢复数据,它克服了传统数据恢复技术在文件系统损坏或元数据损坏以及文件在磁盘上不连续存放而形成碎片等无法恢复的情况,因此受到了极大的关注。本文通过对文件雕复技术进行研究,基于信息熵、字节频率分布和字节平均值三种特征提取算法,并结合支持向量机作为分类器来分类文件碎片,并使用基于磁盘簇逻辑顺序的重组算法或基于数据文件性质的重组算法对文件碎片进行重组,提出了一种对多种文件类型有效的文件雕复算法,并通过恢复Word文档和JPEG图像进行验证。主要工作如下:首先,提出一种基于内容特征的文件碎片分类算法。该算法利用信息熵原理,计算目标类型文件的熵值范围,通过熵值特征提取算法提取出目标类型文件碎片的集合。之后在二类分类的基础上,采用1-gram的方法,利用字节频率分布和字节平均值两个特征,并结合基于支持向量机的监督学习算法对熵值提取出的碎片集合进一步分类。其次,设计三组仿真实验对基于内容特征的文件碎片分类算法进行验证,实验结果表明该算法的可行性和有效性。然后,提出一种基于内容特征的文件雕复算法。该算法是在基于内容特征的文件碎片分类算法基础上,对已完成分类的目标类型文件碎片,采用基于磁盘簇逻辑顺序的重组算法或基于数据文件性质的重组算法对目标类型文件碎片进行重组,确定同一文件碎片间正确的拼接关系,恢复其文件。最后,为了验证该算法的可行性,选取DFRW 2006发布的磁盘镜像作为实验数据,对Word文档和JPEG图像进行恢复。通过设计详细的实验步骤,并将实验结果与Foremost和PhotoRec两种工具的雕复结果进行对比,结果表明该算法能够从无结构的磁盘镜像中恢复文件,并证明了该算法的可行性和有效性。
【关键词】:数据恢复 文件雕复 文件碎片 内容特征
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP309.3
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-18
- 1.1 研究背景10-12
- 1.2 问题的提出12
- 1.3 国内外研究现状12-15
- 1.4 研究目的和意义15
- 1.5 研究内容15-16
- 1.6 论文组织结构16-18
- 第2章 相关理论与技术概述18-32
- 2.1 FAT32文件系统18-20
- 2.1.1 FAT32的文件分配18-19
- 2.1.2 FAT32的文件删除19
- 2.1.3 FAT32的文件恢复19-20
- 2.2 文件碎片20-22
- 2.2.1 碎片产生的原因20-22
- 2.2.2 碎片模型22
- 2.3 文件雕复技术概述22-28
- 2.3.1 基于文件头/文件尾雕复方法23-24
- 2.3.2 基于文件头/最大长度雕复方法24
- 2.3.3 基于映射函数雕复方法24-25
- 2.3.4 二分片差距雕复方法25
- 2.3.5 基于文件结构雕复方法25-26
- 2.3.6 基于内容特征雕复方法26
- 2.3.7 基于语义雕复方法26
- 2.3.8 基于图论雕复方法26-27
- 2.3.9 Smart雕复方法27-28
- 2.4 模式识别28-30
- 2.4.1 模式识别的应用28-29
- 2.4.2 模式识别系统29-30
- 2.4.3 模式识别方法30
- 2.5 本章小结30-32
- 第3章 基于内容特征的文件碎片分类算法32-40
- 3.1 文件碎片分类的相关研究32
- 3.2 文件碎片分类算法框架32-34
- 3.3 文件碎片分类34-39
- 3.3.1 支持向量机34-36
- 3.3.2 特征提取算法36-37
- 3.3.3 训练过程和分类过程37-38
- 3.3.4 分类结果评估38-39
- 3.4 本章小结39-40
- 第4章 文件碎片分类实验与分析40-54
- 4.1 数据集40-41
- 4.2 实验设计41-45
- 4.2.1 熵值提取41
- 4.2.2 高熵类型文件碎片分类41-43
- 4.2.3 本文的文件碎片分类算法43-45
- 4.2.4 验证实验45
- 4.3 实验结果与分析45-52
- 4.3.1 熵值特征提取算法45-47
- 4.3.2 高熵文件碎片分类算法47-49
- 4.3.3 本文的文件碎片分类算法49-51
- 4.3.4 实验结果对比51-52
- 4.4 本章小结52-54
- 第5章 基于内容特征的文件雕复实现54-72
- 5.1 文件碎片重组技术54-58
- 5.1.1 基于磁盘簇逻辑顺序的重组算法54-56
- 5.1.2 基于数据文件性质的重组算法56-58
- 5.2 基于内容特征的文件雕复算法58-61
- 5.2.1 文件雕复算法思想58-59
- 5.2.2 文件雕复算法流程59-61
- 5.3 实验设计61-64
- 5.3.1 数据集61-62
- 5.3.2 MD5校验62
- 5.3.3 病毒扫描62
- 5.3.4 雕复过程62-64
- 5.3.5 验证实验64
- 5.4 实验结果与分析64-70
- 5.4.1 雕复结果比较与分析64-68
- 5.4.2 雕复结果展示68-70
- 5.5 本章小结70-72
- 结论72-74
- 参考文献74-78
- 攻读硕士学位期间取得的研究成果78-80
- 致谢80
【相似文献】
中国期刊全文数据库 前7条
1 俞伟燕;;轻松处理文件碎片[J];信息与电脑(理论版);2010年01期
2 江万;问&答[J];电子与电脑;1995年04期
3 ;困扰服务器性能的文件碎片[J];电子商务;2009年05期
4 平心;;有效优化Linux防文件碎片降低硬盘性能[J];网络与信息;2009年12期
5 李艳红;;“智斗”Windows XP(5)——数据整队总动员[J];少年电脑世界;2010年06期
6 徐明;黄立;张海平;徐建;郑宁;;头部缺失的JPEG文件碎片恢复[J];中国图象图形学报;2013年01期
7 ;[J];;年期
中国硕士学位论文全文数据库 前1条
1 郭军;文件碎片识别和重组技术的研究与应用[D];北京工业大学;2016年
,本文编号:940984
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/940984.html