基于深度学习的数字取证中文件碎片类型检测算法研究
发布时间:2020-10-30 12:45
数字取证是信息安全领域的重要研究内容之一,并广泛应用于刑侦取证和司法取证等领域。在刑侦取证领域中,需要提取嫌疑人的各类图片、音频、文字等数字化的文件用于对嫌疑人的犯罪事实的判别。然而刑侦取证和司法取证过程中的数字信息往往是不完整或者被恶意损坏的,高效的雕复这些文件的重要前提就是正确地检测文件碎片类型。提高文件碎片检测准确率,进而就能提高文件雕复的速度,从而优化数字取证的过程。然而,数字取证中文件碎片类型检测算法的研究,存在两个主要难点问题,其一是由于嫌疑人的恶意破坏或篡改,使得原始文件常常丢失文件元信息,使文件碎片类型检测的准确率降低;其二是压缩或者复合的高熵文件类型具有高度相似的统计学特征,使类型检测难度加大。本文针对上述两个难点问题,提出了基于深度学习的数字取证中文件碎片类型检测算法。传统的机器学习,通过人工提取N-Gram,香农熵或汉明权重等特征来实现文件碎片类型检测。由于这些方法在特征提取中更偏向于统计学特征,对结构特征考虑较少,故其文件碎片类型检测中的准确率并不高。本文首先对公共数据集进行去除文件元信息的预处理,使原始数据集的类型检测更具有挑战性,并复现了基于人工特征提取与支持向量机相结合的算法对文件碎片进行类型检测。随后提出了一种基于文件碎片灰度图像转换和深度学习的新方法,将二进制数据映射到图像空间中为了提取更多的隐藏特征,从而提高分类的准确性。受益于多层特征映射的优越,我们的卷积神经网络结构可通过神经元之间的非线性连接提取近十万个特征。本文将提出的基于数字图像灰度转化和深度学习的文件碎片类型检测算法在公共数据集Gov Docs上进行了训练和测试,最终取得了良好的实验结果。
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.41;D918
【部分图文】:
在本文的 2.4.1 小节中,就 N-gram 与 Unigram,Bigram 进行过详细介绍,故本章不进行重复介绍。由于本文中 Unigram 含有82 = 256个特征,Bigram 含有162 = 655536 个特征,如果继续加入 Trigram 会使特征向量过于稀疏,故本文提取 Unigram+Bigram 的特征向量作为支持向量机学习的特征值,如图 3-2 所示,“FF”即为 Unigram,而“0B 0D”为 Bigram。
不同核函数不同数据集数量的准确率
不同核函数不同数据集时间对比图
【参考文献】
本文编号:2862494
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.41;D918
【部分图文】:
在本文的 2.4.1 小节中,就 N-gram 与 Unigram,Bigram 进行过详细介绍,故本章不进行重复介绍。由于本文中 Unigram 含有82 = 256个特征,Bigram 含有162 = 655536 个特征,如果继续加入 Trigram 会使特征向量过于稀疏,故本文提取 Unigram+Bigram 的特征向量作为支持向量机学习的特征值,如图 3-2 所示,“FF”即为 Unigram,而“0B 0D”为 Bigram。
不同核函数不同数据集数量的准确率
不同核函数不同数据集时间对比图
【参考文献】
相关期刊论文 前2条
1 曹鼎;罗军勇;;改进的基于内容的文件类型识别算法[J];计算机工程与设计;2011年12期
2 曹鼎;罗军勇;尹美娟;;基于变长元组的文件类型识别算法[J];计算机应用;2011年07期
本文编号:2862494
本文链接:https://www.wllwen.com/shekelunwen/gongan/2862494.html