当前位置:主页 > 科技论文 > 网络通信论文 >

基于机器学习的密码体制识别研究

发布时间:2020-05-15 02:14
【摘要】:近年来,互联网所产生的数据量飞速增长。海量数据对于数据分析者是巨大的潜在资源,但是网络数据通常种类繁多、结构复杂,其中包含大量密数据,这些因素对研究者构成了挑战。密码体制识别是密数据分析的前提,属于密码分析学中区分攻击的范畴,具有重要的理论意义与应用价值。本文围绕密文特征提取、密码体制识别的分类器构建,开展了机器学习技术在密码体制识别中的应用研究,论文主要内容和创新点如下:1.密码体制识别的效果在实际应用中通常受到多种条件制约,对可能影响识别效果的因素的探究,将有助于后续更好地开展密码体制识别任务。为此采集14种密文特征并基于支持向量机算法构建了密码体制识别分类器,针对AES、Blowfish、Camellia、DES和IDEA等5种分组密码体制开展密码体制识别实验中,对密文特征、密钥设置、不同文件大小等对于识别性能的影响进行了分析,选择误报率、精确率和召回率等指标分析评价了密码体制的识别情况,初步尝试了基于随机性测试的密文特征在密码体制识别中的应用。2.受随机性测试在密码体制识别中的应用启发,首次基于NIST测试集中的15种随机性测试提出了54种基于随机性测试的新密文特征,并在由随机森林算法构成的分类器中广泛开展了分类训练和测试。分别完成了针对明密文数据的区分、分组密码工作模式的区分以及针对AES、DES、3DES、IDEA、Blowfish和Camellia等6种分组密码体制的区分实验,实验结果进一步证实了基于随机性测试特征在密码体制识别中的有效性,通过对比分析挖掘出多种性质优良的密文特征。3.基于9种典型的机器学习算法构建了密码体制识别分类器,针对AES、DES、IDEA、Blowfish、SMS4、Camellia等5种分组密码算法的密文进行了两两识别,并对各种分类器区分密文的能力进行了比较和分析。为提高密码体制分类器的识别效率,分别采用降维算法和并行优化方法对3种分类器进行优化。实验结果显示基于t-SNE的特征降维技术能够将Adaboosting和Bagging这两类决策树的运行时间减少61%以上,并行化执行随机森林算法的运行时间减少58%以上。4.针对Grain-128密码体制与AES、DES、IDEA、Blowfish、SMS4、Camellia、Trivium、Sosemanuk、Salsa、Dragon和RC4等11种对称密码体制开展了两两识别的实验,实验结果显示出Grain-128与其它密码体制的加密密文之间存在能够被区分的差异,且比较了各类特征对于Grain-128的识别性能,对部分高维特征进行了降维优化,在保持识别准确率稳定的情况下,将特征的数据存储量降至原先的1/8,分类算法的运行时间只需原先的1/18。
【图文】:

序列,卡方分布,分位点,随机性


图 4.1 卡方分布的概率密度曲线及其 α 分位点alue 法,2 分布的概率密度曲线同上图 4.1,计算统计量 X,再分,将积分结果(即 P-value 值,图中的阴影部分面积)与 α 进原假设。NIST 随机性测试正是通过构造的各种测试统计量来计将 P-value 值作为判断是否接受原假设的依据。如果 P-value 机的,值为 0 则是完全非随机的。给定显著性水平 α,对于介于,如果P value ,则认为序列是随机的,反之序列是非随误类型 1 的概率,通常 α 的取值范围是[0.001,0.01]。机性测试的密文特征提取方法2 中对随机性测试的介绍中也可以了解到,NIST 随机性测试对于较广泛的覆盖面,对于序列的全局或部分的随机性均有针对性的性测试返回值有意义的前提下,对密文进行分块或改变部分测试 NIST 随机性测试,得到了密数据集数量不等的测试返回值(的特征数据。

准确率,随机性,场景,密文


图 4.2 54 种基于随机性测试特征在各识别场景下的识别准确率箱式图结合表 4.6 和图 4.2,可以发现,上述 54 种密文特征的识别结果虽然存在较大差异但总体上,,多数特征能以高于是随机的识别成功率区分两种密码体制,且部分特征具有较高的识别准确率。这说明基于随机性测试返回值所构造的密文特征对于密文确实具有一定的区分作用。在图 4.2 和表 4.6 中,随着维数增大,Aet 系列特征的识别准确率波动幅度也在增大,Bf 系列、Cus 系列、Fre 系列、Run 系列、Us 系列、Rev 系列和 Re 系列特征的识别准确率随着维数增大而提高,Dft 系列、Nt 系列特征识别准确率与维数的关系不明显,Rt 系列特征的识别准确率随着维数增大呈现出下降趋势。总体来看,基于随机性测试的密文特征维数与其识别准确率并没有必然的关系。不同密码体制加密的密文其随机性存在差异,如果随机性测试可以反映出这种差异,其对应密文特征的识别准确率就会高。在提取密文特征时,密文分块数、密文数据量等因素显然对于随机性测试返回值的准确性(即反映密文随机性水平的能力)有一定影响,这种影响既可能是正向的也可能是反向的,其具体地作用机理有待进一步研究。在对各密文特征在具体识别场景中的识别性能时,也发现部分特征的识别成功率与所识别的密码体制存在明显的相关性关系。如下表4.7,Bf系列特征对于区分3DES、IDEA
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN918.1;TP181

【参考文献】

相关期刊论文 前6条

1 吴杨;王韬;李进东;;分组密码算法密文的统计检测新方法研究[J];军械工程学院学报;2015年03期

2 吴杨;王韬;邢萌;李进东;;基于密文随机性度量值分布特征的分组密码算法识别方案[J];通信学报;2015年04期

3 蓝欣儿;;心有“灵犀”一点通——大话灵犀语音助手[J];少年电脑世界;2013年09期

4 吴喜之;;统计学:从数据到结论(第四版)[J];中国统计;2013年06期

5 侯树范;孙英娟;;机器学习的研究[J];长春师范学院学报;2012年06期

6 荆霞;张金城;黄作明;;基于数据挖掘的审计数据分析[J];中国管理信息化;2011年17期

相关博士学位论文 前2条

1 刘飚;基于机器学习的密码芯片电磁攻击技术研究[D];北京邮电大学;2014年

2 张海纳;eSTREAM序列密码候选算法的安全性分析[D];山东大学;2009年



本文编号:2664308

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2664308.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f62c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com