Maldetect:基于Dalvik指令抽象的Android恶意代码检测系统

发布时间：2019-08-17 09:17

【摘要】：提出了一个Android恶意代码的静态检测系统Maldetect,首先采用逆向工程将DEX文件转化为Dalvik指令并对其进行简化抽象,再将抽象后的指令序列进行N-Gram编码作为样本训练,最后利用机器学习算法创建分类检测模型,并通过对分类算法与N-Gram序列的组合分析,提出了基于3-Gram和随机森林的优选检测方法.通过4 000个Android恶意应用样本与专业反毒软件进行的检测对比实验,表明Maldetect可更有效地进行Android恶意代码检测与分类,且获得较高的检测率.
【图文】：

模型训练,检测模型,分类模型,文件

检测模型和恶意家族分类模型的测试，如图２所示：Ｆｉｇ．１Ｔｈｅｄｅｔｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ．图１恶意代码的检测与分类模型训练Ｆｉｇ．２Ｔｈｅｐｒｏｃｅｓｓｏｆｐｒｅｄｉｃｔｉｎｇｍａｌｗａｒｅ．图２恶意代码的检测与分类过程首先，需要确定训练恶意代码检测模型的训练集．训练集分为２个子集：１）恶意ＡＰＫ样本集合；２）非恶意样本ＡＰＫ集合．ＡＰＫ文件格式通常都包含一个ｃｌａｓｓｅｓ．ｄｅｘ文件，该ＤＥＸ（Ｄａｌｖｉｋｅｘｅｃｕｔａｂｌｅｆｏｒｍａｔ）文件封装了可被Ｄａｌｖｉｋ虚拟机执行的Ｄａｌｖｉｋ字节码．利用工具Ａｐｋｔｏｏｌ［１３］反汇编ＡＰＫ文件，就能得到一个包含ｓｍａｌｉ源码的文件目录，ｓｍａｌｉ目录结构对应着Ｊａｖａ源码的ｓｒｃ目录．ｓｍａｌｉ是对Ｄａｌｖｉｋ字节码的一种解释，所有语句都遵循一套标准的语法规范．从ｓｍａｌｉ文件中提取出Ｄａｌｖｉｋ操作码并进行抽象简化为指令符号，再针对抽象的Ｄａｌｖｉｋ指令符号的Ｎ－Ｇｒａｍ序列特征进行统计与归一化处理，最后采用机器学习的分类算法建立恶意代码检测模型．同理，按照恶意家族的类型划分多个训练子集，按照上述类似的处理过程，，可建立一个恶意家族分类模型．利用模型检测与分类时，将待测ＡＰＫ文件先进行预处理步骤，提取出Ｄａｌｖｉｋ指令特征并作同样的抽象简化与Ｎ－Ｇｒａｍ序列化处理，再通过恶意代码检测模型的检测，就可判断出是否为恶意代码，如果不是就直接给出检测结果，如果是则需要进一步通过恶意家族分类模型来获得该恶意代

对比图,样本数量,对比图,森林

值仅高出了２％，而４－Ｇｒａｍ序列的随机森林算法ＦＰＲ值比３－Ｇｒａｍ序列的随机森林算法ＦＰＲ值却高出了３０％．综合分析，３－Ｇｒａｍ序列的随机森林算法是一种较优的方法．接下来，分析样本数量对准确性的影响．除了上述实验的６００个样本作为小样本集合，再增加一个１１００个样本作为大样本集合作为对比实验，按３－Ｇｒａｍ的随机森林算法，采用１０折交叉验证对它们进行测试．实验结果如表７和图３所示，不难看出，大样本集的所有评估指标都要优于小样本集，这表明样本数量大小对检测效果有一定的影响，训练样本数量越大则综合表现越优．Ｔａｂｌｅ７ＴｈｅＲｅｓｕｌｔｓｗｉｔｈＤｉｆｆｅｒｅｎｔＳｉｚｅｏｆＳａｍｐｌｅｓ表７样本数量对比的结果ＳａｍｐｌｅＳｉｚｅＴＰＲＦＰＲＰｒｅｃｉｓｉｏｎＡＵＣ６００ｓａｍｐｌｅｓ０．９５６０．０８６０．９０８０．９８２１１００ｓａｍｐｌｅｓ０．９８００．０７９０．９１７０．９９２Ｆｉｇ．３ＲＯＣｃｕｒｖｅｓｗｉｔｈｄｉｆｆｅｒｅｎｔｓｉｚｅｏｆｓａｍｐｌｅｓ．图３不同样本数量的ＲＯＣ曲线对比图３．３ＭａｌｄｅｔｅｃｔＶＳ专业反病毒软件根据３．２节的实验结果，以实验效果较优的３－Ｇｒａｍ序列的随机森林算法作为基础，通过计算信息增益来选取２００个区分度最高的特征作为特征选择方法，我们实现了一个Ａｎｄｒｏｉｄ恶意代码检测系统Ｍａｌｄｅｔｅｃｔ．本节实验我们分别在２０００个样本和４０００个样本的２个数据集上进行实验，并按照６０％数据作为Ｍａｌｄｅｔｅｃｔ的训练样本库，４０％数据作为测试样本库
【作者单位】：浙江工业大学计算机科学与技术学院;
【基金】：国家自然科学基金项目(U1509214) 浙江省自然科学基金项目(LY16F020035)~~
【分类号】：TP309;TP316

【相似文献】