当前位置:主页 > 科技论文 > 软件论文 >

基于机器学习的可视化恶意代码分类技术研究

发布时间:2021-01-02 09:08
  近年,随着网络技术的发展和普及,全球政治、经济、文化、社会、生态、国防等领域与互联网全面融合,但同时网络空间要面临的攻击入侵变得越来越频繁。传统的恶意代码分析方法更侧重于分析恶意代码内部函数调用逻辑关系或操作码序列中的语义信息,用于恶意代码分类、检测,这种方法需要耗费大量的人力,且对分析人员的专业水平要求较高;而伴随着人工智能技术在其他领域的应用、发展、成熟,探索机器学习方法在网络安全领域的应用是一个十分重要的研究课题。本文采用代码可视化技术将恶意代码样本以灰度图的形式展现,在此基础上提出一种基于改进的迁移Faster-rcnn网络的恶意代码分类方法,该方法利用Faster-rcnn网络中的卷积神经网络提取恶意代码图像的全局特征,相较采用LBP算法和Gist算法提取局部纹理特征的方法而言能提取出更深层次的特征;采用迁移学习这种机器学习方法将预训练好的网络模型中表征通用特征的低层参数直接迁移到恶意代码分类模型中,微调集中贡献于目标数据集的高层网络参数,加快恶意代码分类模型训练时的收敛速度;并构建新的目标函数,解决RPN网络生成恶意代码图像text节候选建议框时回归误差大导致分类占比不高的... 

【文章来源】:沈阳理工大学辽宁省

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于机器学习的可视化恶意代码分类技术研究


传统恶意代码分析方法

序列,文件,信息,静态分析


沈阳理工大学硕士学位论文-12-码的API调用信息,可以使用简单的静态分析工具,通过简单的统计分析方法统计敏感API函数调用信息;还可以通过静态反汇编恶意代码得到PE格式的反汇编文件,从.asm反汇编文件中提取静态API调用信息,运用数据挖据的技术提取API调用序列和频率。这些信息可以反映出程序在运行过程可能会用到的windowsAPI端口。但是恶意代码生存技术的运用会导致加壳加密后的恶意代码能够通过静态分析手段提取出的API信息较少。方法二是通过动态执行文件来获得API调用信息。这些API调用信息实际是指windows提供的实现系统特定功能的函数接口信息,它能够反映程序在运行过程中执行了哪些操作,比如更改文件权限、建立网络连接、发送信息等操作;由于攻击者调用Win32API函数来实现这些操作的成本比直接使用系统调用的成本要低,因此通过动态方法获取的API调用信息是用于恶意代码分类检测的一种较好的特征。2.2.3ASM文件ASM文件指通过IDAPro反汇编样本生成的反汇编文件,如图2.2所示,静态分析方法提取的恶意代码特征有部分是从ASM文件中可以提取到的,比如:静态的API调用信息、Opcode序列、符号特征等,还可以将asm文件可视化处理,提取其中的纹理特征。M.Ahmadi等人在其论文中提出将asm文件中的“—、+、*、[、]、?、@”这七个特殊符号的频率作为一类特征,即符号特征,对恶意代码进行分类检测,分类的准确率达到了98.15%[39]。图2.2反汇编得到的恶意代码的ASM文件Fig.2.2DisassembledASMfileofmaliciouscode

序列,二进制文件,操作码


第2章恶意代码分类技术研究-13-Opcode是指ASM文件中的操作码,操作码是由操作符和操作数组成的,是描述机器语言的指令,每条指令使用操作码告诉计算机系统程序执行什么操作,由于操作数经常是变量、数值或地址等不固定的信息,大多数研究都只是提取其中的操作符序列作为软件控制流的语义信息,操作符在恶意代码中出现的频率、位置和顺序都可能反应程序的功能特点。我们可以提取Opcode的n-gram特征作为恶意代码的一种特征[43],文献[15]中比较了几种固定长度的Opcoden-gram序列作为特征的检测结果,能够获得超过98%的恶意软件准确率。将asm文件进行可视化处理类似于将恶意代码的二进制文件映射成对应的灰度图像,它是通过将asm文件中操作码对应的ASCII码转换成二进制数值,再将二进制向量划分为8位一个字节的二进制数组,一组的取值范围为0-255,正好匹配灰度图的像素值,设定宽度,将字节向量转换成二维矩阵,可视化成对应的灰度图得到Asm-image,提取其中的纹理特征。2.2.4二进制文件恶意代码在计算机中的存放和执行方式都是以二进制文件的形式,从二进制文件中提取的特征都是原始的机器码特征。二进制文件的字节取值范围为0x00~0xFF,查看该文件时通常以十六进制的格式呈现。如图2.3所示。图2.3反汇编得到的恶意代码二进制文件Fig.2.3Thedisassembledmaliciouscodebinaryfile

【参考文献】:
期刊论文
[1]信息密度增强的恶意代码可视化与自动分类方法[J]. 刘亚姝,王志海,侯跃然,严寒冰.  清华大学学报(自然科学版). 2019(01)
[2]基于特征融合的恶意代码分类研究[J]. 张景莲,彭艳兵.  计算机工程. 2019(08)
[3]一种基于多特征的恶意代码家族静态标注方法[J]. 刘亮,刘露平,何帅,刘嘉勇.  信息安全研究. 2018(04)
[4]基于纹理特征的恶意代码检测方法测试[J]. 汪应龙,黄祖源,刘爱莲,李川.  移动通信. 2017(13)
[5]基于数据挖掘的恶意代码检测综述[J]. 黄海新,张路,邓丽.  计算机科学. 2016(07)
[6]恶意代码同源性分析及家族聚类[J]. 钱雨村,彭国军,王滢,梁玉.  计算机工程与应用. 2015(18)
[7]基于纹理指纹的恶意代码变种检测方法研究[J]. 韩晓光,曲武,姚宣霞,郭长友,周芳.  通信学报. 2014(08)
[8]基于特征码病毒扫描技术的研究[J]. 关欣,朱冰,陈震,彭雪海.  信息网络安全. 2013(04)
[9]基于行为依赖特征的恶意代码相似性比较方法[J]. 杨轶,苏璞睿,应凌云,冯登国.  软件学报. 2011(10)

博士论文
[1]恶意代码检测关键技术研究[D]. 韩晓光.北京科技大学 2015

硕士论文
[1]基于特征融合的恶意代码多任务分类技术和恶意代码威胁性评估方法研究[D]. 师炜.战略支援部队信息工程大学 2018



本文编号:2953080

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2953080.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70b60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com