当前位置:主页 > 管理论文 > 移动网络论文 >

基于JavaScript的恶意网页异常检测方法研究

发布时间:2020-08-23 11:54
【摘要】:当前,基于Web的服务和应用已经广泛普及,每天都会有大量的用户访问Web页面,Web客户端安全也由此变得非常重要。作为Web前端开发事实上的标准语言,JavaScript既为用户提供了丰富便利的服务,也为用户终端带来了很多安全风险。若是Web客户端应用程序存在用户不曾预知的漏洞,或者不知情用户在访问恶意页面后操作不当,恶意网页中的JavaScript代码就会严重威胁客户端安全。互联网上时刻都活跃着大量的恶意网页,每天都会产生大量新的恶意网页,因此,针对恶意网页进行检测一直都是安全研究者关注的热点问题。本文在总结现有研究成果的基础上,先从攻击者的角度介绍了现有的一些攻击技术和方法,分析了相关攻击技术的特点,总结出具有不同攻击行为恶意JavaScript代码的相关特征。再从防护者的角度介绍了相关的检测方法,分析了各种检测方法的优缺点,重点介绍并分析了异常检测方法的特点,尤其是半监督异常检测方法。从数据收集和异常检测的角度分析了半监督异常检测方法的优点,据此给出了基于JavaScript对恶意网页进行异常检测的基本框架。基于此框架,从轻量级恶意网页异常检测、混淆drive-by-download攻击检测和混淆恶意JavaScript代码自动化反混淆三个方面提出检测方法并实现检测原型系统,主要研究内容和创新点如下:(1)提出了一种轻量级的恶意网页异常检测方法。其核心思想是将大量繁杂无规律的JavaScript代码用少量特征词代替,并以特征词在页面代码中的分布作为检测特征。这极大的减少了数据特征维度,并保留了代码本身的执行流程、逻辑关系和信息熵。检测方法只使用静态分析,分为数据收集、数据预处理、特征提取、检测器等几个部分。数据收集是抓取网页内容,数据预处理是将JavaScript代码从页面中分离出来后,再对代码进行词法解析。特征提取是以代码词法解析后的特征词分布为特征。检测器中使用的训练数据只须正常行为数据即可,通过主成分分析(PCA)、最近邻(K-NN)和单分类支持向量机(One-class SVM)三种算法检测恶意网页。从实际环境中收集了 JavaScript正常与恶意代码共20996条,实验结果表明,检测系统在1%误报率的情况下能达到90%的检测率,同时检测系统每秒平均能有效检测250个网页,达到了轻量级检测之目的。(2)提出了一种检测混淆drive-by-download攻击的方法。检测方法将静态分析和动态分析有机的结合起来,利用静态分析完成轻量级检测静态混淆JavaScript代码。根据代码变量值的变化提出了 9个动态行为特征,提出“变量劫持”技术并借鉴状态机模型对这些动态特征建模,使动态分析过程中能够即时检测混淆代码中的攻击行为,并具有一定的反混淆作用。具体而言,在静态分析中,假设正常页面不使用混淆JavaScript代码,即便使用也是极少。这样只须对正常页面中代码进行训练即可,以扩展后的特征词分布为特征,以测试数据与训练数据的偏移距离作为代码是否混淆依据,若偏移距离大于设定的阈值,则认为是混淆代码。在动态分析中,以从JavaScript代码中获取的变量初值和变量终值提取的9个动态特征作为检测混淆代码具有drive-by-download攻击行为的特征,结合“变量劫持”技术和变量状态模型检测具体攻击行为和进行反混淆。从实际环境中收集了JavaScript正常与恶意代码共70463条,实验结果表明,当选用PCA算法时,检测系统使用的静态分析方法对混淆drive-by-download攻击的检测在误报率为0.1%的情况下能达到99%的检测率。提出的动态分析方法能够即时检测出80%以上具有drive-by-download攻击行为的混淆代码,能够提供被检测出恶意代码的具体攻击行为信息。(3)提出并实现了一种检测混淆并能自动化反混淆JavaScript代码的方法和一种反混淆效果度量方法。通过对9种在线混淆工具和多种混淆技术的深入分析,总结出混淆JavaScript代码的普遍性外部静态行为特征和内部动态行为特征。检测系统前端通过静态分析以带权重的扩展特征词分布为检测特征,权重的计算方法是从训练样本的整体进行考虑,计算依据为:包含某个特征词样本数量较多,则该特征词权重值应该相应较大,采用One-Class SVM、K-NN和PCA算法检测混淆代码。检测系统后端通过动态分析利用抽象语法树AST(Abstract Syntax Tree)进行反混淆。动态分析分为两个步骤:首先遍历混淆代码抽象语法树AST的节点;其次根据节点类型跟踪并分析节点上的相关变量,利用相关的变量终值进行反混淆。通过对混淆操作和反混淆操作的形式化定义,提出了以编辑距离、Jaccard相似度和文本特征相似度为度量值的评价模型,达到了准确和客观的评价反混淆效果之目的。从实际环境中收集了 JavaScript正常与恶意代码共80574条,实验结果表明,检测效果较好,尤其在选用PCA算法时,在误报率为0.1%时,系统对混淆恶意JavaScript代码能达到99.99%的检测率。与此同时,本文提出的反混淆方法能自动化地对超过80%的混淆代码进行源码再现,并实现了对这些混淆代码的完全反混淆。另外,用本文提出的反混淆效果度量方法计算反混淆后代码与混淆前代码的相似度,所得值与实际的反混淆结果保持一致,说明提出的反混淆效果度量方法是一种有效的度量方法。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP393.08
【图文】:

浏览器,内部结构,工作原理,商务


图2-1浏览器工作原理及内部结构逡逑Fig.邋2-1邋Working邋principle邋and邋internal邋structure邋of邋browser逡逑商务的快速兴起和广泛应用,为了方便用户登录购物网。一

异常检测,客户端,检测系统,页面


其中"表示质心,同样设TV为事先设定的某个阈值,逡逑若则认为r是异常行为数据,反之则认为r是正常行为数据。逡逑一个常规的基于客户端的恶意网页检测系统基本框架如图2-2所示。对于一般逡逑的用户而言,检测系统只能部署在客户端上,因为普通的用户并不具备将检测系逡逑统部署在服务器或网关上的能力。当检测系统认为用户当前访问的页面为正常页逡逑面时就让用户继续访问,当认为页面为异常页面时,检测系统应立即阻止用户对逡逑该页面的访问。逡逑:逦逦邋逦1邋异常逦/逦-J邋I逡逑^逦[i1{求邋邋邋;逦X邋?逦j逡逑^逦洲练?测试!丨:常逦:邋I邋:逡逑逦邋邋邋邋}?||邋逦邋逦一;:邋 ̄3邋\逡逑参逦j逡逑丨.一…逦…一逦客户端逦j逡逑WeblK邋务器逦j逦逦逦逦j逡逑图2-2客户端异常检测系统基本框架逡逑Fig.邋2-2邋Basic邋framework邋of邋client邋anomaly邋detection邋system逡逑24逡逑

框架图,检测系统,框架,特征词


根据对JavaScript代码的分析和特征提取,我们设计的轻量级恶意网页检测方逡逑法主要由数据收集、静态分析、异常检测、结果输出与分析等部分组成。检测系逡逑统框架如图3-6所示。逡逑数据收集:由抓捕器、代码分离器和JavaScript词法解析器组成。逡逑■抓捕器的功能是获取被访问的网页源代码。代码分离器是从页面中的HTML逡逑源代码中提取出全部JavaScript源代码。词法解析器是将JavaScript源代码根据词逡逑法规范和特征词生成算法对JavaScript代码进行词法解析,使代码只用特征词就可逡逑完全表不。逡逑静态分析:由特征词唯一化和特征提取两个模块组成。逡逑特征词唯一化的功能是记录每个特征词出现的数量。特征提取是按照图3-5逡逑所示的特征提取过程生成特征矩阵。逡逑建模及检测:由检测器组成。逡逑检测器使用只用正常行为数据进行训练的异常检测方法来检测JavaScript代逡逑码。其功能是通过对训练数据的学习

【相似文献】

相关期刊论文 前10条

1 杨光;;删除恶意网页对系统修改的几个方法[J];计算机与网络;2014年08期

2 韩丰海;查看恶意网页有妙招[J];电脑应用文萃;2005年09期

3 ;追击连环恶意网页病毒[J];计算机与网络;2004年09期

4 ;轻松对付恶意网页[J];中国会计电算化;2003年07期

5 ycx;对付恶意网页三法[J];中国电子与网络出版;2003年11期

6 徐海斌;;走出恶意网页的沼泽地[J];电脑应用文萃;2002年07期

7 冰河洗剑;;斩断恶意网页之手[J];电脑迷;2007年18期

8 CLX;;三招彻底防范恶意网页[J];电脑迷;2005年12期

9 李强 ,昊虫虫;清除恶意网页病毒又两招[J];电脑爱好者;2004年20期

10 风日;;恶意网页七宗罪[J];电脑采购周刊;2002年27期

相关会议论文 前3条

1 孙靖超;;一种基于机器学习的网页分类技术[A];第32次全国计算机安全学术交流会论文集[C];2017年

2 胡永涛;姚静晶;赵恒立;;国内政府网站安全状况主动调查[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

3 唐雅茜;朱海波;黎玲;;破解恶意网页十大招[A];2008年广西气象学会学术年会论文集[C];2008年

相关重要报纸文章 前10条

1 cdrom;恶意网页几时休[N];中国电脑教育报;2002年

2 徐海斌;恶意网页我们这样对付它[N];中国电脑教育报;2002年

3 何斌;巧用“3721”屏蔽恶意网页[N];中国电脑教育报;2003年

4 ;对付恶意网页[N];中国电脑教育报;2003年

5 徐海斌;以牙还牙 巧治恶意网页病毒[N];中国电脑教育报;2002年

6 王书杰;追击连环恶意网页病毒[N];中国电脑教育报;2004年

7 边歆;恶意网页每天增加5000个[N];网络世界;2008年

8 ;“极限女孩”恶意网页病毒[N];中国财经报;2002年

9 天津 Kingstar;菜鸟VS恶意网页[N];电脑报;2003年

10 王绍清;和恶意网页代码拜拜[N];中国电脑教育报;2002年

相关博士学位论文 前2条

1 马洪亮;基于JavaScript的恶意网页异常检测方法研究[D];北京交通大学;2018年

2 沙泓州;面向大规模网络流量的URL实时分类关键技术研究[D];北京邮电大学;2015年

相关硕士学位论文 前10条

1 皇甫群泽;恶意网页检测系统的研究与实现[D];北京邮电大学;2018年

2 王维光;基于分类算法的恶意网页检测技术研究[D];北京邮电大学;2015年

3 罗剑;数据挖掘在恶意网页动态检测中的应用研究[D];上海交通大学;2012年

4 李敏;恶意网页检测系统的设计与实现[D];北京邮电大学;2016年

5 姚楠;基于客户端恶意网页收集与分析系统的安全技术研究[D];武汉理工大学;2014年

6 王松;基于学习的恶意网页智能检测系统[D];南京理工大学;2011年

7 张亮;面向Linux的浏览器恶意网页检测系统的设计与实现[D];哈尔滨工业大学;2016年

8 郭扬富;基于搜索算法的Web安全[D];福建师范大学;2011年

9 周浩;基于决策树的搜索引擎恶意网页检测研究与实现[D];湖南大学;2013年

10 庞玉敏;恶意网页智能检测技术研究与实现[D];电子科技大学;2015年



本文编号:2801495

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2801495.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d631***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com