一种结合Kafka和Spark-streaming的大规模快速恶意网页识别方法的设计与实现
发布时间:2021-02-15 04:01
随着人们对互联网应用的越来越依赖,用户在互联网中遭受攻击的风险也越来越大。恶意网页是最常见的攻击方式,对用户的互联网应用安全造成了很大的威胁。论文根据当前恶意网页对互联网安全造成的威胁和面临的现状,通过理论分析与试验研究等方法深入讨论了大规模快速恶意网页识别方法及其应用。论文首先对恶意网页的定义、典型防范措施以及Kafka和Spark-streaming等技术进行了简述,然后重点分析了网页样本集获取及特征提取方法。论文对恶意网页识别及检测方法进行了设计,选择Weka工具对样本数据进行分类训练和模型构建,选择支持向量机算法、朴素叶贝斯算法和线性神经网络算法进行了对比实验。论文最后对系统应用实例进行了设计,测试结果表明,论文提出的系统方案具备较高的恶意网页识别率,比其他静态检测方法具备更好的性能,能够满足大规模恶意网页识别需求。
【文章来源】:南京邮电大学江苏省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
恶意网页识别系统用例图
容易造成处理层崩溃,而 Kafka 系统作为收集层和处理层之间的缓冲,有效地解上问题。框架中集成 Kafka 系统后,采集的汇总数据会以会话 Topic 方式进行存储。层需要进行数据处理时,Kafka 系统才会将汇总的数据通过数据通道推送至处理层。(3)处理层。处理层主要由 Spark-streaming 构成。在数据处理过程中,实时数据进层后,会通过 Spark-streaming 将其转化为数量不等的 D-stream 分片,D-stream 分片D 序列构成。Spark 体系中的 DAGScheduler 函数能够将 D-stream 分片中的 RDD 序为供 Spark 内核使用的数据集,然后进行分布式计算。在进行计算处理过程中rk-streaming 将数据处理任务分解成多个 Stage ,然后将 Stage 转换为任务集kScheduler 进行推送,然后通过 TaskScheduler 将任务向集群不同的计算节点进行推送,布式计算。 系统工作流程设计工作流程主要对系统的数据处理过程和集群管理过程进行描述,具体流程如图 4.2所示
图 4.3 网页样本搜集模块类图网页抓取方法的研究,系统使用扩展后的 Apache Nutch2用 Apache Nutch2 架构进行的爬虫过程属于循环流程,具体 SampleAction 类的 GetSample 方法获取全球访问量前 10供的恶意链接 URL 名单。ads 类的 Calculatetime 方法对页面数据产生变化的时间间隔改变的频率,进而可以与页面改变频率相同的频率进行数行处理的链接队列中,选择某个链接,CrawlController 类CrawlController 类的 endurl 方法和 pausseurl 方法对采集任awlOrder 类的 Geturlinfo 方法对该链接所属的页面信息进行
【参考文献】:
期刊论文
[1]基于Java的数据库应用框架的设计分析[J]. 程小红. 电子设计工程. 2018(21)
[2]使用程序分析和特征识别方法过滤网页广告[J]. 何欣程,查春柳,许蕾. 小型微型计算机系统. 2018(09)
[3]基于Spring MVC框架的Java Web应用[J]. 葛萌,黄素萍,欧阳宏基. 计算机与现代化. 2018(08)
[4]基于RBF神经网络的Android恶意行为识别[J]. 陈天伟. 现代电子技术. 2018(15)
[5]基于SVM的恶意流量检测及其改进方法分析[J]. 张远,徐逸卿. 信息与电脑(理论版). 2018(12)
[6]混淆恶意JavaScript代码的多特征检测识别与分析[J]. 曲文鹏,赵连军,邓旭. 智能计算机与应用. 2018(04)
[7]无线网络恶意入侵数据自动识别仿真研究[J]. 王丹,李娜. 计算机仿真. 2018(06)
[8]基于Java EE多层框架的实时监测系统设计与实现[J]. 魏志军,周肖树,路良刚. 电子设计工程. 2018(11)
[9]基于主成分分析和随机森林的恶意网站评估与识别[J]. 陈远,王超群,胡忠义,吴江. 数据分析与知识发现. 2018(04)
[10]基于聚类算法的恶意网站智能检测系统[J]. 王帅,赵刚,岳媛,苗睿捷,刘海曼. 信息系统工程. 2018(04)
硕士论文
[1]基于学习的恶意网页智能检测系统[D]. 王松.南京理工大学 2011
本文编号:3034396
【文章来源】:南京邮电大学江苏省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
恶意网页识别系统用例图
容易造成处理层崩溃,而 Kafka 系统作为收集层和处理层之间的缓冲,有效地解上问题。框架中集成 Kafka 系统后,采集的汇总数据会以会话 Topic 方式进行存储。层需要进行数据处理时,Kafka 系统才会将汇总的数据通过数据通道推送至处理层。(3)处理层。处理层主要由 Spark-streaming 构成。在数据处理过程中,实时数据进层后,会通过 Spark-streaming 将其转化为数量不等的 D-stream 分片,D-stream 分片D 序列构成。Spark 体系中的 DAGScheduler 函数能够将 D-stream 分片中的 RDD 序为供 Spark 内核使用的数据集,然后进行分布式计算。在进行计算处理过程中rk-streaming 将数据处理任务分解成多个 Stage ,然后将 Stage 转换为任务集kScheduler 进行推送,然后通过 TaskScheduler 将任务向集群不同的计算节点进行推送,布式计算。 系统工作流程设计工作流程主要对系统的数据处理过程和集群管理过程进行描述,具体流程如图 4.2所示
图 4.3 网页样本搜集模块类图网页抓取方法的研究,系统使用扩展后的 Apache Nutch2用 Apache Nutch2 架构进行的爬虫过程属于循环流程,具体 SampleAction 类的 GetSample 方法获取全球访问量前 10供的恶意链接 URL 名单。ads 类的 Calculatetime 方法对页面数据产生变化的时间间隔改变的频率,进而可以与页面改变频率相同的频率进行数行处理的链接队列中,选择某个链接,CrawlController 类CrawlController 类的 endurl 方法和 pausseurl 方法对采集任awlOrder 类的 Geturlinfo 方法对该链接所属的页面信息进行
【参考文献】:
期刊论文
[1]基于Java的数据库应用框架的设计分析[J]. 程小红. 电子设计工程. 2018(21)
[2]使用程序分析和特征识别方法过滤网页广告[J]. 何欣程,查春柳,许蕾. 小型微型计算机系统. 2018(09)
[3]基于Spring MVC框架的Java Web应用[J]. 葛萌,黄素萍,欧阳宏基. 计算机与现代化. 2018(08)
[4]基于RBF神经网络的Android恶意行为识别[J]. 陈天伟. 现代电子技术. 2018(15)
[5]基于SVM的恶意流量检测及其改进方法分析[J]. 张远,徐逸卿. 信息与电脑(理论版). 2018(12)
[6]混淆恶意JavaScript代码的多特征检测识别与分析[J]. 曲文鹏,赵连军,邓旭. 智能计算机与应用. 2018(04)
[7]无线网络恶意入侵数据自动识别仿真研究[J]. 王丹,李娜. 计算机仿真. 2018(06)
[8]基于Java EE多层框架的实时监测系统设计与实现[J]. 魏志军,周肖树,路良刚. 电子设计工程. 2018(11)
[9]基于主成分分析和随机森林的恶意网站评估与识别[J]. 陈远,王超群,胡忠义,吴江. 数据分析与知识发现. 2018(04)
[10]基于聚类算法的恶意网站智能检测系统[J]. 王帅,赵刚,岳媛,苗睿捷,刘海曼. 信息系统工程. 2018(04)
硕士论文
[1]基于学习的恶意网页智能检测系统[D]. 王松.南京理工大学 2011
本文编号:3034396
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3034396.html