基于搜索引擎的恶意对象发掘系统的设计与开发
本文选题:搜索引擎 + 恶意软件 ; 参考:《山东大学》2013年硕士论文
【摘要】:恶意对象发掘系统是卡巴斯基公司针对现有的样本收集和分析处理系统的一次研究性尝试,其方向符合未来杀毒行业发展的基本趋势。其中涉及到多个学科和业行的技术,是一个典型的利用多学科知识交叉实现的系统。如搜索引擎技术、分布式系统并行处理架构、机器学习和虚拟机系统等。系统摒弃传统杀毒行业一直沿用的被动收集和感染后查杀的模式,采用主动检索,在大数据和海量文件的基础上进行挖掘和抽取。这种积极发现恶意程序并在恶意程序感染和扩散之前更新病毒库的方式,在第一时间阻断了可能感染用户的信息渠道。 本文采用统一建模的工程方法,以面向对象的思想对系统进行需求分析和设计。在系统需求分析章节我们对总体业务系统的流程进行了详细说明,分析了四大模块的功能,对模块与模块之间的协作关系进行描述,样本收集为例,着重研究了对原始网页的采集,分类及分析过程。从活动图设计、类结构设计、数据库设计等方面详细描述系统的设计,得到了系统中的设计类和数据库模型;重点分析了样本基础信息库和网址分类库的表设计。 全文通过对借助搜索引擎进行恶意软件传播的传播方式及特点的分析,有针对性的设计出一套精准有效的监测和自动查杀系统。在整体上系统使用了典型的C/S架构。因为涉及到大量现有的功能平台,系统使用跨平台的软件技术以兼容和驱动繁杂的异构系统,所以我们选用各种平台无关的脚本语言开发主要业务逻辑,例如Perl,PHP等。在病毒样本收集阶段,基于虚拟机实现了一个分布式系统检测环境。创建并引入恶意对象流的概念,在此基础上设计了系统对潜在恶意对象的智能判断以及自动化处理流程。其中重点介绍了如何基于搜索引擎发现恶意对象和恶意对象的分类处理,基于恶意对象特征库,采用支持向量机设计出一个恶意程序检测算法,并用实验实证的方法进行数据比对,分析该算法的理论可行性和实用性。最后进行软件测试对各项功能进行评测。 该系统目前在实验室内稳定运行,根据现有的统计数据看,系统基本达到预期。系统已经开始为公司业务系统贡献了很多有价值的恶意程序样本。
[Abstract]:The malicious object discovery system is a research attempt of Kaspersky Company aimed at the existing sample collection and analysis and processing system, and its direction accords with the basic trend of the future development of antivirus industry. The technology involves many disciplines and industries, and it is a typical system using multidisciplinary knowledge. Such as search engine technology, distributed system parallel processing architecture, machine learning and virtual machine systems. The system abandoned the traditional anti-virus industry has been used passive collection and post-infection kill mode, using active retrieval, on the basis of big data and massive files for mining and extraction. This way of actively detecting malicious programs and updating the virus library before the malicious program infects and spreads blocks the information channel of the possible infected users at the first time. In this paper, the unified modeling engineering method is used to analyze and design the requirements of the system with the idea of object-oriented. In the chapter of system requirement analysis, we explain the flow of the whole business system in detail, analyze the functions of the four modules, describe the cooperative relationship between the modules and the modules, and collect samples as an example. The process of collecting, classifying and analyzing the original web pages is studied emphatically. The design of the system is described in detail from the aspects of activity diagram design, class structure design, database design and so on. The design class and database model of the system are obtained, and the table design of the sample base information base and the URL classification database is analyzed. Based on the analysis of the transmission mode and characteristics of malware spread by search engine, a set of accurate and effective monitoring and automatic killing system is designed in this paper. On the whole, the system uses a typical C / S architecture. Because it involves a large number of existing functional platforms, the system uses cross-platform software technology to compatible and drive complex heterogeneous systems, so we choose various platform-independent scripting languages to develop the main business logic, such as Perl PHP and so on. In the phase of virus sample collection, a distributed system detection environment based on virtual machine is implemented. The concept of malicious object flow is created and introduced. Based on this, the intelligent judgment and automatic processing flow of potentially malicious objects are designed. It focuses on how to classify and process malicious objects and malicious objects based on search engine. Based on the signature library of malicious objects, a malicious program detection algorithm is designed by using support vector machine (SVM). The theoretical feasibility and practicability of the algorithm are analyzed. Finally, software tests are carried out to evaluate the functions. The system is running stably in the laboratory at present. According to the existing statistics, the system basically meets the expectation. The system has begun to contribute a number of valuable samples of malicious programs to the company's business systems.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.52;TP391.3
【相似文献】
相关期刊论文 前10条
1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
2 ;关键词搜索[J];每周电脑报;2000年38期
3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
相关重要报纸文章 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
相关硕士学位论文 前10条
1 陈刚;基于行为分析智能推荐购物搜索引擎的设计与实现[D];北京交通大学;2011年
2 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
本文编号:2068642
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2068642.html