基于机器学习的EMC存储设备日志分析与Bug预测技术研究
本文选题:机器学习 + 日志分析 ; 参考:《南京大学》2014年硕士论文
【摘要】:EMC是一家以存储设备、服务和解决方案为主营业务的信息存储咨询科技公司,随着公司业务的发展,越来越多的企业或个人选择购买EMC的存储设备来进行数据存储和备份。存储设备每天将运行日志上传到EMC数据中心,一旦设备发生异常,这些日志就是支持工程师用来维护和定位用户设备中Bug的唯一途径。而随着日志文件数量的不断增加,大大增加了支持工程师的人工维护成本和Bug定位的难度,并且设备Bug的产生也大大影响了用户对EMC产品的满意度。由于日志反映了用户机器设备基本信息和每天的运行情况,在一个Bug发生之前,一定可以在日志中找到相关数据的展示或波动预示Bug的产生。为此,论文项目提出了基于机器学习的日志分析和Bug预测,使用机器学习的方法找出Bug产生的规律来主动发现用户机器设备中存在的问题,帮助支持工程师及时发现并解决Bug,提高处理效率并且减少设备故障率。论文选定有关存储磁盘的Bug作为研究对象,分成两个部分完成对存储磁盘Bug的预测。第一个部分进行日志内容的提取和存储,把日志中有关于存储段落的数据使用相关的正则表达式进行匹配和提取,存储到Greenplum数据库中;第二个部分对提取出的日志数据使用Weka进行机器学习,建立Bug预测模型。论文选择Weka中决策树和贝叶斯的相关算法对数据进行学习建模,对比不同模型的优劣,最终选定一种算法建立预测模型对存储磁盘的Bug做出预测。论文主贡献包括以下几点:(1)提出了用于日志提取和Bug预测的解决方案,对存储磁盘Bug相关的日志提取和预测需求进行准确的描述和定义。(2)设计并实现了对日志内容进行提取和存储的框架,可以支持对日志内容根据需求进行提取和存储的扩展。(3)使用Weka进行机器学习模型的训练,最终选定贝叶斯网络建立Bug预测模型,达到88%的预测正确率和低于13%的漏报率。
[Abstract]:EMC is an information storage consulting technology company with storage devices, services and solutions as its main business. With the development of its business, more and more enterprises or individuals choose to purchase EMC storage devices for data storage and backup. Storage devices upload daily running logs to the EMC data center, which is the only way to support engineers to maintain and locate Bug in user devices in the event of device exceptions. With the increase of the number of log files, the cost of supporting engineers' manual maintenance and the difficulty of Bug positioning are greatly increased, and the production of equipment Bug greatly affects the user's satisfaction with EMC products. Because the log reflects the basic information of the user's machine and equipment and the daily running condition, before a Bug occurs, the display or fluctuation of the relevant data can be found in the log to predict the production of the Bug. For this reason, the paper puts forward log analysis and Bug prediction based on machine learning, using machine learning method to find out the rule of Bug production to actively discover the problems existing in user's machine equipment. Help support engineer to detect and solve Bug in time, improve handling efficiency and reduce equipment failure rate. In this paper, the Bug of storage disk is selected as the research object, and the prediction of storage disk Bug is completed in two parts. In the first part, the contents of the log are extracted and stored, and the data about the stored paragraphs are matched and extracted by using the relevant regular expressions in the log, and stored in the Greenplum database. In the second part, Weka is used to learn the extracted log data, and the Bug prediction model is established. This paper selects the decision tree and Bayesian algorithms in Weka to model the data, compares the advantages and disadvantages of different models, and finally selects an algorithm to build a prediction model to predict the Bug of the storage disk. The main contributions of this paper are as follows: 1) A solution for log extraction and Bug prediction is proposed. The log extraction and prediction requirements related to storage disk Bug are described and defined accurately. 2) the framework of extracting and storing log contents is designed and implemented. It can support the extension of extracting and storing log content according to the requirement. It can use Weka to train the machine learning model. Finally, Bayesian network is selected to establish the Bug prediction model, and the prediction accuracy is 88% and the false report rate is less than 13%.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP181;TP333
【相似文献】
相关期刊论文 前10条
1 张晓刚;潘久辉;;MS SQL Server 2000日志分析方法的研究与实现[J];计算机工程与设计;2006年19期
2 李春林;周根鸿;张文体;;重视日志审计确保数据安全[J];医学信息;2007年10期
3 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期
4 黄海隆;陈赛娉;;计算机日志分析与管理方法的研究[J];大众科技;2006年07期
5 郑毅;;基于日志分析的网络IDS研究[J];襄樊学院学报;2008年11期
6 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期
7 邹先霞;贾维嘉;潘久辉;;基于数据库日志的变化数据捕获研究[J];小型微型计算机系统;2012年03期
8 罗新;;防火墙日志分析系统的设计与实现[J];计算机时代;2012年02期
9 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期
10 李玉荣;杨树强;贾焰;周斌;樊宇;;分布式日志服务关键技术研究[J];计算机工程与应用;2006年07期
相关会议论文 前10条
1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年
2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年
7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年
9 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
10 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
相关重要报纸文章 前10条
1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年
2 ;日志分析中的五个误区[N];网络世界;2004年
3 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年
4 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年
5 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年
6 重庆 航行者;IIS的安全[N];电脑报;2002年
7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年
8 shotgun;入侵检测初步(上)[N];电脑报;2001年
9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年
10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年
相关博士学位论文 前3条
1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年
2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年
3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
相关硕士学位论文 前10条
1 张天生;日志采集与分析在Web网站中的设计与实现[D];上海交通大学;2015年
2 周海靖;日志大数据分析平台技术研究[D];山东大学;2015年
3 赖特;网络安全设备日志融合技术研究[D];电子科技大学;2015年
4 董妍妍;基于Hadoop的Teradata数据仓库日志分析系统的设计与实现[D];南京大学;2014年
5 李名弈;IPTVQOS日志分析方法研究[D];复旦大学;2013年
6 刘季函(Liu,Chi Han);基于Spark的网络日志分析系统的设计与实现[D];南京大学;2014年
7 李荣荣;基于Hadoop平台的日志分析系统[D];复旦大学;2013年
8 周云斌;基于主机的日志大数椐分析及安全性检查[D];大连理工大学;2015年
9 张迪;基于NoSQL的大规模Web日志分析系统的设计与实现[D];复旦大学;2013年
10 潘宇轩;基于Django的日志分析系统的设计与实现[D];南京大学;2014年
,本文编号:1842271
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1842271.html