对于大规模系统日志的日志模式提炼算法的优化
发布时间:2019-10-13 18:52
【摘要】:LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。
【图文】:
uce机制的优化方法;第5节是对于该优化方法的实际效果的测试和讨论;第6节将对日志分析方面的相关研究做一些简介;在第7节中对将来的研究方向进行简单的展望。2LARGE系统简介网格环境日志分析框架LARGE是针对中国科学院超级计算环境中各类日志进行分析处理的框架式结构,它定义了框架内各模块的工作内容以及整个日志分析流程的数据传输流向和处理步骤。LARGE的基本结构和工作流程图如图1所示。Figure1StructureoftheLARGEsystem图1LARGE系统结构在LARGE中存在三个主要模块,分别是日志采集模块、日志分析模块和结果反馈模块。日志采集模块的工作是将网格环境内各种日志从它们的生成设备上传输到日志分析模块的设备上。作为框架设计,LARGE不会具体定义传输方法,相关人员可以视环境情况来选择合适的传输方式。通常情况下一般的数据采集程序就可以完成这部分工作,在特殊情况下也可以手动执行日志采集流程。日志分析模块的主要工作是对采集到的日志进行集中处理并得出分析结果,通常可能包含的处理步骤包括:(1)对从多个设备上采集到的日志进行分类。(2)对日志数据的内容进行解码并将其重组为更便于理解和处理的数据结构。(3)对日志进行筛选过滤,将某项分析所不需要的日志数据移除。根据不同的分析方式,同一数据集可能会做不同的筛选处理。(4)对筛选后的日志数据应用多种维度的统计和分析方法,并生成阶段性分析结果。822ComputerEngineering&Science计算机工程与科学2017,39(5)
件(即类似Ma-pReduce中的Map步骤)。根据所使用的设备的条件,可以设定同时运行的最大线程数,例如在一台四核的计算机上设定最大线程数为4就可以保证性能最优化,同理在八核计算机上可以设定线程数为8,而如果程序是在一个分布式环境中运行,就相当于实现了真正的MapReduce机制。在所有原日志文件的类Map步骤结束后,开始执行一个类Reduce步骤的线程对所有中间结果文件再次执行词汇一致率算法,最终得到的集合就是从全部文件提炼出的日志模式集合,如图2所示。采用这种机制后,提炼日志的时间就大幅度缩短了。Figure2ProcessofMapReduce-likelogpatternextraction图2类MapReduce机制的日志模式提炼步骤对于内存地址等大量存在的内容有异但类型相同的词汇,我们尝试在日志输入步骤中加入词汇转换函数来减小提炼结果的规模。在之前的测试中[4],词汇转换函数被认为对词汇一致率算法的效果提升比较有限的同时增加了运行时间,因此被认为不应加入到提炼过程中。然而,,面对messages日志文件中的内存地址,词汇转换函数可能是一种有效的应对方式,它可以将内容有差异的同类词汇转换成一个代表这种类型的固定词汇。对应messages日志中的几种常见类型词汇,扩展后的词汇转换函数规则如表1所示。使用词汇转换函数会对程序运行时间形成一定程度的增加,而其对于messages日志模式提炼的效果是否有显著的成效则有待验证。由于使用了类MapReduce机制的优化,当输入文件数量较多时,程序节省的整体运行时间大于使用词汇转换函数
【作者单位】: 中国科学院计算机网络信息中心;
【基金】:国家重点研发计划项目(2016YFB0201404) 十二五863重大项目(2014AA01A302)
【分类号】:TP338
本文编号:2548837
【图文】:
uce机制的优化方法;第5节是对于该优化方法的实际效果的测试和讨论;第6节将对日志分析方面的相关研究做一些简介;在第7节中对将来的研究方向进行简单的展望。2LARGE系统简介网格环境日志分析框架LARGE是针对中国科学院超级计算环境中各类日志进行分析处理的框架式结构,它定义了框架内各模块的工作内容以及整个日志分析流程的数据传输流向和处理步骤。LARGE的基本结构和工作流程图如图1所示。Figure1StructureoftheLARGEsystem图1LARGE系统结构在LARGE中存在三个主要模块,分别是日志采集模块、日志分析模块和结果反馈模块。日志采集模块的工作是将网格环境内各种日志从它们的生成设备上传输到日志分析模块的设备上。作为框架设计,LARGE不会具体定义传输方法,相关人员可以视环境情况来选择合适的传输方式。通常情况下一般的数据采集程序就可以完成这部分工作,在特殊情况下也可以手动执行日志采集流程。日志分析模块的主要工作是对采集到的日志进行集中处理并得出分析结果,通常可能包含的处理步骤包括:(1)对从多个设备上采集到的日志进行分类。(2)对日志数据的内容进行解码并将其重组为更便于理解和处理的数据结构。(3)对日志进行筛选过滤,将某项分析所不需要的日志数据移除。根据不同的分析方式,同一数据集可能会做不同的筛选处理。(4)对筛选后的日志数据应用多种维度的统计和分析方法,并生成阶段性分析结果。822ComputerEngineering&Science计算机工程与科学2017,39(5)
件(即类似Ma-pReduce中的Map步骤)。根据所使用的设备的条件,可以设定同时运行的最大线程数,例如在一台四核的计算机上设定最大线程数为4就可以保证性能最优化,同理在八核计算机上可以设定线程数为8,而如果程序是在一个分布式环境中运行,就相当于实现了真正的MapReduce机制。在所有原日志文件的类Map步骤结束后,开始执行一个类Reduce步骤的线程对所有中间结果文件再次执行词汇一致率算法,最终得到的集合就是从全部文件提炼出的日志模式集合,如图2所示。采用这种机制后,提炼日志的时间就大幅度缩短了。Figure2ProcessofMapReduce-likelogpatternextraction图2类MapReduce机制的日志模式提炼步骤对于内存地址等大量存在的内容有异但类型相同的词汇,我们尝试在日志输入步骤中加入词汇转换函数来减小提炼结果的规模。在之前的测试中[4],词汇转换函数被认为对词汇一致率算法的效果提升比较有限的同时增加了运行时间,因此被认为不应加入到提炼过程中。然而,,面对messages日志文件中的内存地址,词汇转换函数可能是一种有效的应对方式,它可以将内容有差异的同类词汇转换成一个代表这种类型的固定词汇。对应messages日志中的几种常见类型词汇,扩展后的词汇转换函数规则如表1所示。使用词汇转换函数会对程序运行时间形成一定程度的增加,而其对于messages日志模式提炼的效果是否有显著的成效则有待验证。由于使用了类MapReduce机制的优化,当输入文件数量较多时,程序节省的整体运行时间大于使用词汇转换函数
【作者单位】: 中国科学院计算机网络信息中心;
【基金】:国家重点研发计划项目(2016YFB0201404) 十二五863重大项目(2014AA01A302)
【分类号】:TP338
【相似文献】
相关期刊论文 前3条
1 詹玲;马骏;陈伯江;陈维梁;吕睿;;分布式I/O日志回放系统的设计与实现[J];计算机工程与应用;2010年36期
2 饶翔;王怀民;蔡华;周琦;孙廷韬;史殿习;尹刚;;云计算系统中基于噪声模板跳表的日志过滤方法[J];通信学报;2011年07期
3 ;[J];;年期
相关博士学位论文 前1条
1 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年
相关硕士学位论文 前4条
1 张愉;基于机器学习的EMC存储设备日志分析与Bug预测技术研究[D];南京大学;2014年
2 冯瑞;基于日志分析的虚拟机安全事件追踪系统的设计与实现[D];北京邮电大学;2014年
3 魏晨辉;高端容错计算机故障日志分析系统的设计与实现[D];哈尔滨工业大学;2011年
4 王宏宇;基于Hadoop平台的云计算构建与日志分析[D];哈尔滨理工大学;2012年
本文编号:2548837
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2548837.html