基于机器学习的日志分析研究与应用

发布时间:2021-02-21 21:24
  随着现代化生产规模越来越大,生产过程中会产生越来越多的日志文本,因此,在生产过程中进行日志分析是必不可少的。同时,这些日志文本具有数据量大、批次产生、日志内容复杂、分析成本高等特点。引入机器学习技术进行日志分析,对日志问题的定位与解决提供数据支撑,可以大大减少实际分析人员的工作量与分析难度。主要研究成果包括以下四点:(1)根据实际应用场景及日志文本特点,总结出日志文本具有非结构化、不平衡与单一分类算法过拟合的问题,针对以上问题,提出一套基于集成学习以解决不平衡性的日志分析模型。(2)针对日志文本的非结构化与不平衡性的特点,且现存的不平衡处理方法仍有改进的空间,本文提出一种改进的不平衡性算法KS-SMOTE,利用Word2vec进行初级向量表示,为了向量能够提取前后向的词关系,引入双向LSTM,通过Bi-LSTM得到特征向量,利用SVM对数据集进行分类,对噪声样本进行识别并予以剔除,进而对错误分类和正确分类的样本进行SMOTE算法处理,根据聚类算法组合出新的样本集。实验结果表明,KS-SMOTE的分类效果优于SMOTE算法。(3)针对传统的单一分类算法遇到的过拟合问题,本文提出一种改进的... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

基于机器学习的日志分析研究与应用


KS-SMOTE效果图

系统图,日志,系统图


东南大学硕士学位论文62除了以上三层之外,仍需要一个消息发送器,作用是把一个个网站访问请求发送到不同的视图中,视图再使用对应的模型和模板。由于Django框架是基于Python语言平台开发的,设计者可以使用ORM机制定义具体的数据模型,从而大幅减小了数据库开发的编程压力。Django框架通过设计消息映射,避免系统乱码的出现。另外,该框架在系统内置的模板中增加扩展功能,开发者能够自主设计页面样式、控制系统的编码方式。该框架的网络请求处理如图5-8所示。浏览器Mod_python处理器响应中间层响应异常请求中间层URL映射显示中间设备开始结束图5-9网络请求处理流程图由图5-9可知,分析人员通过前端页面进行访问请求,mod_python处理器对这些请求进行处理,同时发送到请求中间设备、URL映射、显示等设备进行具体处理。提交异常处理中间设备并进行判断,同时反馈给响应中间设备进行处理,再返回到mod_python处理器进行集中处理。具体页面如图5-10所示。图5-10日志系统图

日志,问题,脚本,报表


第五章日志分析在路由器测试中的应用63由于测试分析人员的习惯以及项目需求,在页面只展示通过率、错误率和错误类型分布,具体的内容通过在线生成报表展示,报表如图5-11所示,利用xlwt库生成Excel表格。由于检测系统复杂,参与人数众多,解决脚本问题的人需要找脚本编写者,环境问题需要找外包测试组,因此通过报表里的不同问题表,可以便于分析人员快速定位并解决问题。图5-11生成报表图本章小结本章是日志分析模型在路由器测试中的实际应用,并对实际日志的问题定位提出一种有效的解决方案,本文提出一套基于集成学习以解决不平衡性的日志分析系统,就整个系统的模块进行了设计和实现,主要包括数据收集、数据管理、日志分析以及线上展示模块。

【参考文献】:
期刊论文
[1]支持向量机动态多分类方法[J]. 房汉鸣,税爱社,汪辉,宗福兴.  后勤工程学院学报. 2017(02)
[2]Unsteady aerodynamic modeling at high angles of attack using support vector machines[J]. Wang Qing,Qian Weiqi,He Kaifeng.  Chinese Journal of Aeronautics. 2015(03)
[3]复句关系词自动识别中规则的表示方法研究[J]. 胡金柱,舒江波,胡泉,李源,杨进才,谢芳.  计算机工程与应用. 2016(01)
[4]Using a support vector machine method to predict the development indices of very high water cut oilfields[J]. Zhong Yihua 1 , Zhao Lei 1 , Liu Zhibin 1 , Xu Yao 2 and Li Rong 1 1 School of Sciences, Southwest Petroleum University, Chengdu, Sichuan 610500, China 2 Sichuan Forestry Cadre School, Chengdu, Sichuan 610066, China.  Petroleum Science. 2010(03)

博士论文
[1]铁路事故故障文本大数据分析关键技术研究及应用[D]. 杨连报.中国铁道科学研究院 2018
[2]单分类支持向量机的学习方法研究[D]. 王洪波.浙江大学 2012

硕士论文
[1]基于LSTM的文本上下文依赖特征的表示方法研究[D]. 高成亮.河北科技大学 2019
[2]随机森林算法的优化研究及在文本并行分类上的应用[D]. 张鑫.南京邮电大学 2018
[3]基于CNN和LSTM的视频语义分析系统设计与实现[D]. 窦敏.南京邮电大学 2018
[4]基于增量学习的三支决策KNN算法的研究与应用[D]. 曹婧.西安理工大学 2018
[5]基于Stacking框架的互联网金融个人信用评分研究[D]. 鲁莹.暨南大学 2018
[6]多标签数据流中新标签发现及其增量学习问题研究[D]. 李永春.南京大学 2018
[7]基于Stacking模型融合的电信客户信用度模型研究与设计[D]. 周子程.华南理工大学 2018
[8]一种结合聚类和采样策略的不平衡数据分类算法[D]. 张晨.武汉科技大学 2018
[9]面向故障日志的短文本分类方法研究与实现[D]. 王彬彬.南京师范大学 2018
[10]基于序列模式挖掘的Hadoop日志预测与故障分析系统[D]. 李经纶.哈尔滨工业大学 2017



本文编号:3044940

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3044940.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5af2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com