基于大数据的日志采集分析系统的研究与实现
发布时间:2021-11-28 11:02
互联网的飞速发展,带来了日益增多的互联网用户。互联网服务提供商为了提高企业的服务质量,需要记录用户的访问信息、网络的运行状况等。而庞大的用户量,使得记录信息的过程会产生海量的日志。针对海量网络日志的分析系统为互联网企业提供了有效的日志收集方式和日志处理分析的能力。本文提出了一种在大数据环境对日志进行收集分析的系统,系统使用Flume和Kafka进行日志的收集和分发,日志是分布在不同机器、不同操作系统上的、具有多样性的海量日志,然后通过Storm和HBase进行日志处理和日志存储,并采用k-means聚类算法对收集的日志进行聚类分析。系统分析的主体内容是从日志中提取出的用户行为,网络服务提供商通过系统分析的结果来优化自身的服务。文章首先介绍了日志收集系统的国内外研究现状和研究成果,分析了日志的特征,结合海量日志的特点对日志收集分析系统做出研究设计和实现。其次在日志分析部分对聚类算法进行了研究和改进。在日志采集部分,本文结合海量日志的特征,基于分布式架构,采用了多节点Flume进行日志收集。为了提高收集日志的可靠性以及防止日志的丢失,该系统使用Flume作为日志消息的生产者,Kafka作为...
【文章来源】:华北电力大学河北省 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
HBase架构图
所示:知, SSE 为所有点到类心的距离平方和。做聚类分判断分类越准确,因此 K-mean 算法的效果可以用点分为一类是最标准的分类,每个类的特征极其细际应用中这是几乎不现实的[37]。对于一个有 n 个点为一个类,则由于只有一个质心,而数据分布非常当分为两个类时,数据集有两个质心,宏观上看每而平方和会更小。考虑极端情况,分为 N 类,理想则 SSE 的结果为 0。通过上述分析可知,在 K 增]。假设数据集的数量非常大,分为N类和N-1类的结下可以判断出分为 N 类,比 N-1 类多分出一类的 K+1 对于聚类结果的贡献非常小。而在 K=1,分此,对于 K 值的评判可以 K 值增加时对聚类质心 K 值的关系如图 3-1 所示。
表 5-3 服务配置表(server_config)字段 字段类型 NULL 说明ID INT(10) N 服务编号(主键)SERVER_IP Varchar(50) N 服务机器 IP 地址SERVER_ENV VARCHAR(100) N Flume 环境变量SERVER_SHELL VARCHAR(100) N 收集日志 shell 命令SERVER_REG VARCHAR(100) N 日志切割正则表达式SERVER_KEYLIST VARCHAR(50) N 日志提取字段列表SERVER_PKEY VARCHAR(50) N HBase 主键列表5.3 系统功能实现5.3.1 查看日志分析服务列表功能用户查看日志服务列表界面如图 5-1 所示。
【参考文献】:
期刊论文
[1]基于kafka消息平台的软件系统设计[J]. 裴宏祥,于晓虹. 电子技术与软件工程. 2018(18)
[2]基于区间2-型模糊度量的粗糙K-means聚类算法[J]. 逯瑞强,马福民,张腾飞. 模式识别与人工智能. 2018(03)
[3]基于聚类思想的加权条件熵及属性约简[J]. 范会涛,冯涛. 郑州大学学报(理学版). 2018(01)
[4]基于Spark的用户行为分析系统框架研究[J]. 殷乐,姚远,刘辰. 网络安全技术与应用. 2018(02)
[5]对K-means聚类算法欧氏距离加权系数的研究[J]. 郭靖. 网络安全技术与应用. 2016(10)
[6]基于Apache Flume的大数据日志收集系统[J]. 于秦. 中国新通信. 2016(18)
[7]一个简单日志统计工具的设计与实现[J]. 李维峰. 电脑编程技巧与维护. 2016(17)
[8]基于聚类思想的概念格压缩[J]. 何苗. 陕西理工学院学报(自然科学版). 2016(03)
[9]基于信息熵的二次聚类推荐算法[J]. 李辉,石钊,易军凯. 计算机工程. 2016(05)
[10]基于Hadoop平台的网站日志分析[J]. 宋梦馨,缪红萍,王溯,张二松. 信息系统工程. 2015(12)
硕士论文
[1]基于Kafka和Storm的实时日志流处理系统的设计与实现[D]. 周敏菲.贵州大学 2017
[2]基于Storm实时日志分析存储系统的设计与实现[D]. 梁满.沈阳师范大学 2017
[3]基于HBase的空间数据云存储研究[D]. 孟鑫淼.河南大学 2016
[4]高维数据的降维及聚类方法研究[D]. 孙喜利.兰州大学 2016
[5]海量数据存储和准实时查询系统设计与实现[D]. 齐方方.西南石油大学 2015
[6]基于CCN网络的服务内容分析及迁移[D]. 邓舒姗.北京邮电大学 2015
[7]K-means聚类方法的改进及其应用[D]. 李荟娆.东北农业大学 2014
本文编号:3524304
【文章来源】:华北电力大学河北省 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
HBase架构图
所示:知, SSE 为所有点到类心的距离平方和。做聚类分判断分类越准确,因此 K-mean 算法的效果可以用点分为一类是最标准的分类,每个类的特征极其细际应用中这是几乎不现实的[37]。对于一个有 n 个点为一个类,则由于只有一个质心,而数据分布非常当分为两个类时,数据集有两个质心,宏观上看每而平方和会更小。考虑极端情况,分为 N 类,理想则 SSE 的结果为 0。通过上述分析可知,在 K 增]。假设数据集的数量非常大,分为N类和N-1类的结下可以判断出分为 N 类,比 N-1 类多分出一类的 K+1 对于聚类结果的贡献非常小。而在 K=1,分此,对于 K 值的评判可以 K 值增加时对聚类质心 K 值的关系如图 3-1 所示。
表 5-3 服务配置表(server_config)字段 字段类型 NULL 说明ID INT(10) N 服务编号(主键)SERVER_IP Varchar(50) N 服务机器 IP 地址SERVER_ENV VARCHAR(100) N Flume 环境变量SERVER_SHELL VARCHAR(100) N 收集日志 shell 命令SERVER_REG VARCHAR(100) N 日志切割正则表达式SERVER_KEYLIST VARCHAR(50) N 日志提取字段列表SERVER_PKEY VARCHAR(50) N HBase 主键列表5.3 系统功能实现5.3.1 查看日志分析服务列表功能用户查看日志服务列表界面如图 5-1 所示。
【参考文献】:
期刊论文
[1]基于kafka消息平台的软件系统设计[J]. 裴宏祥,于晓虹. 电子技术与软件工程. 2018(18)
[2]基于区间2-型模糊度量的粗糙K-means聚类算法[J]. 逯瑞强,马福民,张腾飞. 模式识别与人工智能. 2018(03)
[3]基于聚类思想的加权条件熵及属性约简[J]. 范会涛,冯涛. 郑州大学学报(理学版). 2018(01)
[4]基于Spark的用户行为分析系统框架研究[J]. 殷乐,姚远,刘辰. 网络安全技术与应用. 2018(02)
[5]对K-means聚类算法欧氏距离加权系数的研究[J]. 郭靖. 网络安全技术与应用. 2016(10)
[6]基于Apache Flume的大数据日志收集系统[J]. 于秦. 中国新通信. 2016(18)
[7]一个简单日志统计工具的设计与实现[J]. 李维峰. 电脑编程技巧与维护. 2016(17)
[8]基于聚类思想的概念格压缩[J]. 何苗. 陕西理工学院学报(自然科学版). 2016(03)
[9]基于信息熵的二次聚类推荐算法[J]. 李辉,石钊,易军凯. 计算机工程. 2016(05)
[10]基于Hadoop平台的网站日志分析[J]. 宋梦馨,缪红萍,王溯,张二松. 信息系统工程. 2015(12)
硕士论文
[1]基于Kafka和Storm的实时日志流处理系统的设计与实现[D]. 周敏菲.贵州大学 2017
[2]基于Storm实时日志分析存储系统的设计与实现[D]. 梁满.沈阳师范大学 2017
[3]基于HBase的空间数据云存储研究[D]. 孟鑫淼.河南大学 2016
[4]高维数据的降维及聚类方法研究[D]. 孙喜利.兰州大学 2016
[5]海量数据存储和准实时查询系统设计与实现[D]. 齐方方.西南石油大学 2015
[6]基于CCN网络的服务内容分析及迁移[D]. 邓舒姗.北京邮电大学 2015
[7]K-means聚类方法的改进及其应用[D]. 李荟娆.东北农业大学 2014
本文编号:3524304
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3524304.html