基于Web应用的日志异常检测与用户行为分析研究
发布时间:2020-05-06 23:53
【摘要】:移动互联网的飞速发展和移动设备的普及使得移动应用和网页的数量都在爆炸式增长,推动着服务器、后端Web应用的蓬勃发展,Web应用成为人们获取互联网信息服务的重要入口和支撑。伴随着互联网渐渐渗透人们的生活,人们对互联网应用的服务质量、用户体验、安全状态等要求也随之提高。应用开发商和网站运营者争先将互联网产品投入市场的同时,也非常注重产品优化以提高用户黏性,其中如何收集产品运行过程中的日志数据,分析产品性能、检测异常状态、挖掘用户特点,以进一步提高运行性能、改善服务质量、提供个性化服务,是一个非常重要的研究方向。本文针对Web应用的性能及安全监控和用户行为研究的现状和技术基础,搭建访问日志采集与分析平台,实现Web应用的运行状态监控、日志异常检测以及用户行为分析,主要包括以下四个部分工作:(1)研究访问日志的采集以及数据预处理方案,实现Web应用基础运行数据的统计分析,并通过可视化图表的方式展示分析结果。(2)应用支持向量机进行日志异常检测,为了达到良好的检测效果,进行多方面的研究工作,包括研究针对Web日志请求URL的特征提取方法,通过统计分析手段对比正常请求语句、SQL注入语句、XSS注入语句的特点,基于三者之间的差异进行特征选择和提取,提出一个三层SVM检测模型;结合网格搜索和K重交叉验证法寻找最优参数;对数据集的特征属性归一化处理。最后通过实验证明这些方案有效提升了分类效果,三层检测模型具有一定的应用意义。(3)提出一种结合用户聚类算法和关联规则挖掘的分析流程来对用户访问行为进行分析。从日志中提取用户访问兴趣特征,建立用户访问偏好度模型,提出一种初始点选取优化的K-Medoids算法并应用于用户聚类,根据用户访问兴趣的相似程度划分用户群。进一步地,应用前后件约束改进的FP-Growth算法挖掘同一群体用户中网页的关联性,探究页面之间的链接关系的合理性。(4)设计平台整体架构和运行流程,结合当下流行的微服务,提供基于Dubbo和Docker的平台搭建方案。最后通过案例验证研究方案的可行性和有效性。
【图文】:
第二章 Web 访问日志采集及预处理第二章 Web 访问日志采集及预处理 Web 访问日志采集本文的主要研究内容是建立访问日志采集与分析平台实现 Web 应用的日志异及用户行为分析,,本节首先讨论 Web 访问日志的采集方案设计与实现,为后检测和用户行为分析提供数据来源。1 整体采集架构如图 2-1 所示,本文设计的 Web 访问日志的采集架构由三部分组成:应用主机log 采集服务、FlumeAgent 进程、Hadoop 文件系统(Hadoop Distributed File Sys HDFS)。
1.3 FlumeAgent 监控实现启动一个 Flume Agent 监控 514 端口,汇聚各个 Rsyslog 进程采集的日志数据这些数据持久化到 HDFS 中。Flume[22]是一个开源、高可用、可扩展的日志收集系统,目前已经成为 Hadoo的关键组件之一。Flume Agent 特指一个 Flume 进程,Flume 的基本功能是启动nt 汇集不同数据源的海量数据,将这些数据高效地传输到不同的目的地进行存进一步传输,并且能够通过简单的配置保证这个过程的负载均衡和故障转移。Flume 发展到 Flume-NG,提供了丰富的组件可供灵活配置、组合、自定义,为核心的 3 个组件是 Source、Channel、Sink,它们形成一个类似生产者-仓库-消架构,如图 2-2 所示。Source 代表数据收集模块,从数据源收集数据;Channel 可以看作是数据的缓冲时保留数据,直到 Sink 来消费数据;Sink 从 Channel 中获取数据,传输到指定目者下一级 Agent。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.09;TP309
【图文】:
第二章 Web 访问日志采集及预处理第二章 Web 访问日志采集及预处理 Web 访问日志采集本文的主要研究内容是建立访问日志采集与分析平台实现 Web 应用的日志异及用户行为分析,,本节首先讨论 Web 访问日志的采集方案设计与实现,为后检测和用户行为分析提供数据来源。1 整体采集架构如图 2-1 所示,本文设计的 Web 访问日志的采集架构由三部分组成:应用主机log 采集服务、FlumeAgent 进程、Hadoop 文件系统(Hadoop Distributed File Sys HDFS)。
1.3 FlumeAgent 监控实现启动一个 Flume Agent 监控 514 端口,汇聚各个 Rsyslog 进程采集的日志数据这些数据持久化到 HDFS 中。Flume[22]是一个开源、高可用、可扩展的日志收集系统,目前已经成为 Hadoo的关键组件之一。Flume Agent 特指一个 Flume 进程,Flume 的基本功能是启动nt 汇集不同数据源的海量数据,将这些数据高效地传输到不同的目的地进行存进一步传输,并且能够通过简单的配置保证这个过程的负载均衡和故障转移。Flume 发展到 Flume-NG,提供了丰富的组件可供灵活配置、组合、自定义,为核心的 3 个组件是 Source、Channel、Sink,它们形成一个类似生产者-仓库-消架构,如图 2-2 所示。Source 代表数据收集模块,从数据源收集数据;Channel 可以看作是数据的缓冲时保留数据,直到 Sink 来消费数据;Sink 从 Channel 中获取数据,传输到指定目者下一级 Agent。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.09;TP309
【相似文献】
相关期刊论文 前10条
1 袁帅;;社交网络用户行为分析[J];通讯世界;2017年01期
2 张治宇;;互联网宽带用户行为分析系统的设计与应用研究[J];数字通信世界;2017年08期
3 唐箭;;基于用户行为分析的云计算计费系统的分析与设计[J];辽宁经济职业技术学院(辽宁经济管理干部学院学报);2009年05期
4 吴恺;苏新宁;邓三鸿;;大数据、云计算与用户行为分析[J];数字图书馆论坛;2013年06期
5 张国权;颜燕红;;基于用户行为分析的交流充电桩设计研究[J];大众文艺;2017年04期
6 丁筱;;网络用户行为分析专利技术[J];中国新通信;2016年04期
7 邓博存;陈s
本文编号:2652067
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2652067.html