日志采集与分析在Web网站中的设计与实现
发布时间:2017-05-07 07:09
本文关键词:日志采集与分析在Web网站中的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着大数据的流行,越来越多的企业对大数据变得重视起来,都希望能够通过大数据来分析用户的行为,为企业的决策提供进一步的指导。在这样的前提下,Web站点采集用户数据并加以分析变得越来越流行,并且切实地帮助了企业了解用户行为,进一步改善产品质量。本文主要研究Web网站的日志收集和分析,利用相关的JavaScript API对网页上用户的行为进行日志采集,然后对数据进行加工处理,最后利用分析的结果给企业提供决策支持。本文叙述了日志采集和分析的整个流程的关键技术、分析了系统的需求、设计了系统的整体架构。本文叙述了①日志采集系统的设计目标,然后围绕设计目标对API进行设计,②考虑到日志内容有可能比较大、网页会在手机等设备上面运行、网页不频繁刷新等特点,出于节省流量以及提高性能的目的,本文使用隐藏iframe来提交日志,而非利用隐藏的gif的URL刷新来提交日志,③日志发送到日志服务器后,考虑到大规模日志的情况,我们将会使用多台日志服务器并使用负载均衡,日志服务器把日志写到微软Azure存储系统,文件路径由机器名和日志时间构成,每5分钟生成一个新文件,④由后端分布式处理系统把文本日志转化成结构化日志,再用定期运行的脚本读取和处理结构化日志,生成一些常规性报表(比如每天用户数、会话数、新用户趋势等),利用SQL SERVER的Reporting Service进行报表展现,⑤把数据进行聚合再推送到数据库,利用数据库挖掘工具进行数据挖掘。在数据处理方面,考虑到数据量会很大,我们使用分布式处理系统COSMOS对数据进行处理,在大数据情况下得到了良好的性能。最后系统开发完成后通过了系统测试,并且在应用到实际生活中后系统的运行状态良好,利用日志分析的结果帮企业提供了有用的决策,证明该系统是可行并且有效的。相比于其他的系统,本文的研究内容主要有以下特点:1.企业能够得到完整的原始日志,并且基于原始日志生成多种自定义报表或者数据挖掘。2.本系统在浏览器客户端使用隐藏iframe技术,优点是一次能提交更大的数据,不用频繁提交数据,对于使用ajax来交互的站点,本系统采集数据更加节省流量。
【关键词】:日志采集 数据分析 数据挖掘
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要6-8
- ABSTRACT8-12
- 1 绪论12-16
- 1.1 日志采集与分析的背景和意义12-13
- 1.1.1 什么是日志采集12-13
- 1.1.2 什么是数据分析13
- 1.2 研究现状13-15
- 1.2.1 Web网站日志采集的研究现状13-14
- 1.2.2 数据分析的研究现状14-15
- 1.3 研究目标及内容15-16
- 2 数据分析的相关技术16-20
- 2.1 基础数据分析法16
- 2.2 数据立方技术16-17
- 2.3 频繁模式与数据挖掘相关性17
- 2.4 分类模式17-18
- 2.5 聚类模式18-20
- 3 日志采集分析系统的架构与设计20-29
- 3.1 业务分析20
- 3.2 需求分析20-22
- 3.2.1 功能性需求分析20-21
- 3.2.2 非功能性需求分析21-22
- 3.3 整体系统流程图22
- 3.4 客户端日志采集系统的设计22-29
- 3.4.1 TypeScript简介23
- 3.4.2 日志采集API的设计23-25
- 3.4.3 日志采集客户端的逻辑控制设计25-26
- 3.4.4 浏览器日志采集服务器端设计26-27
- 3.4.5 分布式读取原始日志设计27-28
- 3.4.6 日志分析28-29
- 4 核心功能的设计与实现29-54
- 4.1 日志采集客户端的设计与实现29-31
- 4.1.1 日志采集API的实现29-30
- 4.1.2 日志采集客户端iframe的实现30-31
- 4.2 服务器端的设计与实现31-39
- 4.2.1 JavaScript日志服务器端的实现31-32
- 4.2.2 静态文件的设计与缓存机制32-33
- 4.2.3 静态文件的更新33
- 4.2.4 ASPX相关设计与实现33-36
- 4.2.5 服务端的部署与配置36-37
- 4.2.6 C#日志采集系统的实现37-39
- 4.3 日志处理系统的实现39
- 4.4 日志分析的设计与实现39-54
- 4.4.1 常规性报表39-42
- 4.4.2 数据立方的创建与分析42-50
- 4.4.3 基于SQL Server的数据挖掘50-54
- 5 测试与应用54-64
- 5.1 日志采集客户端测试54-61
- 5.1.1 单元测试54-60
- 5.1.2 模块测试60-61
- 5.1.3 性能测试61
- 5.2 集成测试61-62
- 5.3 系统应用62-64
- 6 总结与展望64-65
- 6.1 工作总结64
- 6.2 展望64-65
- 参考文献65-67
- 致谢67-68
- 作者在攻读学位期间发表的论文68
【参考文献】
中国期刊全文数据库 前1条
1 程志;桂占吉;;Web挖掘的方法及教育应用[J];中国电化教育;2006年07期
本文关键词:日志采集与分析在Web网站中的设计与实现,,由笔耕文化传播整理发布。
本文编号:349422
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/349422.html