基于大数据技术的日志统计与分析系统研究
本文关键词:基于大数据技术的日志统计与分析系统研究
【摘要】:随着大数据时代的来临,网络数据呈现爆炸式增长,IDC数据表明,全球企业数据正以62%的速度逐年增长,大量数据当中隐藏着巨大的商业价值,引起了企业的广泛关注。然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难。本文旨在实现基于大数据技术的日志统计分析系统,解决了现有的工具逐渐无法有效的处理大量数据的问题。本文在对此系统进行需求分析的基础上,设计了以多个分布式集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志数据转码、日志传输、自动识别新文件的产生、日志存储、数据查询的功能。日志数据转码对于GBK格式编码的日志进行格式转换;日志传输提供数据从不同终端到储存系统的数据收集、聚合和移动,以便模拟生产环境中数据实时产生的过程;自动识别新文件的产生,不同模块之间完成通信加载数据功能。本文综合使用了大数据生态圈的各种开源技术,包括Hadoop、Flume NG、Kfaka、Sqoop、Hive、My SQL。从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用大数据技术进行日志统计分析的典型流程。本文使用开发语言Java和shell脚本语言,开发工具为Intelli J IDEA,VIM。在多台Cent OS6.5机器之上搭建集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、传输、任务提交和调度、结果查询等操作。
【作者单位】: 北京信息科技大学计算机学院;江苏省徐州市公安局科技处;
【关键词】: 大数据 网络数据 日志统计分析 流程自动化
【基金】:北京信息科技大学2016年人才培养质量提高经费(5111610800)支持
【分类号】:TP311.13
【正文快照】: 1 概述 搜索引擎的日志文件是由使用者的搜索行为产生的,是对用户在终端行为的一种记录。通过对日志文件的分析可以获得很多有价值的数据,可以对不同用户的个性进行更加全面的分析,实现更加个性化的推荐方案。随着时间的推移,网站的用户访问量快速增长,搜索引擎产生的日志数
【相似文献】
中国期刊全文数据库 前10条
1 张晓刚;潘久辉;;MS SQL Server 2000日志分析方法的研究与实现[J];计算机工程与设计;2006年19期
2 李春林;周根鸿;张文体;;重视日志审计确保数据安全[J];医学信息;2007年10期
3 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期
4 黄海隆;陈赛娉;;计算机日志分析与管理方法的研究[J];大众科技;2006年07期
5 郑毅;;基于日志分析的网络IDS研究[J];襄樊学院学报;2008年11期
6 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期
7 邹先霞;贾维嘉;潘久辉;;基于数据库日志的变化数据捕获研究[J];小型微型计算机系统;2012年03期
8 罗新;;防火墙日志分析系统的设计与实现[J];计算机时代;2012年02期
9 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期
10 李玉荣;杨树强;贾焰;周斌;樊宇;;分布式日志服务关键技术研究[J];计算机工程与应用;2006年07期
中国重要会议论文全文数据库 前10条
1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年
2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年
7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年
9 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
10 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国重要报纸全文数据库 前10条
1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年
2 ;日志分析中的五个误区[N];网络世界;2004年
3 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年
4 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年
5 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年
6 重庆 航行者;IIS的安全[N];电脑报;2002年
7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年
8 shotgun;入侵检测初步(上)[N];电脑报;2001年
9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年
10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前3条
1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年
2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年
3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 张天生;日志采集与分析在Web网站中的设计与实现[D];上海交通大学;2015年
2 周海靖;日志大数据分析平台技术研究[D];山东大学;2015年
3 赖特;网络安全设备日志融合技术研究[D];电子科技大学;2015年
4 董妍妍;基于Hadoop的Teradata数据仓库日志分析系统的设计与实现[D];南京大学;2014年
5 李名弈;IPTVQOS日志分析方法研究[D];复旦大学;2013年
6 刘季函(Liu,Chi Han);基于Spark的网络日志分析系统的设计与实现[D];南京大学;2014年
7 李荣荣;基于Hadoop平台的日志分析系统[D];复旦大学;2013年
8 周云斌;基于主机的日志大数椐分析及安全性检查[D];大连理工大学;2015年
9 张迪;基于NoSQL的大规模Web日志分析系统的设计与实现[D];复旦大学;2013年
10 潘宇轩;基于Django的日志分析系统的设计与实现[D];南京大学;2014年
,本文编号:921037
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/921037.html