一个针对日志流分析的独立解压缩算法
发布时间:2017-11-12 15:28
本文关键词:一个针对日志流分析的独立解压缩算法
【摘要】:当今因特网和云服务每天都要产生数量惊人的日志流,存储日志流消耗了大量的磁盘空间并产生巨额的开销。人们通常在将日志存储到磁盘前对其进行压缩以减少数据的大小,但传统的压缩方法在日志分析的场景中存在一个问题,即它们在获取相关的日志项时需要解压缩很多大块的数据,这使得解压缩过程很慢而且会消耗大量的计算资源。本论文提出一个针对具有良好格式的日志流的列式压缩方法,这一方法使得每个日志条目在用于日志分析时能够独立解压缩。针对日志的特点,我们将每一个日志条目分成多个列,并对每个列采用不同的模型进行压缩。此外,我们还做了许多其他的改进,如将经常出现的模式视为短语,用辅助单词列表来处理压缩过程中遇到的新单词。我们已经将这一压缩方法实现为一个库并且将其向公众发布。我们还将其整合到两个不同的应用中,一个是日志搜索系统,另一个是日志连接系统。实验结果表明我们的压缩策略(Cowic)在解压缩时间上胜于传统的压缩方法,同时有着与之相媲美的压缩率。对于Apache访问日志,Cowic压缩算法在使用0.1%的数据做训练集时压缩率为12.5%,只是略逊于gzip。在日志搜索系统中,当数据在内存时,Cowic比gzip快了3.6-71.1倍;而当数据在磁盘上时,Cowic比gzip快了30.4%-246.8%。在日志连接系统中,Cowic在达到相同的连接质量时,相比于未压缩的日志流只消耗了30%的内存。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333.35
【共引文献】
中国硕士学位论文全文数据库 前1条
1 孙思源;基于MongoDB的网站日志分析系统的设计与实现[D];中国地质大学(北京);2014年
,本文编号:1176529
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1176529.html