时序数据的高效存储与检索
本文关键词:时序数据的高效存储与检索,,由笔耕文化传播整理发布。
【摘要】:时序数据被广泛应用于生产生活中的众多领域,由于时序数据具有时间累积特性,因而,其数据量通常十分庞大。而现有的存储方法在空间利用、查询速度上存在不足,因此,时序数据的高效存储与检索成为一个重要的课题。 时序数据具有时间性、局部性、累积性、不可预测性等数据特征,本文的研究目标即针对上述特征,设计实现一种编码压缩算法,在保证数据准确性和完整性的情况下,对时序数据进行无损压缩,尽可能地减少数据冗余,提高存储空间利用率,同时保证数据检索效率,并最终将该算法应用到时序数据处理系统当中。 本文设计实现了适于时序数据特征的行列存储结构。该结构针对时序数据不同阶段的应用需求,将行存储与列存储进行有机结合,为不同数据操作提供合适的数据结构。 本文提出并实现了针对整型时序数据的TSDAC算法。该算法通过直接取址编码,实现了整型数据的变长高效编码压缩和直接访问。此外,TSDAC算法还通过相异数存储策略有效减少连续冗余数据的存储;通过LGAP压缩算法,以差值代替原数据进行存储,有效减少数据存储所需的空间;通过限制层数的动态规划提高数据的随机访问效率;通过连续数据查询算法,提高数据的连续读取效率。 本文提出并实现了针对浮点型时序数据的FTSDAC算法。该算法通过浮点数小数点的移位操作,将浮点型数据转换为整型数据,并结合TSDAC算法以整数形式实施编码压缩,从而实现了浮点数的高效无损压缩存储和快速查询。 实验结果表明,TSDAC算法和FTSDAC算法可以有效地实现时序数据的高效存储与检索,其压缩率和检索速度等性能显著优于DAC算法及Bzip2算法。 本文还设计实现了时序数据高效存储与检索系统,通过实现分治存储、分层存储等存储策略,从系统结构层面提高了时序数据的压缩效果和检索速度。
【关键词】:时序数据 TSDAC FTSDAC 压缩存储 检索
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-8
- 目录8-10
- 1 引言10-20
- 1.1 课题研究的背景和意义10
- 1.2 课题相关研究现状10-17
- 1.2.1 时序数据存储结构的研究现状11
- 1.2.2 整型数据压缩存储的研究现状11-16
- 1.2.3 浮点型数据压缩存储的研究现状16-17
- 1.3 课题研究的内容和目标17-18
- 1.4 论文组织结构18-20
- 2 时序数据高效存储与检索问题描述20-24
- 2.1 时序数据的数据特征20-22
- 2.2 时序数据高效存储与检索问题描述22-23
- 2.3 本章小结23-24
- 3 时序数据存储结构的分析与设计24-28
- 3.1 行存储与列存储25-26
- 3.2 适于时序数据的存储结构设计26-27
- 3.3 本章小结27-28
- 4 时序数据压缩算法设计与实现28-40
- 4.1 DAC算法28-32
- 4.2 TSDAC算法32-37
- 4.3 FTSDAC算法37-39
- 4.4 本章小结39-40
- 5 时序数据高效存储与检索系统设计与实现40-47
- 5.1 分治存储40-41
- 5.2 分层存储41-44
- 5.3 系统设计与实现44-46
- 5.4 本章小结46-47
- 6 实验与分析47-60
- 6.1 实验数据集47-48
- 6.2 时序数据预处理48-49
- 6.3 整型时序数据压缩存储实验49-53
- 6.3.1 DAC算法编码压缩实验50-51
- 6.3.2 TSDAC算法编码压缩实验51
- 6.3.3 DAC算法与TSDAC算法的评估与比较51-53
- 6.4 浮点型时序数据压缩存储实验53-59
- 6.4.1 Bzip2算法编码压缩实验55-56
- 6.4.2 FTSDAC算法编码压缩实验56-57
- 6.4.3 Bzip2算法与FTSDAC算法的评估与比较57-59
- 6.5 本章小结59-60
- 7 总结与展望60-62
- 7.1 研究工作总结60
- 7.2 进一步工作展望60-62
- 参考文献62-65
- 作者简历及攻读硕士专业学位期间取得的研究成果65-67
- 学位论文数据集67
【共引文献】
中国期刊全文数据库 前10条
1 李红;;基于Google Bigtable的海量数据存储探索[J];鞍山师范学院学报;2013年04期
2 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
3 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
4 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
5 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
6 杨震;徐敏捷;刘璋峰;秦达;姚晓辉;;语音大数据信息处理架构及关键技术研究[J];电信科学;2013年11期
7 唐宏;;基于MapReduce的大规模流量分析系统的设计[J];电信科学;2013年12期
8 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期
9 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
10 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
中国重要会议论文全文数据库 前10条
1 ;Improved Self-Indexing Inverted Files for Full-Text Retrieval[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
2 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 祁昊颖;;大数据时代电信运营商文件系统新思考[A];2013年中国信息通信研究新进展论文集[C];2014年
4 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
5 徐子伟;张陈斌;陈宗海;;大数据技术概述[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
6 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
7 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年
8 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
9 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
10 汪中琳;乔自知;郭景赞;;移动运维支撑系统的互联网思维重构[A];2014全国无线及移动通信学术大会论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
3 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
4 孙德才;基于q-gram过滤的近似串匹配技术研究[D];湖南大学;2012年
5 孙茂华;安全多方计算及其应用研究[D];北京邮电大学;2013年
6 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年
7 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年
8 王金宝;云计算系统中索引与查询处理技术研究[D];哈尔滨工业大学;2013年
9 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
10 董超;基于网络流量监测的移动互联网特征研究[D];北京邮电大学;2013年
中国硕士学位论文全文数据库 前10条
1 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
2 李春丰;面向动态文本的在线索引若干问题研究[D];广东工业大学;2011年
3 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
4 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
5 孙德才;相似字符串匹配过滤算法研究[D];湖南大学;2009年
6 徐璐;基于Lucene和文本图像的全文检索系统的研究与应用[D];北京邮电大学;2012年
7 郭琦娟;基于全文数据库的全文检索模型研究[D];中国石油大学;2007年
8 谭e
本文编号:348199
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/348199.html